最近用AI做定理证明太投入,一不小心把Gemini的额度用完了。趁着等待Gemini重置额度的时间,我把正在证的一个证明分别在多个AI上面试了一下。办法很简单,初始是完全相同的问题,然后哪个AI有了反馈后,就跟哪个AI交流。上个日志坛友们推荐了豆包和GLM5。所以候选工具是4个,分别是DeepSeek V3(百万上下文),KIMI 2.5,GLM 5和豆包。调研后发现豆包就没有上传项目文件的功能,直接出局。这样就形成了三英战吕布的格局。
由于类似的问题之前用Gemini解决过,所以主要是看DS,KIMI和GLM是否能尽快给出正确的证明。我要证的是一个复杂递归函数的函数步进的等效性。由于这个递归函数特别复杂,那些高度自动化的单步证明策略是一定会超时的。所以在一开始,我就告诉这些AI不能用单步证明策略,只能用逐步拆解的手工证明方法。DS和KIMI都听明白了,但是GLM的第一次回答还是选择了单步证明策略,在我纠正后,它后面也开始输出逐步拆解的证明方案。
在最初的几轮,这些AI都试图对一个特别复杂的单一待证目标进行各种变形和优化,但是无一例外证不出来,不是超时就是证错。GLM在两轮之后就消耗完了我套餐的所有token,率先出局。
第三轮KIMI最先想出来把单一待证目标拆解成多个小目标,然后分别证明的方案。但是它在消解掉多数子目标后,对于还剩下的两个子目标一直没消解掉,直至我的套餐额度用完。DS在我把KIMI的方案喂给它后,明确提示对单一目标进行拆解。它用了七轮,最后给出了一个合格的证明方案。