为了对比ai的数学能力,我让ai做了高考题…

如题,本着斗蛐蛐的图一乐精神,我分别让GPT 4.1 GPT o3 mini(用不了o3)Gemini 2.5 pro grok 3mini DeepSeek R1 这几个讨论度比较高的大模型做了一下本人刚做完的某套模拟卷的椭圆、导数、新定义,想要来测试一下现在的大模型能不能在某种程度上替代作业帮,结果如下:

模型名称 椭圆题 导数题 新定义题 总体表现
GPT-4.1 :cross_mark: (陷入向量推导,最终骗证) :warning: (仅解出第一问求切线,其余失败) :warning: (需提供答案和指引后才完成) 较弱,非思考型模型面对复杂问题乏力
GPT-O3 Mini :white_check_mark: :white_check_mark: :white_check_mark: 优秀,独立完成所有题目且答案正确
Gemini 2.5 Pro :cross_mark: :warning: (仅解出简单部分) :cross_mark: 不及预期,作为推理模型表现令人失望
Grok :white_check_mark: :cross_mark: :cross_mark: 意外惊喜,椭圆题解答出色,其他题目失败
DeepSeek R1 :white_check_mark: :cross_mark: (给出详细但错误的解法) :cross_mark: (给出详细但错误的解法) 表现参差,深度思考但存在严重幻觉

首先是来自Open AI的两个模型,GPT4.1作为非思考模型面对这种由人类人为制造的复杂问题明显乏力,除了导数最简单的第一问求切线之外全军覆没,并且在我提供答案并进行指引后才成功做出了导数和新定义,可惜在椭圆里GPT深陷向量中无法自拔,最终直接进行了骗证(这倒是学的挺好)

GPT o3 mini面对这种问题则展现出了推理模型的优势,独立自主的完成了所有题目,并且答案正确

接着是在赛前被我寄予厚望的Gemini 2.5 pro,可惜不知是我的期待过高还是能力的确有限,作为一个推理模型的Gemini 2.5 pro最终取得了和GPT 4.1一样的成绩,令人唏嘘

不过怀着悲痛心情开始测试下个月就将离我而去的grok 之后,我却得到了不小的惊喜,在事前因为酒馆对话的表现不佳我一度将grok作为沉浸式翻译专用低质模型,结果在这次比赛中grok居然非常迅速的完成了椭圆并给出了正确答案,可惜面对导数和新定义最终还是遗憾折戟

最后就是全世界都在吹为什么还是不发r2的DeepSeek,在经过远超其他模型的深度思考之后,R1针对导数和新定义均给出了详细的错误解法,尽管他的语气十分让人信服,但这里是数学的世界,幻觉是没有用的,不过也不算太让人失望,R1还是出色的完成了椭圆题目,不算太让人失望

总结一下这次我在睡前突发奇想的图一乐,完全没有事前计划,也知道还有许多优秀的模型没有测试,但结果也出乎了我的意料(Gemini你在做什么),看着AI们的思考链飞速延伸,尽管其中有着大量的试错(特别是DeepSeek,不知道要吃我多少token),但也不禁让人担心未来人类的思维被彻底超越,不过还好,这些模型现在都还在我的号池里好好躺着,我做这些题也不需要那些漫长的思维链

12 个赞

题目在哪呢

1 个赞

我之前测得广州二模。DS 在这里表现不算差。


注:为了严谨性,题目均 Gemini OCR 人工检查后再送测,Gemini 温度我记得都统一 0.2,R1 0.6,openai 推理模型无法设置。

或许是因为我只测试了导数解析和新定义三道大题,也有可能是DeepSeek app端降智了(我为了加速app和api同时跑的不同题目)

题目全都是GPT ocr后我人工检查后发卷,没有任何区别

1 个赞

佬,有没有测claude3.7thinking呢?想看看c3.7t和gpt-o3的效果 :rofl:

想看的话我后续测一下吧,这次这几个模型的选择标准是我open cat里配置了这几个渠道,非常潦草

不过o3 mini就已经能把所有题都做对了,我估计o3也是毫无悬念,Claude的话,我帖子里的表格是Claude画的(

DeepSeek-Prover-V2 这个?

这个不是用来做题用的。prover 是做形式证明的模型,和高考题基本无关

2 个赞

题目:

Gemini 2.5 Pro Preview 05-06证明的

大致感觉还行吧,没认真对着看,第二题思路跟答案差不多

gemini怎么做不对

辅导数学作业的家长有活路了

o3-mini就这么吊,o3不更乱杀了

o3

1 个赞

没必要,不如把答案给他

Claude 3.7 Sonnet thinking

1 个赞

怎么o3 mini做对了o3反而错了

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。