如题,本着斗蛐蛐的图一乐精神,我分别让GPT 4.1 GPT o3 mini(用不了o3)Gemini 2.5 pro grok 3mini DeepSeek R1 这几个讨论度比较高的大模型做了一下本人刚做完的某套模拟卷的椭圆、导数、新定义,想要来测试一下现在的大模型能不能在某种程度上替代作业帮,结果如下:
| 模型名称 | 椭圆题 | 导数题 | 新定义题 | 总体表现 |
|---|---|---|---|---|
| GPT-4.1 | 较弱,非思考型模型面对复杂问题乏力 | |||
| GPT-O3 Mini | 优秀,独立完成所有题目且答案正确 | |||
| Gemini 2.5 Pro | 不及预期,作为推理模型表现令人失望 | |||
| Grok | 意外惊喜,椭圆题解答出色,其他题目失败 | |||
| DeepSeek R1 | 表现参差,深度思考但存在严重幻觉 |
首先是来自Open AI的两个模型,GPT4.1作为非思考模型面对这种由人类人为制造的复杂问题明显乏力,除了导数最简单的第一问求切线之外全军覆没,并且在我提供答案并进行指引后才成功做出了导数和新定义,可惜在椭圆里GPT深陷向量中无法自拔,最终直接进行了骗证(这倒是学的挺好)
GPT o3 mini面对这种问题则展现出了推理模型的优势,独立自主的完成了所有题目,并且答案正确
接着是在赛前被我寄予厚望的Gemini 2.5 pro,可惜不知是我的期待过高还是能力的确有限,作为一个推理模型的Gemini 2.5 pro最终取得了和GPT 4.1一样的成绩,令人唏嘘
不过怀着悲痛心情开始测试下个月就将离我而去的grok 之后,我却得到了不小的惊喜,在事前因为酒馆对话的表现不佳我一度将grok作为沉浸式翻译专用低质模型,结果在这次比赛中grok居然非常迅速的完成了椭圆并给出了正确答案,可惜面对导数和新定义最终还是遗憾折戟
最后就是全世界都在吹为什么还是不发r2的DeepSeek,在经过远超其他模型的深度思考之后,R1针对导数和新定义均给出了详细的错误解法,尽管他的语气十分让人信服,但这里是数学的世界,幻觉是没有用的,不过也不算太让人失望,R1还是出色的完成了椭圆题目,不算太让人失望
总结一下这次我在睡前突发奇想的图一乐,完全没有事前计划,也知道还有许多优秀的模型没有测试,但结果也出乎了我的意料(Gemini你在做什么),看着AI们的思考链飞速延伸,尽管其中有着大量的试错(特别是DeepSeek,不知道要吃我多少token),但也不禁让人担心未来人类的思维被彻底超越,不过还好,这些模型现在都还在我的号池里好好躺着,我做这些题也不需要那些漫长的思维链




