高考数学大赛：六大 AI 模型争锋，豆包与元宝双双夺冠

dharma · 2025 年6 月 10 日 01:05

[高考数学大赛：六大 AI 模型争锋，豆包与元宝双双夺冠]

随着高考的到来，数学考试再一次成为考生们心中的 “魔鬼”。在这场竞争中，六大人工智能模型也参与了挑战，分别是字节的豆包、腾讯的元宝、阿里的通义、百度的文心 X1Turbo、深度求索的 DeepSeek 以及 OpenAI 的 o3。

此次测试采用的是 2025 年新课标 Ⅰ 卷的 14 道客观题，总分为 73 分，涵盖了单选题、多选题和填空题。

为了确保测试的公平性，所有模型在答题时都没有系统提示和联网搜索的支持，每个模型只能进行一次答题。经过一番较量，最终结果出乎意料，豆包和元宝同以 68 分的成绩并列第一，展现了出色的推理能力。

相对而言，DeepSeek 和通义则稍显逊色，分别以 63 分和 62 分完赛。而文心 X1 和 o3 的表现则令人失望，尤其是 o3，仅获得 34 分，显现出对国内高考题目的适应性不足。

在具体题型的表现上，豆包、通义和元宝在单选题的表现颇为亮眼，各自得分 35 分。DeepSeek 因两道题失误拿下 30 分，而 o3 则惨遭滑铁卢，单选题的得分仅为 20 分，错了一半的题目。

而在多选题方面，豆包、DeepSeek 和元宝均表现完美，三道题全对。相对来说，通义的表现虽然快速，但在关键时刻的判断失误也导致得分不理想。

hanlinwenyuan · 2025 年6 月 10 日 01:05

什么玩意
OpenAI o3 146分暴打全场
啥营销号消息

ElonMusk · 2025 年6 月 10 日 01:07

不对吧，O3怎么可能这么低

aitech · 2025 年6 月 10 日 01:07

机器之心的这个测试做得一点儿也不专业和严谨，他们测试的是产品而不是模型，当个乐子看就好。

zzhzzh · 2025 年6 月 10 日 01:09

机器之新就是鲨笔，我把整个pdf丢给o3,o3能拿130,一道一道做能145已上

WWZ · 2025 年6 月 10 日 01:10

对 o3实力不是吹的

当然也不排除机器之心没实力用的是降智的o3…

lyt · 2025 年6 月 10 日 01:12

是不是野榜啊(感觉)

Yirong_Chen · 2025 年6 月 10 日 01:12

这个不是当天就有结论了么,这个测试的o3是降智版本的

Bandog · 2025 年6 月 10 日 01:13

非常不准确的测试，站内已经有很多讨论了

https://linux.do/t/topic/709073

Lush · 2025 年6 月 10 日 01:13

这是转载的哪的降智o3吧

chesha1 · 2025 年6 月 10 日 01:15

机器之心量子位新智元，这三家都是著名的 ai 营销号，它们的文章建议别看浪费时间

yiwu · 2025 年6 月 10 日 01:17

看到这结果我就想到这个帖子。

PS：还是建议转载把来源标的醒目些

6512345 · 2025 年6 月 10 日 01:21

降智还是把自己的名声给害啦www

handsome · 2025 年6 月 10 日 01:39

好离谱。。

loyol · 2025 年6 月 10 日 01:49

什么牛马榜单
这怎么可能
o3的数学能力会比国内的差？？？
这部搞笑嘛

jedixu · 2025 年6 月 10 日 01:57

这篇稿子平台收多少钱呐？编辑良心不会痛么？o3在他们嘴里这么不堪？？？

Leoseo · 2025 年6 月 10 日 02:02

究竟什么是真,什么是假,没用过不降的真的要被忽悠的要死

xthons · 2025 年6 月 10 日 02:05

来鹅城只为三件事：公平！公平！还是他MD公平！

crystal · 2025 年6 月 10 日 02:05

你怕不是从这里找的吧

VrianCao · 2025 年6 月 10 日 02:41

说明一下：这个帖子是我要求锁掉的，不太想看到大家吵起来就让始皇锁掉了，而不是其他原因

话题		回复	浏览量
《机器之心》草台班子搞七捻三 ChatGPT , 纯水	8	344	2025 年7 月 9 日
欢迎大家踊跃投稿高考数学各模型的做题情况，更新了GPT5,解题速度没有o3快，话说第六题这么难吗搞七捻三 ChatGPT , 人工智能	182	6503	2025 年8 月 8 日
感觉 AI 的数学没想象中的那么强啊搞七捻三人工智能	23	532	2025 年5 月 8 日
马斯克20万块GPU炼出Grok-3，暴击DeepSeek R1数学屠榜，疯狂复仇OpenAI 前沿快讯	14	1276	2025 年3 月 26 日
刷到一个令人无语的AI测试题搞七捻三人工智能	67	1511	2025 年5 月 29 日