Gemini 3.1 Pro轻松解决的竞赛题也被GPT 5.2 Pro解决了,但是……

Gemini 3.1 Pro拿下竞赛数学题,目前唯一答对的 - 搞七捻三 - LINUX DO继续讨论:
我当时测试GPT 5.2 Thinking这道题做不出来(超出思维链长度上限直接截断),有佬友表示5.2 Pro做得出来,遂测试

提示词:3. 设 n 是正整数. 有 n 张红色卡片与 n 张蓝色卡片, 最初每张红色卡片上都写有一个实数 0, 每张蓝色卡片上都写有一个实数 1. 一次操作是指: 选择一张红色卡片与一张蓝色卡片, 满足红色卡片上的实数 x 小于蓝色卡片上的实数 y, 将这两个实数擦去, 并在这两张卡片上都写下实数 \frac{x+y}{2}.
求最小的正整数 n, 使得可以适当地进行有限次操作, 让所有 n 张红色卡片上的实数之和大于 100.

中文回答,公式用$包裹,输出详细解析。这是一道极其困难,极其具有误导性的顶级竞赛题目,你必须最大化思考强度才有可能做出来。禁止联网搜索

以下是5.2Pro的解答:

(注:由于ChatGPT网页端的公式渲染似乎有bug,我又让3Flash帮我格式化了一遍)

检查了一下思维链,期间使用了Python工具,共用时74m18s解出答案
我又新开了个对话,尝试要求它不使用任何工具解出答案,然后苦等了3个小时……然后……



从思维链来看,还是做错了,跟绝大多数模型一样答了101而非正确答案106

错就错了,模之常情(目前还没有遇到第三个做得出来的)
但关键问题在什么地方呢?
Gemini 3.1 Pro做出这道题用了:

363秒。

恐怖。

当然,GPT做得慢也不是完全没有理由的,我们来看下双方的互评:
Gemini对GPT批评的总结:


所以说Gemini的回答还是有些不严谨的,应该扣分(Gemini自评认为自己应该拿总分的40%,因为过程有跳跃)

Gemini的做法十分巧妙(注意力惊人),而GPT的做法就是纯粹的暴力了:


为什么会得出这样的结论呢?我把GPT的思考过程丢给Gemini分析(这里是最精彩的:rofl:):

好家伙,合着GPT仗着自己超长思维链直接暴力用数值计算摸索出答案符合的规律,然后从结论倒推“假装”自己真的做出过程了啊……

彩蛋:又让Gemini分析了一下GPT禁用Python工具后苦苦思考3小时的那一场,结果更搞笑了,GPT完全没摸到正确路径,笃信正确答案是101:

49 个赞

Gemini3.1pro好强

3 个赞

看着佬的对话,ai那种风格让我想到
@StellaFortuna

1 个赞

哈哈,其实入站之前经常游客刷帖,看到过欣姐的帖子 :grinning_face_with_smiling_eyes:

3 个赞

这个在 3 Pro 大战 5.1 Pro 的时候就有了,“Gemini 思考一分钟胜过 GPT 思考十分钟”

甚至 2.5 Pro 大战 o3 时代也是这样,o3 喜爱使用 Python 等算出数值,然后硬凑过程。

7 个赞

之前5.2刚出的时候就试了一下,60多分钟出的结果,确实是对的,看起来应该是那种无限试错回退的那种

2 个赞

gpt 思考的比较慢不是很正常的事吗?

但 gemini 3.1 的逻辑好像确实变强了许多

4 个赞

但问题是它方向没找对,佬麻烦看下上面倒数第二张图里Gemini的分析,GPT纯数值暴力计算然后结果反推过程,而且74min对5min的时间差距太离谱了

3 个赞

嗯嗯,我还是第一次看见 gemini 这么说话,有点意思

1 个赞

太好啦
很荣幸捏(希望没差评)

1 个赞

找不到联想点,你是说AI的回复有我的影子吗?()
没有看出来 :melting_face:
(这么多字,根本不敢看w 我如今只看克劳德/豆包写的长文本 一个让我心情愉悦,一个是真的高质量 而且是我的刚需,不然我不会问豆包)

2 个赞

看最后两张图就好啦w

2 个赞

但是总感觉gemini的推导很多时候很不严谨,总喜欢跳步,也不如gpt稳当,我感觉是他训练数据做的更好,联想快

2 个赞

看了前半部分,发现他的思维和克劳德4.6opus不思考是一样的
只可惜…

算力不够,爆炸了 :pleading_face:

2 个赞

根据答案写过程吗,有点意思

1 个赞

但是为什么 gpt 写代码能力比 gemini 强?

1 个赞

代码不是数学,佬友

1 个赞

代码和数学 都是讲逻辑的

2 个赞

Gemini 写代码比 GPT 强啊

2 个赞

https://livecodebenchpro.com/

2 个赞