Gemini 3.1 Pro轻松解决的竞赛题也被GPT 5.2 Pro解决了，但是……

NewbieXvwu · 2026 年2 月 21 日 10:12

从 Gemini 3.1 Pro拿下竞赛数学题，目前唯一答对的 - 搞七捻三 - LINUX DO继续讨论：
我当时测试GPT 5.2 Thinking这道题做不出来（超出思维链长度上限直接截断），有佬友表示5.2 Pro做得出来，遂测试

提示词：3. 设 n 是正整数. 有 n 张红色卡片与 n 张蓝色卡片, 最初每张红色卡片上都写有一个实数 0, 每张蓝色卡片上都写有一个实数 1. 一次操作是指: 选择一张红色卡片与一张蓝色卡片, 满足红色卡片上的实数 x 小于蓝色卡片上的实数 y, 将这两个实数擦去, 并在这两张卡片上都写下实数 \frac{x+y}{2}.
求最小的正整数 n, 使得可以适当地进行有限次操作, 让所有 n 张红色卡片上的实数之和大于 100.

中文回答，公式用$包裹，输出详细解析。这是一道极其困难，极其具有误导性的顶级竞赛题目，你必须最大化思考强度才有可能做出来。禁止联网搜索

以下是5.2Pro的解答：

（注：由于ChatGPT网页端的公式渲染似乎有bug，我又让3Flash帮我格式化了一遍）

检查了一下思维链，期间使用了Python工具，共用时74m18s解出答案
我又新开了个对话，尝试要求它不使用任何工具解出答案，然后苦等了3个小时……然后……

从思维链来看，还是做错了，跟绝大多数模型一样答了101而非正确答案106

错就错了，模之常情（目前还没有遇到第三个做得出来的）
但关键问题在什么地方呢？
Gemini 3.1 Pro做出这道题用了：

363秒。

恐怖。

当然，GPT做得慢也不是完全没有理由的，我们来看下双方的互评：
Gemini对GPT批评的总结：

所以说Gemini的回答还是有些不严谨的，应该扣分（Gemini自评认为自己应该拿总分的40%，因为过程有跳跃）

Gemini的做法十分巧妙（注意力惊人），而GPT的做法就是纯粹的暴力了：

为什么会得出这样的结论呢？我把GPT的思考过程丢给Gemini分析（这里是最精彩的

）：

好家伙，合着GPT仗着自己超长思维链直接暴力用数值计算摸索出答案符合的规律，然后从结论倒推“假装”自己真的做出过程了啊……

彩蛋：又让Gemini分析了一下GPT禁用Python工具后苦苦思考3小时的那一场，结果更搞笑了，GPT完全没摸到正确路径，笃信正确答案是101：

test121212 · 2026 年2 月 21 日 10:24

Gemini3.1pro好强

212741 · 2026 年2 月 21 日 10:25

看着佬的对话，ai那种风格让我想到
@StellaFortuna 了

NewbieXvwu · 2026 年2 月 21 日 10:31

哈哈，其实入站之前经常游客刷帖，看到过欣姐的帖子

litjohn · 2026 年2 月 21 日 10:35

这个在 3 Pro 大战 5.1 Pro 的时候就有了，“Gemini 思考一分钟胜过 GPT 思考十分钟”

甚至 2.5 Pro 大战 o3 时代也是这样，o3 喜爱使用 Python 等算出数值，然后硬凑过程。

zhangshunfei · 2026 年2 月 21 日 10:37

之前5.2刚出的时候就试了一下，60多分钟出的结果，确实是对的，看起来应该是那种无限试错回退的那种

ylzqwq · 2026 年2 月 21 日 10:38

gpt 思考的比较慢不是很正常的事吗？

但 gemini 3.1 的逻辑好像确实变强了许多

NewbieXvwu · 2026 年2 月 21 日 10:39

但问题是它方向没找对，佬麻烦看下上面倒数第二张图里Gemini的分析，GPT纯数值暴力计算然后结果反推过程，而且74min对5min的时间差距太离谱了

ylzqwq · 2026 年2 月 21 日 10:41

嗯嗯，我还是第一次看见 gemini 这么说话，有点意思

StellaFortuna · 2026 年2 月 21 日 10:43

太好啦
很荣幸捏(希望没差评)

StellaFortuna · 2026 年2 月 21 日 10:45

找不到联想点，你是说AI的回复有我的影子吗？()
没有看出来
(这么多字，根本不敢看w 我如今只看克劳德/豆包写的长文本一个让我心情愉悦，一个是真的高质量而且是我的刚需，不然我不会问豆包)

NewbieXvwu · 2026 年2 月 21 日 11:00

看最后两张图就好啦w

zhenhuang · 2026 年2 月 21 日 11:00

但是总感觉gemini的推导很多时候很不严谨，总喜欢跳步，也不如gpt稳当，我感觉是他训练数据做的更好，联想快

StellaFortuna · 2026 年2 月 21 日 11:04

看了前半部分，发现他的思维和克劳德4.6opus不思考是一样的
只可惜…

算力不够，爆炸了

deep_water · 2026 年2 月 21 日 12:35

根据答案写过程吗，有点意思

Zeus_Jie · 2026 年2 月 21 日 12:40

但是为什么 gpt 写代码能力比 gemini 强？

lulujiang · 2026 年2 月 21 日 12:43

代码不是数学,佬友

Zeus_Jie · 2026 年2 月 21 日 12:44

代码和数学都是讲逻辑的

sparklydream · 2026 年2 月 21 日 12:44

Gemini 写代码比 GPT 强啊

sparklydream · 2026 年2 月 21 日 12:45

https://livecodebenchpro.com/

话题		回复	浏览量
gemini3pro和gpt5.1哪个数理逻辑好？搞七捻三人工智能 , 纯水	24	872	2025 年11 月 19 日
Gemini 3.1 Pro拿下竞赛数学题，目前唯一答对的搞七捻三人工智能	79	2551	2026 年3 月 27 日
GPT-5.2-Pro vs Gemini-3-pro-deepthink 评测转载: 两者在严谨数学证明层面仍然存在比较多的问题前沿快讯 ChatGPT , OpenAI , Gemini , 人工智能	30	894	2026 年2 月 16 日
写数学题哪个AI比较好哇搞七捻三快问快答	33	395	2026 年2 月 25 日
有没有AI模型能够搞定CMO（全国中学生数学竞赛） 2025？D1Q2 搞七捻三人工智能	57	1479	2026 年1 月 4 日

Gemini 3.1 Pro轻松解决的竞赛题也被GPT 5.2 Pro解决了，但是……

363秒。

相关话题