Gemini 3 Pro Preview 大海捞针注意力测试跑分，只有2.5p的1/3左右

Lianues · 2025 年11 月 23 日 17:20

gemini-3-pro-preview也出了有几天了，不知道各位体验的如何
不过看起来注意力确实不是很好
之前cli泄漏的时候就测过一次了，当时就在说注意力可能不会很好，只有2.5p的1/3，不过现在看来没有任何变化，曲线甚至都没有变，依旧是2.5p的1/3：
Gemini 3 Pro召回率测评，召回率只有2.5Pro的1/3，上下文注意力大退步，实际写代码或许堪忧？ - 开发调优 - LINUX DO

现在正式上线了，给出一个新的跑分结果：

可以发现是否开思考，思考预算和等级开多少，和注意力没有任何关系，对于gemini系列是这样的，但是对于其他厂商的模型不一定。开思考只会增加gemini系列模型的其他方面能力，但是注意力是不会有任何提示的。甚至对于gemini-3pro-preview系列模型来说会有一些方面的退步，比如爆思考预算：

可以发现开高思考反而很容易超过思考预算（32768）导致截断，观察可见，后续一直在重复思考：

甚至思考488秒后截断了：

这个脱靶现象，在捞针测试时很常见，所以在得出思考和注意力无关后，我都是设为low进行测试的。

所以，如果没有必要，思考设为low或许是个很好的选择，既不至于能力下降太多，又不至于让模型思考过多

对于思考过多：其实你仔细观察，会发现模型经常会重复进行思考某些内容，或者进行自我安全审查，开high反而没有用处

如果可以，你可以试着卡掉他的思维链，或者进行覆写。总之原生思维链问题很大，有点太烂了。需要提示词进行发力。

还有一点，设置思考等级和预算，不意外着其只能思考那么多token，超过强行截断。你可以理解为，内置了一个提示词：你的思考等级是high/low，这样
因为我设置low，依旧能思考32k后截断。从这里就能看出来了

另外，我再强调一下，不能说3p注意力只有32k，只能说3p注意力是2.5p的1/3大概，因为影响因素很多，比如改变针的数量：

其实这个图里面是有规律的，每10针注意力加10k大概，但是针多了就不明显了，还有一些其他规律：

以后再开帖细说吧，不过能看见我选的40针只是一个折中的结果而已。所以说本测试的绝对数字其实不具有直接意义，只能用来进行各种比较

本测试仓库链接，存放有原始数据和结果

choulei · 2025 年11 月 23 日 17:37

所以是不是在连续对话中可用性大打折扣

Lianues · 2025 年11 月 23 日 17:37

或许吧，实际得自己进行体验

a192212595 · 2025 年11 月 23 日 17:38

挺飘逸的，我也感觉这几天

Lazelz · 2025 年11 月 23 日 17:38

这个结果跟实际体验非常吻合了实际上用3.0p创作长篇小说时丢上文设定是比较频繁的比2.5p表现要差

cyan_tyan · 2025 年11 月 23 日 17:54

目前用起来短文确实无敌，拉长以后真的不太行，细节丢的厉害，失忆一样

MIKUSCAT · 2025 年11 月 23 日 17:58

偏个题，我感觉3 Pro的甲很薄
当然我觉得gpt注意力最强，以前喜欢2.5也是因为注意力

cwlum · 2025 年11 月 23 日 18:04

我目前實際使用發現在長對話中手動在關鍵地方設置cheakpoint 注意力還是不錯的可能和gemini的新注意力機制有關

Drlinuxdo · 2025 年11 月 23 日 18:07

甲是变厚的，因为我用很多2.5ro时期的对话，直接让3pro重新回答，结果有部分问题被审查拦住了。虽然简单伪造上下文就能过，但还是不如2.5时期百无禁忌

bohe · 2025 年11 月 23 日 18:33

所以说，有可能反而low>high？

Lianues · 2025 年11 月 23 日 18:34

是这样，你把low/high当成某个系统提示词就行了，你可以靠覆写思维链达成更好的效果

loldoe3 · 2025 年11 月 23 日 18:40

有收获，感谢

lueluelue · 2025 年11 月 23 日 18:45

…

lueluelue · 2025 年11 月 23 日 18:45

居然是这样的

handsome · 2025 年11 月 24 日 00:53

啊，这么点

iris7220 · 2025 年11 月 24 日 00:56

我用起来也更喜欢2.5pro一点

mozhuqiu · 2025 年11 月 24 日 01:02

我自己实际用下来也是这样，写短文3很不错，但是一旦长了就很容易忘记之前发生的事情

qqmiemiezhenzhunai · 2025 年11 月 24 日 01:12

g3就像当代打工人，有点小聪明但能摸则摸

HLiny · 2025 年11 月 24 日 01:15

我觉得把最大的窗口试出来很重要，能有200k吗？

freebsdfx · 2025 年11 月 24 日 01:23

google说了3.0 Pro是从头新训练的, 连主架构都变了, 不是升级而是全新物种.

既然是不一样的架构, 那2.5和3.0之间的关系是互补, 而不是简单的替代升级品.

在有些细分领域, 2.5还是很强的. 而知识广度方面, 明显是3.0更强.

话题		回复	浏览量
gemini-3-flash大海捞针曲线对比2.5p，3p 开发调优人工智能	27	1176	2025 年12 月 29 日
关于gemini3的问题搞七捻三人工智能	17	461	2025 年12 月 30 日
大家有没有觉得Gemini3更新后，引以为傲的100万上下文彻底无了搞七捻三人工智能	43	1720	2026 年2 月 16 日
Gemini 3 Pro召回率测评，召回率只有2.5Pro的1/3，上下文注意力大退步，实际写代码或许堪忧？开发调优人工智能	50	5048	2025 年11 月 21 日
Gemini 3 pro preview个人使用体感2 - 稍长上下文的处理能力好像没我想象的差搞七捻三人工智能 , 纯水	13	795	2025 年11 月 24 日

Gemini 3 Pro Preview 大海捞针 注意力测试跑分，只有2.5p的1/3左右