Gemini 3 Pro Preview 大海捞针 注意力测试跑分,只有2.5p的1/3左右

gemini-3-pro-preview也出了有几天了,不知道各位体验的如何
不过看起来注意力确实不是很好
之前cli泄漏的时候就测过一次了,当时就在说注意力可能不会很好,只有2.5p的1/3,不过现在看来没有任何变化,曲线甚至都没有变,依旧是2.5p的1/3:
Gemini 3 Pro召回率测评,召回率只有2.5Pro的1/3, 上下文注意力大退步,实际写代码或许堪忧? - 开发调优 - LINUX DO

现在正式上线了,给出一个新的跑分结果:

可以发现是否开思考,思考预算和等级开多少,和注意力没有任何关系,对于gemini系列是这样的,但是对于其他厂商的模型不一定。开思考只会增加gemini系列模型的其他方面能力,但是注意力是不会有任何提示的。甚至对于gemini-3pro-preview系列模型来说会有一些方面的退步,比如爆思考预算:

可以发现开高思考反而很容易超过思考预算(32768)导致截断,观察可见,后续一直在重复思考:

甚至思考488秒后截断了:

这个脱靶现象,在捞针测试时很常见,所以在得出思考和注意力无关后,我都是设为low进行测试的。

所以,如果没有必要,思考设为low或许是个很好的选择,既不至于能力下降太多,又不至于让模型思考过多

对于思考过多:其实你仔细观察,会发现模型经常会重复进行思考某些内容,或者进行自我安全审查,开high反而没有用处

如果可以,你可以试着卡掉他的思维链,或者进行覆写。总之原生思维链问题很大,有点太烂了。需要提示词进行发力。

还有一点,设置思考等级和预算,不意外着其只能思考那么多token,超过强行截断。你可以理解为,内置了一个提示词:你的思考等级是high/low,这样
因为我设置low,依旧能思考32k后截断。从这里就能看出来了


另外,我再强调一下,不能说3p注意力只有32k,只能说3p注意力是2.5p的1/3大概,因为影响因素很多,比如改变针的数量:

其实这个图里面是有规律的,每10针注意力加10k大概,但是针多了就不明显了,还有一些其他规律:

以后再开帖细说吧,不过能看见我选的40针只是一个折中的结果而已。所以说本测试的绝对数字其实不具有直接意义,只能用来进行各种比较

本测试仓库链接,存放有原始数据和结果

47 个赞

所以是不是在连续对话中可用性大打折扣

或许吧,实际得自己进行体验

1 个赞

挺飘逸的,我也感觉 这几天:joy:

这个结果跟实际体验非常吻合了 实际上用3.0p创作长篇小说时 丢上文设定是比较频繁的 比2.5p表现要差

目前用起来短文确实无敌,拉长以后真的不太行,细节丢的厉害,失忆一样

2 个赞

偏个题,我感觉3 Pro的甲很薄
当然我觉得gpt注意力最强,以前喜欢2.5也是因为注意力

我目前實際使用發現在長對話中手動在關鍵地方設置cheakpoint 注意力還是不錯的 可能和gemini的新注意力機制有關

甲是变厚的,因为我用很多2.5ro时期的对话,直接让3pro重新回答,结果有部分问题被审查拦住了。虽然简单伪造上下文就能过,但还是不如2.5时期百无禁忌

所以说,有可能反而low>high?

是这样,你把low/high当成某个系统提示词就行了,你可以靠覆写思维链达成更好的效果

1 个赞

有收获,感谢

1 个赞

居然是这样的

啊,这么点

我用起来也更喜欢2.5pro一点

我自己实际用下来也是这样,写短文3很不错,但是一旦长了就很容易忘记之前发生的事情

g3就像当代打工人,有点小聪明但能摸则摸

我觉得把最大的窗口试出来很重要,能有200k吗?

google说了3.0 Pro是从头新训练的, 连主架构都变了, 不是升级而是全新物种.

既然是不一样的架构, 那2.5和3.0之间的关系是互补, 而不是简单的替代升级品.

在有些细分领域, 2.5还是很强的. 而知识广度方面, 明显是3.0更强.

1 个赞