🔥【大模型系列23】关于Gemini 3.1 Deep Think新版,你想知道的一切

介绍

官网:Gemini 3 Deep Think: AI model update designed for science
.Gemini Deep Think: Redefining the Future of Scientific Research — Google DeepMind

deep think智商高于底模的原理,Reddit用户推测是:gemini-3-deep-think和gpt-5.2-pro版本使用并行测试时间计算。它们不是单一的、一次性模型运行。相反,相同的输入会使用不同的随机种子运行8到10 次,并选择最佳结果。

上下文:192k,不是gemini3的1m

评测

官方自评



ARC-ARI-2评分

来源:ARC Prize - Leaderboard

Chatbot渠道

暂时只有官方网页版,必须Ultra会员,官价$250/月,头三月半价$125,
每天可用10次deepthink
L站拼车¥180左右/月,家庭组6人车,额度独立,
对于真用得到的人,如果不浪费额度,¥180÷30天÷10次=¥0.6/次,不算贵
另外Ultra会员的Antigravity Opus额度,Reddit用户估计是Pro会员的20倍
Pro的gemini-3-pro额度高,Opus额度最近一直砍,很低根本不够用

API渠道:未对公众开放

仅对科研人员开放

IDE渠道:未开放

自家Antigravity里也没有deepthink

38 个赞
:fire:【省钱系列5】顶级会员:Gemini Ultra vs ChatGPT Pro【260306楼底更新Deep think常见问题】
:fire:【大模型系列26】关于Gemini 3.1 Pro,你想知道的一切【底楼更新LiveBench评分】
:fire:【大模型系列28】关于GPT-5.4-thinking和GPT-5.4-pro,你想知道的一切【底楼更新mini和nano】
:fire:【图像视频系列5】Ultra会员NotebookLM视频预览新增Cinematic模式【更新实测体验】
:fire:【省钱系列7】常见AI官价/额度,及优惠/羊毛/拼车价汇总【底楼更新闲鱼常见坑】
:fire:【省钱系列6】L站Google/Antigravity/Gemini Ultra会员拼车经验
:fire:【大模型系列26】关于Sonnet-4.6,你想知道的一切【已更新LiveBench,在Antigravity已上线】
:fire:【大模型系列25】关于Qwen-3.5,你想知道的一切【百万上下文来了】
:fire:【省钱系列5】顶级会员:Gemini Ultra vs ChatGPT Pro【260306楼底更新Deep think常见问题】
:fire:【大模型系列27】关于Grok 4.2,你想知道的一切【底楼更新grok-4.2-beta2上线】
:fire:【省钱系列7】常见AI官价/额度,及优惠/羊毛/拼车价汇总【底楼更新闲鱼常见坑】
:fire:【省钱系列7】常见AI官价/额度,及优惠/羊毛/拼车价汇总【底楼更新闲鱼常见坑】
:fire:【省钱系列10】Claude Code Max,Codex Team最新渠道研究
:fire:【省钱系列9】Claude Code Opus额度的秘密:2api的刀,与CC官方刀,此刀非彼刀,又被宰一刀
:fire:【省钱系列11】我做的Claude Code Saver,争取做最强CC额度监控+省钱插件【预告贴】
【省钱系列8.10】Claude Code Max,Opus4.6,OAuth直连拼车方案的实践研究
【AI大战短评系列3】真假1m上下文大战开打,CC Max 1m已上线,Antigravity 1m暂未上线
:fire:【IDE系列3】Codex插件常见问题解决办法
:fire:【大模型系列29】关于Minimax 2.7,你想知道的一切【底楼更新Arena编程评分】
:fire:【大模型系列21】关于GLM5,你想知道的一切【底楼更新Trae/Kilo免费】
:fire:【大模型系列22】关于Minimax M2.5,你想知道的一切【楼底更新OpenRouter月榜第一】
:fire:【大模型系列24】关于Doubao Seed 2.0 Pro,你想知道的一切【LMArena总榜第6】
:fire:【图像视频系列4】关于Seedance2,你想知道的一切,性能碾压Sora2/VEO3.1【260326更新海外上市】
:fire:【省钱系列8】Claude Code Max,Opus-4.6的所有渠道研究【260321底楼更新OAuth直连拼车】
:fire:【提智降智系列1】未预训练内容造成严重降智,与各模型搜索能力研究

近期我其他文章

.🔥【提智降智系列1】未预训练内容造成严重降智,与各模型搜索能力研究
.🔥【资料系列2】Reddit所有AI板块大全【手工收集,长期更新】

.https://linux.do/t/topic/1664227
.🔥【省钱系列6】L站Google/Antigravity/Gemini Ultra会员拼车经验
.🔥【省钱系列5】顶级会员:Gemini Ultra vs ChatGPT Pro【260306楼底更新Deep think常见问题】

.🔥【大模型系列28】关于GPT-5.4-thinking和GPT-5.4-pro,你想知道的一切【底楼更新LiveBench登顶】
.🔥【大模型系列27】关于Grok 4.2,你想知道的一切【底楼更新grok-4.2-beta2上线】
.🔥【大模型系列26】关于Gemini 3.1 Pro,你想知道的一切【底楼更新LiveBench评分】
.🔥【大模型系列25】关于Qwen-3.5,你想知道的一切【百万上下文来了】
.🔥【大模型系列24】关于Doubao Seed 2.0 Pro,你想知道的一切【LMArena总榜第6】
.🔥【大模型系列23】关于Gemini 3.1 Deep Think新版,你想知道的一切
.🔥【大模型系列22】关于Minimax M2.5,你想知道的一切【楼底更新OpenRouter月榜第一】
.🔥【大模型系列21】关于GLM5,你想知道的一切【底楼更新Trae/Kilo免费】
.🔥【大模型系列20】关于Opus-4.6,你想知道的一切【底楼更新METR评测】
.🔥【大模型系列19】关于GPT-5.3-Codex与Codex App,你想知道的一切【底楼更新LiveBench,OpenRouter已上线】

.🔥【图像视频系列5】Ultra会员NotebookLM视频预览新增Cinematic模式【更新实测体验】
.🔥【图像视频系列4】关于Seedance2,你想知道的一切,性能碾压Sora2/VEO3.1【260211新增随变app不限量渠道】

4 个赞

感谢分享~ 新年学不动了~

来了佬!

这Ultra一般用不起,中文评测很少,就找点英文评测吧

2 个赞
3 个赞

感谢分享!

1 个赞

感谢分享,不过貌似信息还不多?

1 个赞

Deepthink贵啊,比较小众,买的人少,评测也少

另外Deepthink没有API,很多评测要连API才能跑评测程序

比如gpt-5.3-codex到现在都没有API,所以几乎所有评测榜都没有5.3

2 个赞

deepthink还是额度太少了,隔壁chatgpt pro比Gemini ultra便宜,GPT-5.2 pro还随便用 :innocent:

1 个赞

更新ARC-AGI-2

这ARC-AGI-3估计应该快出了,ARC-AGI-2分数已经快不够用了
来源:ARC Prize - Leaderboard

1 个赞

X上有人说新版deepthink底模是gemini-3.1-pro

老版deepthink是基于gemini-3-pro
这个理论说得通
分数一下提升这么多,deepthink应该只是一个高级Agent,不是独立的模型,如果同一底模,不太可能一下子涨分30%,ARC-AGI2直接翻倍有余
因为gemini-3.1-pro没上市,所以不能这么宣传
新模型先在高级会员首发特权,也是OpenAI惯用的拉$200会员销量的伎俩,Google学习下也正常
以上个人言论,真实性未知

有人发现deepthink官方文档的标题是gemini-3.1-pro并截图并发到X,现在标题已经被官方改掉了


官方文档:https://storage.googleapis.com/deepmind-media/gemini/gemini_3_deep_think_model_evaluation.pdf

发现者的X原贴:https://x.com/synthwavedd/status/2022003839784935536
Reddit讨论帖:https://www.reddit.com/r/Bard/comments/1r3l992/gemini_3_deep_think_was_really_gemini_31_pro_so/

2 个赞

太强了,大佬

严谨点,API渠道半开放,需要申请,一般是科研人员去

1 个赞

关于CodeForces的分数3455含义

我统计了下

Gemini-3-deepthink=3455,超过3455分的人类,貌似有7个
gpt-5.2-pro=分数找不到,应该不比o3-pro强多少,否则早拿出来显摆了
o3-pro=2724~2748

gemini-3-pro=2512
opus4.6=2352

deepseek-r1=2029
o1=1683~2061分
o1-preview=1258

人类中位数是1143(评测超过6次以上)

deepseek3=1134
gpt-4o=759~808
sonnet3.5=717
gpt4=392分(2023年8月)

下图人类CodeForces的分数分布,图y轴是该分数段人数
来源:https://codeforces.com/blog/entry/126802

1 个赞

SVG测试:鹈鹕骑自行车

来源:https://www.reddit.com/r/singularity/comments/1r3bl58/gemini_3_deep_think_svg_pelican_riding_a_bicycle/

gemini-3-deep-think


GPT-5.2-think


gemini-3-pro

1 个赞

感谢分享。。

这个新的鹈鹕骑车有点离谱 :astonished_face:

感谢分享!


我拿deepthink画的鹈鹕

2 个赞