🔥【原创长文】O3 Deep research vs 2.5-pro Deep research

dwqxq1 · 2025 年5 月 2 日 07:57

Deep research第三弹

第二弹见：🔥【原创长文】让AI为你写有声书：基于Deep research+音频朗读的学习方法
第一弹见：🔥【原创长文】Genspark Super Agent vs 各家Deep Research vs Manus

以下观点来源于我数十个研究主题，使用同一提示词，同时生成O3与2.5-pro Deep research两个版本，反复阅读全文或听全文音频之后的个人总结，每人研究主题不同，需求不同，有人跟我体验不同，也是完全正常的，以下仅代表个人体验

另外二者也不是冲突的，我通常是同一主题，O3和2.5pro一起研究，互相作为补充

二者相当的

字数相当
O3和2.5-pro正文一般都是一万多字。
提示词得当或来源特别丰富时，可能有两万多字
O3的参考资料概述，最多还可以额外有一万字左右，中文信息源链接有时候也会占上万token（网址里的用于定位的中文转义为20%AD%这种，非常费token），但这些都不影响正文字数
2.5pro没有这两个功能，也就不会输出这2万token
O4-mini和2.0-flash-thinking Deep research是大几千字
其他Deep research好的大几千字，差的小几千字
都可以分享研究链接给别人（对方无需注册）
O3分享方式Ⓐ：点右上角分享图标，包含提示词，同一对话内多个报告，非研究对话
O3分享方式Ⓑ：点研究回答下面的分享图标，不包含提示词，非研究对话
2.5pro分享方式Ⓐ：研究回答左下角点隐藏的分享图标 → 分享对话内容，包含提示词，同一对话内多个报告，非研究对话
2.5pro分享方式Ⓑ：先导出到Google Docs，再分享Google Docs链接，不包括提示词

O3优胜的

O3底模更强
在绝大多数大模型评测中，O3(应该是med)分数都是高于2.5pro的，而且Deep research是否用了O3-high或O3-pro也不确定，如果是的话，底模还高于O3-med
O3与主题关联更强
O3较少跑题。
2.5-pro经常性跑题，有时真是洋洋千言，离题万里，80%内容都是跑题的，字越多，章节越多，跑题越严重
至于2.5pro为什么爱跑题，我个人推测原因是，O3只取与主题相关性最高的10个左右信息源，2.5pro取前100个信息源，这一百个信息源与主题的相关性自然有高有低，2.5pro的前10个信息源并不跑题，甚至与O3那10个信息源经常是同样的。
但是剩下那90个信息源，与主题的关联性就越来越低了，尤其是一些小众的题材，体现出来就是100个信息源与主题的平均关联性不高。
这与我们使用搜索引擎的搜索结果，越往后质量越差，是一个道理。O3使用搜索引擎，使用类似人类的策略，就是只看搜索引擎结果第一页，缺点是可能漏掉一些"遗珠"。2.5pro的策略是前十页我都要，不容易漏掉"遗珠"，但灌水跑题严重
O3链接跳转到原文具体段落
O4-mini也是链接到具体段落，2.5pro和其他所有Deep research都是链接到文章开头
链接到具体段落，才叫真的可溯源。如果只连接到文章开头，很多原文几千上万字，还都是英文的，自己上哪找AI内容对应的原文句子去。
另外Deep research如果改为自己的部分论文或书籍，按照学术引用规范，也应该写原文页数或位置
O3的参考资料可以有概述
O3参考资料大约10多个（从几十个来源中选出），如果不要求概述可能不给概述，也可能每个源给一两百字。如果要求1000字或以上，每个源概述最多会给600~800字，相当于参考资料总字数就1万字左右。
O4-mini也可以有参考资料概述，但字数少些
2.5pro没有参考资料概述，只有链接，即便要求也不会遵从
参考资料概述，我个人认为非常重要，你可以从一篇研究中，得到十几个优质论文/书籍/博客等的概述，如果读着有用，可以深挖下去找原文，或者指定原文网址，再生成新的研究
很多时候，Deep research帮你找到的优质信息源，比他给你做那个研究更有用
2.5pro当然也会给你100个链接，但是没有任何概述，我难道还去这100个网站一个个啃英文，来判断来源是否值得阅读，那得多累啊
O3有成熟的$200会员体系和商业模型
大模型是生意，要遵循商业的基本规律，一分钱一分货。深度研究的主要用户是学术等专业人士，这些人士或机构可以为生产力支付10倍的价格，现在全球只有OpenAI有成熟的$200美元会员市场（订阅用户10~20万），通常只有大量高付费用户群体作为支撑时，才能开发出高成本高质量的顶级智能产品
O3引用的文章更少，每篇文章引用字数多（约800字）
Deep research的工作原理与Chat完全不同，Deep research并不是用来原创的，打个比方Deep research的AI只是一条线，把原文浓缩成珍珠串起来，变成珍珠项链。
O3的风格是串十几个大珍珠（从几十个来源里挑出来），2.5pro的风格是串100个小珍珠（从几百个来源里挑出来）。各有各的好处
深度上O3更好，因为每个珍珠800字，能把事情说透。我个人喜欢每个点都说透的风格
广度上可能2.5pro更好，但是平均每个珍珠100字，更像是目录罗列，或者搜索引擎列表（嗯也不看Google是干啥的），每个点都隔靴搔痒，浅尝而止
O3的导出更好用
O3可以复制出MD格式，我用Obsidian做笔记，直接粘贴就行。
2.5pro貌似只能复制为文本，粘贴时粗体，heading，链接都丢失了。办法：导出Google Docs → 用Goolge Docs里的markdown插件导出md

2.5-pro优胜的

2.5pro便宜/次数多
2.5-pro每天20次量很足。不过并不像看上去那么多，这更多是一种市场营销噱头。
一天20次深度研究是30万字，相当于3本书的字数，谁能一天看完三本书，大多数人一年都看不完三本完整的书。
一个人一个月能做30个研究，花30小时研究和阅读，就已经很厉害了。
GPT$20会员也有10次O3 Deep research和15次O4mini Deep research，总数25次
O3 Deep research也不像想象那么贵，我现在使用GPTPlus教育邮箱2个月免费，找别人验证教育邮箱费用小几十块。折合¥2/篇，还能画画，做视频，用O3/O4-mini提问等。不够用就多用几个谷歌账号注册GPT
我也用站内金主的逆向$20包月÷每月60篇研究=¥2.5/篇，我觉得成本并不高
2.5pro节数和总字数可以更多
例如要求50节，2.5pro会遵从，生成50节×600字=3w字。
O3早期满血版本会遵从，最多可以生成上百节，五六万字。现在有所缩水，不会遵从，最多20多节×600~800字

dwqxq1 · 2025 年5 月 2 日 07:58

更新中，回头补充对比Deep research原文链接，争取改成有声朗读版本

slashkkk · 2025 年5 月 2 日 08:02

抢先占据高地！

fengchris · 2025 年5 月 2 日 08:05

用心了

满血版o3确实还是无敌的

augustu266 · 2025 年5 月 2 日 08:18

佬说的很对，一开始我还嫌deepresearch次数少，后来发现看不完，根本看不完

handsome · 2025 年5 月 2 日 08:38

o3的居然这么强

huangbaoleng · 2025 年5 月 2 日 08:46

deepresearch 确实真的无敌，但genspark和pplx也不差，我觉得是半超多强的局面，期待佬友更多的测评

luxba · 2025 年5 月 2 日 08:52

站内哪个金主有逆向dr啊，除了chat01

dwqxq1 · 2025 年5 月 2 日 08:53

就你说这个就行啊

Howen · 2025 年5 月 2 日 09:41

我感觉2.5pro搜的内容更好一些

chunkk · 2025 年5 月 2 日 09:47

先mark后看，看大佬持续更新

Carlxlx · 2025 年5 月 2 日 14:18

请问楼主还知道别的商家吗？我还想货比三家一下

Carlxlx · 2025 年5 月 2 日 14:19

从这来看，O3应该更好一些，毕竟都到了需要Deep Research这一步了，那研究的东西肯定是专业性质的，那O3的高水准和对前十个来源的深度挖掘绝对是优势

dwqxq1 · 2025 年5 月 10 日 21:52

转发一个O3 vs 2.5-pro Deep research 多篇研究的对比评测 250511 5:11更新

whoAmII · 2025 年5 月 12 日 04:06

第一次用gemini deep research的时候我震惊了。然后就去搞了edu免费的，现在一直用，虽然有缺陷，还是非常不错的。openai的没用过。

Twilight9 · 2025 年5 月 16 日 15:04

o3 的 Deep research 也是每月 20 刀吗？

910417099 · 2025 年5 月 16 日 15:11

plus 10次每月

Lawrencease · 2025 年5 月 17 日 12:21

What are the usage limits for deep research?

ChatGPT users have access to the following deep research usage:

Free – 5 tasks/month using the lightweight version

Plus & Team – 25 tasks/month, plus an additional 15 tasks/month using the lightweight version

Pro – 250 tasks/month, plus an additional 125/month using the lightweight version

Enterprise/Edu – 25 tasks/month

Once Plus, Pro, and Team users reach their monthly limit with the standard deep research model, additional requests will automatically use a lightweight, cost-effective version until the monthly limit resets.

You can check your remaining tasks by hovering over the ‘Deep research’ button.

https://help.openai.com/en/articles/10500283-deep-research-faq

为啥官网这里写的是每个月25次deep research

sjh0823 · 2025 年5 月 17 日 12:26

其实我觉得Gemini深度研究有一个优点题主没有点出来，Gemini的长篇深度研究是可以指定文风，指定成文结构方向的。这点对于仅仅使用Gemini和gpt进行“学术研究”的佬友来讲，或许没有任何的帮助。但是对于不进行学术研究的任务来讲，我认为使用Gemini的效果是更好的，因为o3的深度研究格式可能是有一个很严重的前置提示词限制，成文必然是类似于报告的那种形式。例如你让他研究一个东西，最后整理写一个故事，故事里面穿插知识点，要兼容通俗易懂性和学术性，他的前置提示词效力应该是更强，最终还是报告的形式。

sjh0823 · 2025 年5 月 17 日 12:27

10次深度研究，15次浅度研究，具体是按照顺序排列的，前十次为深度。

话题		回复	浏览量
:fire:【原创长文】Genspark Super Agent vs 各家Deep Research vs Manus 搞七捻三 OpenAI , Claude , 人工智能 , 纯水	42	2135	2025 年5 月 8 日
选择 ChatGPT（GPT-4o、o3……）还是 Gemini（Gemini 2.5 Pro Preview）？一些个人看法及体验搞七捻三 ChatGPT , Gemini , 人工智能	46	3495	2025 年6 月 11 日
Gemini2.5pro深度研究于4/9日5点全面推出，这里是一些例子的体验分享前沿快讯人工智能	58	1969	2025 年5 月 9 日
写论文，Claude 跟 o1 哪个更好？搞七捻三 ChatGPT , Claude , 人工智能 , 快问快答	102	3512	2025 年5 月 18 日
大佬们，Grok3使用体验怎么样搞七捻三人工智能 , 快问快答 , 纯水	63	1697	2025 年4 月 19 日

🔥【原创长文】O3 Deep research vs 2.5-pro Deep research

二者相当的

O3优胜的

2.5-pro优胜的

转发一个O3 vs 2.5-pro Deep research 多篇研究的对比评测 250511 5:11更新

相关话题