🔥【原创长文】O3 Deep research vs 2.5-pro Deep research

Deep research第三弹

第二弹见:🔥【原创长文】让AI为你写有声书:基于Deep research+音频朗读的学习方法
第一弹见:🔥【原创长文】Genspark Super Agent vs 各家Deep Research vs Manus

以下观点来源于我数十个研究主题,使用同一提示词,同时生成O3与2.5-pro Deep research两个版本,反复阅读全文或听全文音频之后的个人总结,每人研究主题不同,需求不同,有人跟我体验不同,也是完全正常的,以下仅代表个人体验

另外二者也不是冲突的,我通常是同一主题,O3和2.5pro一起研究,互相作为补充

二者相当的

字数相当
O3和2.5-pro正文一般都是一万多字。
提示词得当或来源特别丰富时,可能有两万多字
O3的参考资料概述,最多还可以额外有一万字左右,中文信息源链接有时候也会占上万token(网址里的用于定位的中文转义为20%AD%这种,非常费token),但这些都不影响正文字数
2.5pro没有这两个功能,也就不会输出这2万token
O4-mini和2.0-flash-thinking Deep research是大几千字
其他Deep research好的大几千字,差的小几千字
都可以分享研究链接给别人(对方无需注册)
O3分享方式Ⓐ:点右上角分享图标,包含提示词,同一对话内多个报告,非研究对话
O3分享方式Ⓑ:点研究回答下面的分享图标,不包含提示词,非研究对话
2.5pro分享方式Ⓐ:研究回答左下角点隐藏的分享图标 → 分享对话内容,包含提示词,同一对话内多个报告,非研究对话
2.5pro分享方式Ⓑ:先导出到Google Docs,再分享Google Docs链接,不包括提示词

O3优胜的

O3底模更强
在绝大多数大模型评测中,O3(应该是med)分数都是高于2.5pro的,而且Deep research是否用了O3-high或O3-pro也不确定,如果是的话,底模还高于O3-med
O3与主题关联更强
O3较少跑题。
2.5-pro经常性跑题,有时真是洋洋千言,离题万里,80%内容都是跑题的,字越多,章节越多,跑题越严重
至于2.5pro为什么爱跑题,我个人推测原因是,O3只取与主题相关性最高的10个左右信息源,2.5pro取前100个信息源,这一百个信息源与主题的相关性自然有高有低,2.5pro的前10个信息源并不跑题,甚至与O3那10个信息源经常是同样的。
但是剩下那90个信息源,与主题的关联性就越来越低了,尤其是一些小众的题材,体现出来就是100个信息源与主题的平均关联性不高。
这与我们使用搜索引擎的搜索结果,越往后质量越差,是一个道理。O3使用搜索引擎,使用类似人类的策略,就是只看搜索引擎结果第一页,缺点是可能漏掉一些"遗珠"。2.5pro的策略是前十页我都要,不容易漏掉"遗珠",但灌水跑题严重
O3链接跳转到原文具体段落
O4-mini也是链接到具体段落,2.5pro和其他所有Deep research都是链接到文章开头
链接到具体段落,才叫真的可溯源。如果只连接到文章开头,很多原文几千上万字,还都是英文的,自己上哪找AI内容对应的原文句子去。
另外Deep research如果改为自己的部分论文或书籍,按照学术引用规范,也应该写原文页数或位置
O3的参考资料可以有概述
O3参考资料大约10多个(从几十个来源中选出),如果不要求概述可能不给概述,也可能每个源给一两百字。如果要求1000字或以上,每个源概述最多会给600~800字,相当于参考资料总字数就1万字左右。
O4-mini也可以有参考资料概述,但字数少些
2.5pro没有参考资料概述,只有链接,即便要求也不会遵从
参考资料概述,我个人认为非常重要,你可以从一篇研究中,得到十几个优质论文/书籍/博客等的概述,如果读着有用,可以深挖下去找原文,或者指定原文网址,再生成新的研究
很多时候,Deep research帮你找到的优质信息源,比他给你做那个研究更有用
2.5pro当然也会给你100个链接,但是没有任何概述,我难道还去这100个网站一个个啃英文,来判断来源是否值得阅读,那得多累啊
O3有成熟的$200会员体系和商业模型
大模型是生意,要遵循商业的基本规律,一分钱一分货。深度研究的主要用户是学术等专业人士,这些人士或机构可以为生产力支付10倍的价格,现在全球只有OpenAI有成熟的$200美元会员市场(订阅用户10~20万),通常只有大量高付费用户群体作为支撑时,才能开发出高成本高质量的顶级智能产品
O3引用的文章更少,每篇文章引用字数多(约800字)
Deep research的工作原理与Chat完全不同,Deep research并不是用来原创的,打个比方Deep research的AI只是一条线,把原文浓缩成珍珠串起来,变成珍珠项链。
O3的风格是串十几个大珍珠(从几十个来源里挑出来),2.5pro的风格是串100个小珍珠(从几百个来源里挑出来)。各有各的好处
深度上O3更好,因为每个珍珠800字,能把事情说透。我个人喜欢每个点都说透的风格
广度上可能2.5pro更好,但是平均每个珍珠100字,更像是目录罗列,或者搜索引擎列表(嗯也不看Google是干啥的),每个点都隔靴搔痒,浅尝而止
O3的导出更好用
O3可以复制出MD格式,我用Obsidian做笔记,直接粘贴就行。
2.5pro貌似只能复制为文本,粘贴时粗体,heading,链接都丢失了。办法:导出Google Docs → 用Goolge Docs里的markdown插件导出md

2.5-pro优胜的

2.5pro便宜/次数多
2.5-pro每天20次量很足。不过并不像看上去那么多,这更多是一种市场营销噱头。
一天20次深度研究是30万字,相当于3本书的字数,谁能一天看完三本书,大多数人一年都看不完三本完整的书。
一个人一个月能做30个研究,花30小时研究和阅读,就已经很厉害了。
GPT$20会员也有10次O3 Deep research和15次O4mini Deep research,总数25次
O3 Deep research也不像想象那么贵,我现在使用GPTPlus教育邮箱2个月免费,找别人验证教育邮箱费用小几十块。折合¥2/篇,还能画画,做视频,用O3/O4-mini提问等。不够用就多用几个谷歌账号注册GPT
我也用站内金主的逆向$20包月÷每月60篇研究=¥2.5/篇,我觉得成本并不高
2.5pro节数和总字数可以更多
例如要求50节,2.5pro会遵从,生成50节×600字=3w字。
O3早期满血版本会遵从,最多可以生成上百节,五六万字。现在有所缩水,不会遵从,最多20多节×600~800字

52 个赞

更新中,回头补充对比Deep research原文链接,争取改成有声朗读版本

2 个赞

抢先占据高地!

用心了

满血版o3确实还是无敌的

2 个赞

佬说的很对,一开始我还嫌deepresearch次数少,后来发现看不完,根本看不完:joy_cat:

o3的居然这么强

deepresearch 确实真的无敌,但genspark和pplx也不差,我觉得是半超多强的局面,期待佬友更多的测评

站内哪个金主有逆向dr啊,除了chat01

1 个赞

就你说这个就行啊

1 个赞

我感觉2.5pro搜的内容更好一些

先mark后看,看大佬持续更新

请问楼主还知道别的商家吗?我还想货比三家一下

从这来看,O3应该更好一些,毕竟都到了需要Deep Research这一步了,那研究的东西肯定是专业性质的,那O3的高水准和对前十个来源的深度挖掘绝对是优势

转发一个O3 vs 2.5-pro Deep research 多篇研究的对比评测 250511 5:11更新

1 个赞

第一次用gemini deep research的时候我震惊了。然后就去搞了edu免费的,现在一直用,虽然有缺陷,还是非常不错的。openai的没用过。

1 个赞

o3 的 Deep research 也是每月 20 刀吗?

1 个赞

plus 10次每月

2 个赞

What are the usage limits for deep research?

ChatGPT users have access to the following deep research usage:

  • Free – 5 tasks/month using the lightweight version

  • Plus & Team – 25 tasks/month, plus an additional 15 tasks/month using the lightweight version

  • Pro – 250 tasks/month, plus an additional 125/month using the lightweight version

  • Enterprise/Edu – 25 tasks/month

Once Plus, Pro, and Team users reach their monthly limit with the standard deep research model, additional requests will automatically use a lightweight, cost-effective version until the monthly limit resets.

You can check your remaining tasks by hovering over the ‘Deep research’ button.

https://help.openai.com/en/articles/10500283-deep-research-faq

为啥官网这里写的是每个月25次deep research

1 个赞

其实我觉得Gemini深度研究有一个优点题主没有点出来,Gemini的长篇深度研究是可以指定文风,指定成文结构方向的。这点对于仅仅使用Gemini和gpt进行“学术研究”的佬友来讲,或许没有任何的帮助。但是对于不进行学术研究的任务来讲,我认为使用Gemini的效果是更好的,因为o3的深度研究格式可能是有一个很严重的前置提示词限制,成文必然是类似于报告的那种形式。例如你让他研究一个东西,最后整理写一个故事,故事里面穿插知识点,要兼容通俗易懂性和学术性,他的前置提示词效力应该是更强,最终还是报告的形式。

2 个赞

10次深度研究,15次浅度研究,具体是按照顺序排列的,前十次为深度。

1 个赞