o3 pro思考好久，但是质量真的没见多好，甚至有些回复像是傻子一样

user1008 · 2025 年6 月 15 日 15:26

zone · 2025 年6 月 15 日 15:27

同感加一

robo7 · 2025 年6 月 15 日 15:28

真不如 gemini-0605

Biss · 2025 年6 月 15 日 15:54

43分钟吗，第一次见这么久

Galaxy_Hs · 2025 年6 月 15 日 15:56

我感觉这个时间就是在排队吧，早上问快不少，实际上感觉回复质量都打不过o3

YuitsukaInori · 2025 年6 月 15 日 15:57

确实感觉不太好用

tracks · 2025 年6 月 15 日 16:34

可以优化一下你的自定义提示词试试

DanicaStar · 2025 年6 月 15 日 16:43

o3-pro被fall了

Qiner · 2025 年6 月 15 日 17:07

术业有专攻，对于这种知识的问题之前薅完就吃灰那个 Consensus 比推理型的又快又好，这类问题强大的推理能力不如可靠的参考文献来源。

虽然我看不懂但医学文献肯定比百度知道和自媒体海聊靠谱得多。

NextVic · 2025 年6 月 15 日 17:14

我觉得还是欧三更均衡一点

taka · 2025 年6 月 15 日 17:23

感觉team的o3也不够用

andyyu513264065 · 2025 年6 月 15 日 17:24

o3 pro思考太久，但回答沒有很亮眼的感覺，kingfall真的完克o3-pro

baodiZzz · 2025 年6 月 15 日 18:13

真的不咋滴

steeverlerer · 2025 年6 月 15 日 18:20

o3和o3pro在数学方面更是糟糕，很多结果都是靠着python跑出一个数值来，然后硬凑过程，实际上就是胡说八道。在提示词中禁掉python后更是基本的推理问题都解决不了了。大家可以看看这两个测评。一个是测评数学题，另一个是推理题。

steeverlerer · 2025 年6 月 15 日 18:25

当然，这里测得是大学/研究生的一些题目，因为我主要是用ai来读论文、做论文。主要是让ai帮我梳理论文的知识、操作和想法，或让ai按照我的思路执行，用他的知识把很多我过不去的技术细节算过去。总之我发现o3的底模在训练数据、对长文本的注意力、对推理过程的记忆力还有剪枝和回溯策略都远不如2.5pro，更多的还是靠python穷举然后凑过程。一些基准测试分高很可能是它们能较为轻易地用python解决并且o3特别训练了初等数学的很多技巧。

vxtls · 2025 年6 月 15 日 18:35

所以说你为什么要把这么简单的问题给到这种模型呢

moshen · 2025 年6 月 15 日 19:22

kingfall

NoahChaos · 2025 年6 月 15 日 19:32

和o3一个样，就是不好好说话，各种黑话

wadewej · 2025 年6 月 15 日 20:29

同感，思考半小时，质量还不如4o

Joe2024 · 2025 年6 月 16 日 00:14

同：是否是问题本身不适合使用 pro

话题		回复	浏览量
在代码，数学，还有一些理工科问题上，kingfall和o3 pro哪个更强？搞七捻三人工智能	11	397	2025 年6 月 17 日
有没有人深入对比o3和gpt5thinking呢搞七捻三人工智能	19	644	2026 年2 月 18 日
Gemini 3.1 Pro轻松解决的竞赛题也被GPT 5.2 Pro解决了，但是…… 搞七捻三 ChatGPT , 人工智能 , 纯水	42	2032	2026 年2 月 23 日
gpt里o3-pro的定位是什么？开发调优人工智能	30	851	2025 年7 月 15 日
以L站题库+其他题目测试一下谷歌Deep Think的多方面实力，L站题库Deep Think做到了全对搞七捻三人工智能	67	1713	2025 年8 月 11 日

o3 pro思考好久，但是质量真的没见多好，甚至有些回复像是傻子一样

相关话题