o3 pro思考好久,但是质量真的没见多好,甚至有些回复像是傻子一样


7 个赞

同感加一

真不如 gemini-0605

43分钟吗,第一次见这么久

我感觉这个时间就是在排队吧,早上问快不少,实际上感觉回复质量都打不过o3

1 个赞

确实感觉不太好用

可以优化一下你的自定义提示词试试

o3-pro被fall了 :bili_040:

术业有专攻,对于这种知识的问题之前薅完就吃灰那个 Consensus 比推理型的又快又好,这类问题强大的推理能力不如可靠的参考文献来源。

:bili_040: 虽然我看不懂但医学文献肯定比百度知道和自媒体海聊靠谱得多。

我觉得还是欧三更均衡一点

感觉team的o3也不够用

o3 pro思考太久,但回答沒有很亮眼的感覺,kingfall真的完克o3-pro

2 个赞

真的不咋滴

1 个赞

o3和o3pro在数学方面更是糟糕,很多结果都是靠着python跑出一个数值来,然后硬凑过程,实际上就是胡说八道。在提示词中禁掉python后更是基本的推理问题都解决不了了。大家可以看看这两个测评。一个是测评数学题,另一个是推理题。

1 个赞

当然,这里测得是大学/研究生的一些题目,因为我主要是用ai来读论文、做论文。主要是让ai帮我梳理论文的知识、操作和想法,或让ai按照我的思路执行,用他的知识把很多我过不去的技术细节算过去。总之我发现o3的底模在训练数据、对长文本的注意力、对推理过程的记忆力还有剪枝和回溯策略都远不如2.5pro,更多的还是靠python穷举然后凑过程。一些基准测试分高很可能是它们能较为轻易地用python解决并且o3特别训练了初等数学的很多技巧。

1 个赞

所以说你为什么要把这么简单的问题给到这种模型呢

1 个赞

kingfall

和o3一个样,就是不好好说话,各种黑话

同感,思考半小时,质量还不如4o

同:是否是问题本身不适合使用 pro