7 个赞
同感加一
真不如 gemini-0605
43分钟吗,第一次见这么久
我感觉这个时间就是在排队吧,早上问快不少,实际上感觉回复质量都打不过o3
1 个赞
确实感觉不太好用
可以优化一下你的自定义提示词试试
o3-pro被fall了 ![]()
我觉得还是欧三更均衡一点
感觉team的o3也不够用
o3 pro思考太久,但回答沒有很亮眼的感覺,kingfall真的完克o3-pro
2 个赞
真的不咋滴
1 个赞
o3和o3pro在数学方面更是糟糕,很多结果都是靠着python跑出一个数值来,然后硬凑过程,实际上就是胡说八道。在提示词中禁掉python后更是基本的推理问题都解决不了了。大家可以看看这两个测评。一个是测评数学题,另一个是推理题。
1 个赞
当然,这里测得是大学/研究生的一些题目,因为我主要是用ai来读论文、做论文。主要是让ai帮我梳理论文的知识、操作和想法,或让ai按照我的思路执行,用他的知识把很多我过不去的技术细节算过去。总之我发现o3的底模在训练数据、对长文本的注意力、对推理过程的记忆力还有剪枝和回溯策略都远不如2.5pro,更多的还是靠python穷举然后凑过程。一些基准测试分高很可能是它们能较为轻易地用python解决并且o3特别训练了初等数学的很多技巧。
1 个赞
所以说你为什么要把这么简单的问题给到这种模型呢
1 个赞
kingfall
和o3一个样,就是不好好说话,各种黑话
同感,思考半小时,质量还不如4o
同:是否是问题本身不适合使用 pro



