实际上gpt5用习惯了确实体验非常不错,但是我也理解它为啥在arena上打不过gemini甚至o3

就是它对于常见任务不管是写文、翻译这种简单任务,还是学术方面资料查找这种联网困难任务还是写代码这种coding任务,都有很好的表现,而且目前来说哪怕用auto一般也确实可以路由到合适的模型,虽然我是已经习惯了除了翻译一律用thinking里的进阶思考了(最近新增的区分)

对于一些gemini 2.5 pro解答不对的问题(包括gemini 2.5 pro联网出现幻觉还有就是做题做不对),gpt5都能一次过,而且靠谱程度高不少,幻觉率显著降低

但gpt5-thinking这个模型最大的问题就是不说人话,就是可能它合成数据太多了或者智商太高了,它的表达太浓缩,信息密度过大。我不知道英语有没有这个问题,反正我英语也没有好到可以全程和gpt用英语对话,但是中文的这个问题就是很严重。有的时候我都感觉这玩意的回答信息密度堪比文言文,而且时不时就能看见它用到一些中文里确实也有但是我十年都见不到一次的生僻说法…… :joy:

以至于我现在经常让它自己解释它自己回答的内容,哪怕是一些日常的问题,这在以前的4o包括o3里是几乎不可能出现的。 :thinking:我不知道通过一定的提示词能不能解决这个问题,因为我一直用的是默认的设置,但是我经常会让它详尽易懂地解释某个概念,并不能改善这种不说人话的问题。

2 个赞

慢,太慢
o3快,还像个人说的话

1 个赞

我经常和它讨论工作上的问题,不过我温度设置的0.3,防止他废话

我感觉O3也不说人话

一句话解释,然后叭叭一堆,最后再问要不要最小可落地方案
默认这个风格真的不喜欢

因为gpt5和o3的训练哲学其实是一脉相承的,但是gpt5很显然在不说人话这方面也比O3更加加强了……

:rofl:原来默认风格就这德行么,我还以为是和我个人的聊天记忆有关系

就是合成数据太多模型参数又小,高度专业化,前代O3也是这样。

我记得之前看过有人说,o3(5t)更像是一个学霸,三言两语就解释完了,但是当时的gemini更像一名有耐心的老师,解释的更清楚

其实除了vibe确实差一些,其他方面还真没得说。我也没感觉它具体哪方面的事情做的就是不如大参数模,当然拟人感肯定是被4.5这种大模暴打

英语也有这个问题,而且(当时个人体验)o3比它更严重。但是我很喜欢,在我的专业领域明显胜过gemini,很多时候它言简意赅到让我觉得它是真懂我要问什么。而gemini大概还是更“亲民”一些

围观一下