继续吐槽 GPT-5.4 系列

之后,我又来吐槽 GPT-5.4 系列了。

全站最尊重 5.4 的用户


事情是这样的,我刚才写了一道图论的题目,但算法模板都写错了,WA,自己看了两遍没看出来,然后开启 AI 会诊。gemini、qwen、deepseek、glm 全部看出来了这个错误。

豆包虽然自己多编了一个不存在的错误,但至少确实把那个错误找出来了。

而我们伟大的 GPT-5.4-mini 呢?

它思考了一分钟后得出结论,我的代码 WA 是因为 DFS 过深,栈空间不足。还声称在某些平台上爆栈会导致内存里的数据被污染导致 WA。

我:啊?

“爆栈导致 WA”真的是一个精神状态正常的 LLM / 对计算机科学有一定了解的人类能说出的观点吗?

感觉现在 GPT-5.4 系列正在快速摧毁由 5-mini 和 5.2-high 建立起的我对 GPT 的信任。以后算法竞赛相关问题真的应该优先找 Gemini 了。

9 个赞

Mini的应用场景是什么?我好像都没有用过Mini。轻量的问题用Gemini 3 Flash或者Claude Hiku。重度的问题一般直接5.4 High Resonning。

前面一段时间 Team 挂了,我现在是免费用户,网页端开思考就是 5.4-mini

公益站逆向吗,还是什么别的

就是 Web 端啊哥们,算法竞赛都是单文件,一份最多几百行,直接粘到网页上的。就一堆单文件用 IDE/CLI 是真的迷惑行为吧

其实不怎么建议 Mini,都是蒸馏过后的模型了,其实佬你实在可以的话可以尝试开一个 Plus 会员试一试,thingking 高级模式会很不错,或者开一个 enterprise 可以用 pro 最高系列模型。如果单纯是算法角度的话,5.4-mini 的水平还是太差了,甚至可能比不上国产类的。我觉得 5.4 系列模型最糟糕的是废话很多。每次都是讲一大堆,最后得出一个很简单的结论。
关于算法还是建议用好一点的模型。

web好像有过度思考的问题

如果可以其实还是比较推荐用下 Claude 系列模型,gpt5.4 这个系列我感觉真的有点 overthinking 的嫌疑了

学生党真没这个条件,感觉 gemini 3 flash 就挺好的了(

鉴定为被降智了

当你发现某个模型在胡扯的时候,不要怀疑自己,一定是模型的问题

每个模型的回答呢,给出可以上手试的题目啊,gpt没有用家宽的是降智的版本

现在已经有一切问题都cli的趋势了,除了grok用来搜索感觉我都好久没打开网页端了

因为这涉及我的提交记录,涉及我在其他网络平台上的身份,所以我不想公开。

别的做软件工程的佬吐槽 AI 也不用把正在做的项目和整个项目的代码都公开吧……

另外,“非家宽就降智”有什么依据吗?根据我在 Team 被封之前的使用经历,好像只要 IP 稳定 juice 就是正常的。

1 个赞

我个人用的 Codex CLI 和 VSCode Codex 插件,GPT-5.4 high/xhigh,没有遇到明显的降智问题。目前论坛上最明显的 IP 降智证据应该是网页版的 GPT 5.4 Pro 的思考时间,正常一般是 30 分钟起步到 1 小时不等。但是有的佬友发现提问时它只思考了十几分钟就应付了事,输出质量也很低。

想问下 GPT-5.4 对于你的问题输出如何?感觉 Gemini 3.1 Pro 应该是明显高于 GPT-5.4-mini 的,毕竟从 API 价格上就能看出差了不少,而且 GPT-5.4-mini 不支持长上下文.

这个和 3.1 pro 没啥关系吧,我用的是 3 flash,而且还有 qwen、deepseek、GLM、糖包都能回答对。我认为就是 5.4-mini 在这方面的能力较弱。

至于 GPT-5.4,我现在是免费账号,有啥方法用上吗(?

我也是学生党啦 hhh,不过生产力嘛,花点钱还是可以的,佬你看看有没有其他渠道可以白嫖下呢?
如果可以的话,希望可以帮到你:pink_heart:

没5.4你用claude/其他模型不就得了,用5.4mini干嘛捏?:thinking:它要真好用叫mini干嘛?

1 个赞

5.4 mini其实甚至智力不如5 mini

主要是 CLI 在我们 OIer 的使用场景确实没有什么优势,我目前也没有什么工程(

就是我们更在乎模型的智力,不需要它的长上下文、前端能力或者 Agent 能力这种。

算法题和数学题之间的差别是远小于算法题和工程的差别的。

对的,我想表达的就是这个意思