继续吐槽 GPT-5.4 系列

sparklydream · 2026 年4 月 1 日 11:41

继

之后，我又来吐槽 GPT-5.4 系列了。

~~全站最尊重 5.4 的用户~~

事情是这样的，我刚才写了一道图论的题目，但算法模板都写错了，WA，自己看了两遍没看出来，然后开启 AI 会诊。gemini、qwen、deepseek、glm 全部看出来了这个错误。

豆包虽然自己多编了一个不存在的错误，但至少确实把那个错误找出来了。

而我们伟大的 GPT-5.4-mini 呢？

它思考了一分钟后得出结论，我的代码 WA 是因为 DFS 过深，栈空间不足。还声称在某些平台上爆栈会导致内存里的数据被污染导致 WA。

我：啊？

“爆栈导致 WA”真的是一个精神状态正常的 LLM / 对计算机科学有一定了解的人类能说出的观点吗？

感觉现在 GPT-5.4 系列正在快速摧毁由 5-mini 和 5.2-high 建立起的我对 GPT 的信任。以后算法竞赛相关问题真的应该优先找 Gemini 了。

almosl · 2026 年4 月 1 日 11:44

Mini的应用场景是什么？我好像都没有用过Mini。轻量的问题用Gemini 3 Flash或者Claude Hiku。重度的问题一般直接5.4 High Resonning。

sparklydream · 2026 年4 月 1 日 11:44

前面一段时间 Team 挂了，我现在是免费用户，网页端开思考就是 5.4-mini

xiaosl_cell · 2026 年4 月 1 日 11:46

公益站逆向吗，还是什么别的

sparklydream · 2026 年4 月 1 日 11:48

就是 Web 端啊哥们，算法竞赛都是单文件，一份最多几百行，直接粘到网页上的。就一堆单文件用 IDE/CLI 是真的迷惑行为吧

1347097818zs · 2026 年4 月 1 日 11:50

其实不怎么建议 Mini，都是蒸馏过后的模型了，其实佬你实在可以的话可以尝试开一个 Plus 会员试一试，thingking 高级模式会很不错，或者开一个 enterprise 可以用 pro 最高系列模型。如果单纯是算法角度的话，5.4-mini 的水平还是太差了，甚至可能比不上国产类的。我觉得 5.4 系列模型最糟糕的是废话很多。每次都是讲一大堆，最后得出一个很简单的结论。
关于算法还是建议用好一点的模型。

FreeRiver · 2026 年4 月 1 日 11:50

web好像有过度思考的问题

1347097818zs · 2026 年4 月 1 日 11:51

如果可以其实还是比较推荐用下 Claude 系列模型，gpt5.4 这个系列我感觉真的有点 overthinking 的嫌疑了

sparklydream · 2026 年4 月 1 日 11:53

学生党真没这个条件，感觉 gemini 3 flash 就挺好的了（

charles-cty · 2026 年4 月 1 日 11:56

鉴定为被降智了

当你发现某个模型在胡扯的时候，不要怀疑自己，一定是模型的问题

Nicholas · 2026 年4 月 1 日 11:56

每个模型的回答呢，给出可以上手试的题目啊，gpt没有用家宽的是降智的版本

almosl · 2026 年4 月 1 日 12:02

现在已经有一切问题都cli的趋势了，除了grok用来搜索感觉我都好久没打开网页端了

sparklydream · 2026 年4 月 1 日 12:12

因为这涉及我的提交记录，涉及我在其他网络平台上的身份，所以我不想公开。

别的做软件工程的佬吐槽 AI 也不用把正在做的项目和整个项目的代码都公开吧……

另外，“非家宽就降智”有什么依据吗？根据我在 Team 被封之前的使用经历，好像只要 IP 稳定 juice 就是正常的。

Cryo · 2026 年4 月 1 日 12:24

我个人用的 Codex CLI 和 VSCode Codex 插件，GPT-5.4 high/xhigh，没有遇到明显的降智问题。目前论坛上最明显的 IP 降智证据应该是网页版的 GPT 5.4 Pro 的思考时间，正常一般是 30 分钟起步到 1 小时不等。但是有的佬友发现提问时它只思考了十几分钟就应付了事，输出质量也很低。

想问下 GPT-5.4 对于你的问题输出如何？感觉 Gemini 3.1 Pro 应该是明显高于 GPT-5.4-mini 的，毕竟从 API 价格上就能看出差了不少，而且 GPT-5.4-mini 不支持长上下文.

sparklydream · 2026 年4 月 1 日 12:37

这个和 3.1 pro 没啥关系吧，我用的是 3 flash，而且还有 qwen、deepseek、GLM、糖包都能回答对。我认为就是 5.4-mini 在这方面的能力较弱。

至于 GPT-5.4，我现在是免费账号，有啥方法用上吗（？

1347097818zs · 2026 年4 月 1 日 12:38

我也是学生党啦 hhh，不过生产力嘛，花点钱还是可以的，佬你看看有没有其他渠道可以白嫖下呢？
如果可以的话，希望可以帮到你

huahai23 · 2026 年4 月 1 日 12:39

没5.4你用claude/其他模型不就得了，用5.4mini干嘛捏？它要真好用叫mini干嘛？

luckyNeil666 · 2026 年4 月 1 日 12:41

5.4 mini其实甚至智力不如5 mini

sparklydream · 2026 年4 月 1 日 12:41

主要是 CLI 在我们 OIer 的使用场景确实没有什么优势，我目前也没有什么工程（

就是我们更在乎模型的智力，不需要它的长上下文、前端能力或者 Agent 能力这种。

算法题和数学题之间的差别是远小于算法题和工程的差别的。

sparklydream · 2026 年4 月 1 日 12:42

对的，我想表达的就是这个意思

话题		回复	浏览量
非常反直觉，GPT-5 Mini 编程效果会比 Opus 4.1 还好。开发调优人工智能	65	2260	2025 年9 月 20 日
时隔1年,倒反天罡 Cluade s4.5/Gemini 3.0P/GPT 5.1 high 御三家使用感受搞七捻三人工智能	31	1659	2026 年2 月 18 日
GPT 5.2可能真没别人说的那么好搞七捻三 ChatGPT , OpenAI , 人工智能 , 软件开发	78	2336	2026 年1 月 14 日
GPT5.4是一个偏科的模型搞七捻三 ChatGPT , 人工智能	65	2007	2026 年3 月 29 日
GPT-5 系列有关的各方面的一些经验分享前沿快讯 ChatGPT , OpenAI , 人工智能 , 快问快答 , 软件开发	66	1878	2025 年8 月 26 日

继续吐槽 GPT-5.4 系列

相关话题