快手赢了GPT5 ，你敢相信吗？卧槽了

bonabarenfei · 2025 年12 月 21 日 14:54

直接上图，测的是指令遵循
我测了接近十次，快手一直都很稳定，openai十次能有三次答对
快手的

gpt5

XiaoHuang · 2025 年12 月 21 日 14:57

感觉…好像是GPT没理解你的意思？

blacksein · 2025 年12 月 21 日 15:05

GPT:这人想干啥…

unie · 2025 年12 月 21 日 15:15

快手都用上程序了，肯定不会错，openai，可能是不知道你要干嘛，毕竟国外的模型理解中文没国内的强是真的，claude 也老把我说的话理解错

NeuronActivation · 2025 年12 月 21 日 15:19

这个可能是在测模型被注入攻击的容易度。比如用户让gpt去上网搜什么东西，结果gpt万一被网上的提示词给攻击了向用户的程序注入了恶意代码或者向用户推销什么产品，那不就亏大了嘛

Terrasse · 2025 年12 月 21 日 16:27

我猜加个引号就不会出错了

Qiner · 2025 年12 月 21 日 16:30

114 * 514 / 648 * 233 ← 随便一个小孩哥拿着计算器都能吊打你口算。

awz707 · 2025 年12 月 21 日 17:39

这种单问题测试何意味

MIKUSCAT · 2025 年12 月 21 日 17:40

还有经典：文心一言秒杀GPT GEMINI CLAUDE等一众模型

The.one · 2025 年12 月 21 日 18:19

区别是使不使用工具，非公正对比

Nec · 2025 年12 月 21 日 18:23

既然这样，那我也发个帖文心一言吊打opus4.5

bonabarenfei · 2025 年12 月 22 日 13:31

测的是指令遵从，而不是智力水平，爱因斯坦的水平不听话也不符合这个测试要求

bonabarenfei · 2025 年12 月 22 日 13:32

同样的 mcp 工具集合随便调用，GPT 不调用怪我咯

bonabarenfei · 2025 年12 月 22 日 13:34

测了很多，没时间都发出来

MuzhiL1688 · 2025 年12 月 22 日 15:53

oa : 很不错，那接下来登场的是5.2xhigh

话题		回复	浏览量
关于ChatGPT 5.4~~~ 搞七捻三 ChatGPT , 人工智能	14	373	2026 年3 月 6 日
来投票：GPT-4 VS Claude-3-opus 资源荟萃人工智能	31	2092	2024 年12 月 9 日
Sam Altman：过去数月当中 GPT-5 取得了重大进展却无人关心前沿快讯人工智能	41	1744	2025 年9 月 28 日
GPT-4.1 软件工程测试（编码能力）大幅提升，1M上下文，赶上Claude 3.7 Sonnet非推理版前沿快讯人工智能	26	1319	2025 年5 月 15 日
都在鉴别GPT4，都在比对OpenAI和Claude，对比一下吧资源荟萃人工智能	20	896	2024 年12 月 9 日