直接上图,测的是指令遵循
我测了接近十次,快手一直都很稳定,openai十次能有三次答对
快手的
gpt5
感觉…好像是GPT没理解你的意思?
GPT:这人想干啥…
快手都用上程序了,肯定不会错,openai,可能是不知道你要干嘛,毕竟国外的模型理解中文没国内的强是真的,claude 也老把我说的话理解错
这个可能是在测模型被注入攻击的容易度。比如用户让gpt去上网搜什么东西,结果gpt万一被网上的提示词给攻击了向用户的程序注入了恶意代码或者向用户推销什么产品,那不就亏大了嘛
114 * 514 / 648 * 233 ← 随便一个小孩哥拿着计算器都能吊打你口算。
这种单问题测试何意味
![]()
还有经典:文心一言秒杀GPT GEMINI CLAUDE等一众模型
区别是使不使用工具,非公正对比
既然这样,那我也发个帖文心一言吊打opus4.5
测的是指令遵从,而不是智力水平,爱因斯坦的水平不听话也不符合这个测试要求
同样的 mcp 工具集合 随便调用,GPT 不调用怪我咯
测了很多,没时间都发出来
oa : 很不错,那接下来登场的是5.2xhigh