智谱GLM-4的数学推理也太惊艳了吧!

问题 模型名称 回答数字 正确与否 模型来源(均为官方)
一条绳子头尾对折,重复10次。然后从正中间剪断绳子,你会得到多少条绳子?(2^10+1=1025) GLM-4 1024 最接近 智谱清言
GPT-4-Turbo 512 错误 OpenAI API
MiniMax-abab 2048 错误 海螺问问
Claude-3-Opus 512 错误 Anthropic API
Claude-3-Haiku 2048 错误 Anthropic API
(OpenAI和Claude的API均为官方提供,非中转。)
2 个赞

说明他用的是假的opus

5 个赞

问题越来越多样了

1 个赞

这个是Claude的message API跑的

1 个赞

你的GPT4还有claude假的吧,bing都能答对

1 个赞

Bing创造模式超级聪明的,居然给忘了

GPT4和Claude都是官方的API(sk-ant-api03-xxx),不是中转也不是网页版。

1 个赞

opus确实没答对 :rofl:

2 个赞

opus确实说是1024条

1 个赞

单个题目其实不能说明什么,我同样可以找出新的题目,其他模型基本能做对,而只有智谱会做错:

在一个单败淘汰制的围棋比赛中,共有25名选手参与。比赛采用1至32号的抽签方式来决定选手的初始排位。要求通过比赛决出最终的冠军。问在整个比赛过程中,共需进行多少场比赛以确定冠军?(选手轮空的比赛不计入场次)

4 个赞

有道理,每个模型的算法、数据集等都有区别,还是要看综合水平

比如bing会用搜索功能,在百度知道找到答案

1 个赞

4 2024 04 09 回答也接近

1 个赞

有没有权威可靠的大模型测评啊

1 个赞

lmsys.org?

1 个赞

现在已知bing的模型是azure openai的GPT4模型的蒸馏版本,但是这个问题稳定能答对,所以确实跟问题本身有关,opus能力无疑整体上是更强的

1 个赞

很多ai其实就是忘了加一个1,况且刚试了GLM4也不能百分百答对

中英文真的差好多:

opus

sonnet

LLAM3 70B

感觉是因为对中文支持不行导致的

DeepSeek 稳定答错 2048