智谱GLM-4的数学推理也太惊艳了吧！

0v0 · 2024 年5 月 9 日 12:44

问题	模型名称	回答数字	正确与否	模型来源（均为官方）
一条绳子头尾对折，重复10次。然后从正中间剪断绳子，你会得到多少条绳子？（2^10+1=1025)	GLM-4	1024	最接近	智谱清言
	GPT-4-Turbo	512	错误	OpenAI API
	MiniMax-abab	2048	错误	海螺问问
	Claude-3-Opus	512	错误	Anthropic API
	Claude-3-Haiku	2048	错误	Anthropic API
（OpenAI和Claude的API均为官方提供，非中转。）

neo · 2024 年5 月 9 日 12:49

说明他用的是假的opus

baipiaodang · 2024 年5 月 9 日 12:50

问题越来越多样了

0v0 · 2024 年5 月 9 日 12:50

这个是Claude的message API跑的

wo_zu_long · 2024 年5 月 9 日 12:50

你的GPT4还有claude假的吧，bing都能答对

0v0 · 2024 年5 月 9 日 12:52

Bing创造模式超级聪明的，居然给忘了

GPT4和Claude都是官方的API（sk-ant-api03-xxx），不是中转也不是网页版。

wo_zu_long · 2024 年5 月 9 日 12:53

opus确实没答对

Nec · 2024 年5 月 9 日 12:58

opus确实说是1024条

zhong_little · 2024 年5 月 9 日 13:06

单个题目其实不能说明什么，我同样可以找出新的题目，其他模型基本能做对，而只有智谱会做错：

在一个单败淘汰制的围棋比赛中，共有25名选手参与。比赛采用1至32号的抽签方式来决定选手的初始排位。要求通过比赛决出最终的冠军。问在整个比赛过程中，共需进行多少场比赛以确定冠军？（选手轮空的比赛不计入场次）

wennan · 2024 年5 月 9 日 13:11

有道理，每个模型的算法、数据集等都有区别，还是要看综合水平

比如bing会用搜索功能，在百度知道找到答案

peter1 · 2024 年5 月 9 日 13:11

4 2024 04 09 回答也接近

sangea · 2024 年5 月 9 日 13:15

有没有权威可靠的大模型测评啊

peter1 · 2024 年5 月 9 日 13:15

wo_zu_long · 2024 年5 月 9 日 13:17

现在已知bing的模型是azure openai的GPT4模型的蒸馏版本，但是这个问题稳定能答对，所以确实跟问题本身有关，opus能力无疑整体上是更强的

OpenAI · 2024 年5 月 9 日 13:26

MoYan · 2024 年5 月 9 日 13:35

很多ai其实就是忘了加一个1，况且刚试了GLM4也不能百分百答对

RichardChou · 2024 年5 月 9 日 14:01

中英文真的差好多：

opus

sonnet

LLAM3 70B

jackvoo · 2024 年5 月 9 日 16:23

handsome · 2024 年5 月 9 日 23:29

感觉是因为对中文支持不行导致的

DZDZ233 · 2024 年5 月 10 日 02:28

DeepSeek 稳定答错 2048

话题		回复	浏览量
你们的官方key的gpt-4o能答对三姓家奴的问题嘛？（目前推测是官方看碟下菜）开发调优纯水	37	1902	2024 年11 月 29 日
来一道数学测试题搞七捻三纯水	85	812	2025 年10 月 29 日
目前只发现一个模型可以做对这道测试题资源荟萃人工智能	35	1218	2024 年12 月 9 日
为什么这道题难住了所有AI 资源荟萃人工智能	51	1705	2024 年12 月 9 日
4o降智了？资源荟萃人工智能	64	1782	2024 年11 月 30 日