关于小数比大小国内模型遥遥领先？

wren · 2024 年7 月 24 日 14:44

国内一些模型App或API

以上这些都通过，连元宝都行神奇了。

会出错的有gpt4o、Gemini1.5 pro、cluade3.5sonnet、llama3等，这里面最离谱是Gemini1.5不管是写程序验证还是告诉他通过加减法给他一些例子来推理还是。剩下俩通过一些提示或者可能对话多随机有对错。

还有一个逻辑混乱的：

atom

如果按照这种方式测试推理，国内遥遥领先啊。常见模型都。

另外测试本地跑的模型，比如mistral的数学模型直接通过。

最后感谢论坛佬们的API。

Ghidra · 2024 年7 月 24 日 14:47

这种比较完全没有意义啊。只要用这个问题对模型进行一下微调不就可以回答正确了吗？也许只是有的厂商调了有的没调。这个问题正确又不代表其他问题都能回答得更好

wren · 2024 年7 月 24 日 14:50

看大家乐此不疲的测试，我就找出来有的测一测。

如果没有意义大家对比岂不是测了个寂寞

zhong_little · 2024 年7 月 24 日 15:13

三个数字比较，4o 正确率还是很高的

wo_zu_long · 2024 年7 月 24 日 15:14

有些国内模型好像会默默调用计算工具

wren · 2024 年7 月 24 日 15:15

试几次对错都有。但他稍微提示就会搞定。Gemini就一言难尽。

wren · 2024 年7 月 24 日 15:16

我试的好像除了智谱其他统一轻松过。魔法打败魔法？

Musifei · 2024 年7 月 24 日 15:18

wren · 2024 年7 月 24 日 15:18

wren · 2024 年7 月 24 日 15:19

wo_zu_long · 2024 年7 月 24 日 15:20

智谱比较老实，调用解释器会显示，文心偷偷调用被实锤过，其他不知道，大模型未经过数学逻辑联系的专门训练很容易出现幻觉，而对话的基本都是chat通用模型，这么整齐的完美正确率也许是调用的工具吧

civil · 2024 年7 月 24 日 15:21

前排

xiaoye6688 · 2024 年7 月 24 日 15:22

哈哈哈

wren · 2024 年7 月 24 日 15:27

是的，这种现象不清楚怎么处理的。如果像关键词那种可能不太好。偷偷调用tools那还算过得去。

wren · 2024 年7 月 24 日 15:28

管理太尽职了，调整的比我还快。我编辑帖子又回去了。

DFxiner · 2024 年7 月 24 日 16:41

调整的速度确实嗷嗷的

wren · 2024 年7 月 25 日 00:12

调整速度确实挺快的。

Jingqiu · 2024 年7 月 25 日 00:21

上了热搜的问题，肯定会专门做处理

sketu · 2024 年7 月 25 日 00:23

因为国内模型受到过国内数学教科书训练。

wren · 2024 年7 月 25 日 01:09

太快了,惊叹.

话题		回复	浏览量
国产模型的编码能力和国外的差距真这么大吗搞七捻三人工智能	52	2579	2026 年4 月 3 日
对镜举手问题，国产模型几乎全军覆没，GPT也没能幸免开发调优人工智能	15	761	2026 年2 月 23 日
Google的Gemma3发布了更新下了Ollama安装前沿快讯人工智能	33	1046	2025 年4 月 11 日
是不是所有的大语言模型的数学运算能力都很差啊？开发调优快问快答	43	838	2024 年12 月 9 日
国产的模型（通义千问等）也会降智吗？搞七捻三人工智能	16	534	2025 年1 月 17 日