关于小数比大小国内模型遥遥领先?

国内一些模型App或API








以上这些都通过:white_check_mark:,连元宝都行神奇了。 :face_with_monocle:

会出错的有gpt4o、Gemini1.5 pro、cluade3.5sonnet、llama3等,这里面最离谱是Gemini1.5不管是写程序验证还是告诉他通过加减法给他一些例子来推理还是:cross_mark:。剩下俩通过一些提示或者可能对话多随机有对错。

还有一个逻辑混乱的:

atom

如果按照这种方式测试推理,国内遥遥领先啊。 :nerd_face: 常见模型都:ok_button:

另外测试本地跑的模型,比如mistral的数学模型直接通过。

最后感谢论坛佬们的API。 :pray:

3 个赞

这种比较完全没有意义啊。只要用这个问题对模型进行一下微调不就可以回答正确了吗?也许只是有的厂商调了有的没调。这个问题正确又不代表其他问题都能回答得更好

:eyes: 看大家乐此不疲的测试,我就找出来有的测一测。

如果没有意义大家对比岂不是测了个寂寞 :smirk:

三个数字比较,4o 正确率还是很高的

有些国内模型好像会默默调用计算工具

试几次 对错都有。 :laughing: 但他稍微提示就会搞定。Gemini就一言难尽。

我试的好像除了智谱其他统一轻松过。魔法打败魔法?

快问快答人工智能

19 个赞

人工智能快问快答

快问快答人工智能

智谱比较老实,调用解释器会显示,文心偷偷调用被实锤过,其他不知道 :joy:,大模型未经过数学逻辑联系的专门训练很容易出现幻觉,而对话的基本都是chat通用模型,这么整齐的完美正确率 :joy:也许是调用的工具吧

前排

哈哈哈

是的,这种现象不清楚怎么处理的。如果像关键词那种可能不太好。偷偷调用tools那还算过得去。

管理太尽职了,调整的比我还快。 我编辑帖子又回去了。

调整的速度确实嗷嗷的

调整速度确实挺快的。

上了热搜的问题,肯定会专门做处理

因为国内模型受到过国内数学教科书训练。

太快了,惊叹.