国内一些模型App或API
以上这些都通过
,连元宝都行神奇了。 ![]()
会出错的有gpt4o、Gemini1.5 pro、cluade3.5sonnet、llama3等,这里面最离谱是Gemini1.5不管是写程序验证还是告诉他通过加减法给他一些例子来推理还是
。剩下俩通过一些提示或者可能对话多随机有对错。
还有一个逻辑混乱的:
atom
如果按照这种方式测试推理,国内遥遥领先啊。
常见模型都
。
另外测试本地跑的模型,比如mistral的数学模型直接通过。
最后感谢论坛佬们的API。 ![]()
国内一些模型App或API
以上这些都通过
,连元宝都行神奇了。 ![]()
会出错的有gpt4o、Gemini1.5 pro、cluade3.5sonnet、llama3等,这里面最离谱是Gemini1.5不管是写程序验证还是告诉他通过加减法给他一些例子来推理还是
。剩下俩通过一些提示或者可能对话多随机有对错。
还有一个逻辑混乱的:
atom
如果按照这种方式测试推理,国内遥遥领先啊。
常见模型都
。
另外测试本地跑的模型,比如mistral的数学模型直接通过。
最后感谢论坛佬们的API。 ![]()
这种比较完全没有意义啊。只要用这个问题对模型进行一下微调不就可以回答正确了吗?也许只是有的厂商调了有的没调。这个问题正确又不代表其他问题都能回答得更好
看大家乐此不疲的测试,我就找出来有的测一测。
如果没有意义大家对比岂不是测了个寂寞 ![]()
三个数字比较,4o 正确率还是很高的
有些国内模型好像会默默调用计算工具
试几次 对错都有。
但他稍微提示就会搞定。Gemini就一言难尽。
我试的好像除了智谱其他统一轻松过。魔法打败魔法?
智谱比较老实,调用解释器会显示,文心偷偷调用被实锤过,其他不知道
,大模型未经过数学逻辑联系的专门训练很容易出现幻觉,而对话的基本都是chat通用模型,这么整齐的完美正确率
也许是调用的工具吧
前排
是的,这种现象不清楚怎么处理的。如果像关键词那种可能不太好。偷偷调用tools那还算过得去。
管理太尽职了,调整的比我还快。 我编辑帖子又回去了。
调整的速度确实嗷嗷的
调整速度确实挺快的。
上了热搜的问题,肯定会专门做处理
因为国内模型受到过国内数学教科书训练。
太快了,惊叹.