这道题我试了国内外10家大模型,结果令人意外

奥利弗周五摘了 44 个猕猴桃,周六摘了 58 个,周日摘的数量是周五的两倍,不过有 5 个小一些。奥利弗有多少个猕猴桃?

这道题我试过国外御三家的最新模型,以及国内的7家:deepseek、豆包、通义,混元、kimi、文心、智普,结果除了豆包,其他家都或多或少产生了幻觉,在计算周日数量时都减了5。

各位佬可以顺手试几个感受下。

经过@YuCN的反馈,我又用 deepseek 的深度思考模式试了下,这回也反应过来了。

6 个赞

答案是什么

2 个赞

这题目描述不是很清楚吧,小的算还是不算呢
不过确实ai应该反问一下
o1完全没问题

3 个赞

你沒有說小的獼猴桃要怎麼處理
1、是單純的描述,強調其中有 5 個獼猴桃大小不如其他的,但不影響總數。
2、是一個提示,暗示小一些的獼猴桃不應該計入總數,因此需要減去。

AI只能隨機選擇一個回答,AI表示:你叫我計數幹嘛跟我說有5個比較小?所以可能暗示不要這5個小的

5 个赞

我只能说这种需要计算思考的东西拿来测普通大模型毫无意义,应该拿具有思考能力的模型来比较

4 个赞

你说的有道理,o1 preivew 和 gemini 2.0 thinking 都反应不过,我又用deepseek的深度思考模式试了下,这回反应过来了

2 个赞

赶紧我也试试看

1 个赞

我来试试

1 个赞

我手头没有o1的资源,最高就到preivew

1 个赞

哪个最好

1 个赞

就这个佬发的链接
注册送积分可以用o1的

1 个赞

DeepSeek深度思考模式,一次给出了正确答案:190个

目前是豆包和deepseek的深度思考答对了,还有评论区有老友的o1

题目说的不明确,没什么意义吧

国内,最喜欢用的是Deepseek

https://linux.do/t/topic/335844

题目我觉得没有问题,题目问的是猕猴桃的个数,有5个小的猕猴桃,那也算猕猴桃。

1 个赞

原来如此

感谢,笑纳了


确实,我的o1把这个点当做暗示,就减掉5个了