奥利弗周五摘了 44 个猕猴桃,周六摘了 58 个,周日摘的数量是周五的两倍,不过有 5 个小一些。奥利弗有多少个猕猴桃?
这道题我试过国外御三家的最新模型,以及国内的7家:deepseek、豆包、通义,混元、kimi、文心、智普,结果除了豆包,其他家都或多或少产生了幻觉,在计算周日数量时都减了5。
各位佬可以顺手试几个感受下。
经过@YuCN的反馈,我又用 deepseek 的深度思考模式试了下,这回也反应过来了。
奥利弗周五摘了 44 个猕猴桃,周六摘了 58 个,周日摘的数量是周五的两倍,不过有 5 个小一些。奥利弗有多少个猕猴桃?
这道题我试过国外御三家的最新模型,以及国内的7家:deepseek、豆包、通义,混元、kimi、文心、智普,结果除了豆包,其他家都或多或少产生了幻觉,在计算周日数量时都减了5。
各位佬可以顺手试几个感受下。
经过@YuCN的反馈,我又用 deepseek 的深度思考模式试了下,这回也反应过来了。
答案是什么
这题目描述不是很清楚吧,小的算还是不算呢
不过确实ai应该反问一下
o1完全没问题
你沒有說小的獼猴桃要怎麼處理
1、是單純的描述,強調其中有 5 個獼猴桃大小不如其他的,但不影響總數。
2、是一個提示,暗示小一些的獼猴桃不應該計入總數,因此需要減去。
AI只能隨機選擇一個回答,AI表示:你叫我計數幹嘛跟我說有5個比較小?所以可能暗示不要這5個小的
我只能说这种需要计算思考的东西拿来测普通大模型毫无意义,应该拿具有思考能力的模型来比较
你说的有道理,o1 preivew 和 gemini 2.0 thinking 都反应不过,我又用deepseek的深度思考模式试了下,这回反应过来了
赶紧我也试试看
我来试试
我手头没有o1的资源,最高就到preivew
哪个最好
就这个佬发的链接
注册送积分可以用o1的
目前是豆包和deepseek的深度思考答对了,还有评论区有老友的o1
题目说的不明确,没什么意义吧
国内,最喜欢用的是Deepseek
题目我觉得没有问题,题目问的是猕猴桃的个数,有5个小的猕猴桃,那也算猕猴桃。
原来如此
感谢,笑纳了