感觉测来测去还是挪车电话这个问题比较有区分度

一辆车挡住出口,车上放着一张写着“挪车电话”的纸,内容如下:(X表示该成语缺失的一个数字) X丘之貉、X情六欲、朝X暮四、X面楚歌、X体投地、X上八下、胡说X道、鸡X狗碎、一石X鸟、X妻四妾、勾X搭四 我应该拨打哪个电话联系车主?
  • 这个题目的好处是难度适中,要求一定的中文理解和逻辑推理能力
  • 基本上能通过这个测试的模型,日常中文问答不会太弱智
  • 这个问题通过不了的模型基本可以放弃了
  • 或者说有的渠道的高级模型连这个题都能错,基本上是掺水掺大了
  • 这道题很好的区分了正经模型和mini模型答错的有:
7 个赞

你过关:nerd_face:

1 个赞

这道题很好的区分了正经模型和mini模型
答不出来的有:
gpt-4o-mini
grok-3-mini-beta
4o-mini-high
话说grok除了150刀有啥能跟gemini比的
多模态比不过,速度比不过,深度思考比不过,真的硬蹭啊

这个居然还有做不对的吗

需要有一定逻辑推理能力,gemma27都跪了。反而qwen3 8b完美过关。

这道题基本上是大小模型的分水岭了
grok-3-mini-beta号称有多强,但他只要沾上mini,这道题就得错

我是真没想到o4-mini-high这个浓眉大眼的居然也没通过,果然沾上mini就得败北么
why baby why?

我用的方法,是写一篇武侠小说。大模型的词汇组合能力和表达能力,远远超过小模型。读上几句,马上就能区分出来。

我在ollama中的qwen3 8B没过关 :joy:,openrouter中的倒是对了,难道是量化的缘故么

肯定啊,量化就是简化,至少Q8_0吧

有一定的概率问题,我也是ollama,不一定每一次都答对。

大多低配模型都是这样,只会做题,世界知识一塌糊涂,只有Gemini flash的世界知识甚至比某些其他家的高配模型还强

1 个赞

果然量化版本差距还有有点大的,11位号码中有两位猜不出

佬也是默认的量化版本么


:rofl:

还是得看语料了,模型语料参数不同基本上算出的结果就匹配不上

我用的是q8版本,比q4要好一些。

但是感觉回答不稳,还是换qwen3 14b要好一些。

1 个赞

我用的Q4,还是换14B更好些,感觉qwen3 小模型比以前好多了,佬有没有20B以下在中文方面比qwen3更好的模型