感觉测来测去还是挪车电话这个问题比较有区分度

dabuliu · 2025 年5 月 8 日 05:04

一辆车挡住出口，车上放着一张写着“挪车电话”的纸，内容如下：（X表示该成语缺失的一个数字） X丘之貉、X情六欲、朝X暮四、X面楚歌、X体投地、X上八下、胡说X道、鸡X狗碎、一石X鸟、X妻四妾、勾X搭四 我应该拨打哪个电话联系车主？

sandman · 2025 年5 月 8 日 05:18

Kew · 2025 年5 月 8 日 05:19

你过关

dabuliu · 2025 年5 月 8 日 05:22

这道题很好的区分了正经模型和mini模型
答不出来的有：
gpt-4o-mini
grok-3-mini-beta
4o-mini-high
话说grok除了150刀有啥能跟gemini比的
多模态比不过，速度比不过，深度思考比不过，真的硬蹭啊

handsome · 2025 年5 月 8 日 05:25

这个居然还有做不对的吗

freebsdfx · 2025 年5 月 8 日 05:25

需要有一定逻辑推理能力，gemma27都跪了。反而qwen3 8b完美过关。

dabuliu · 2025 年5 月 8 日 05:25

这道题基本上是大小模型的分水岭了
grok-3-mini-beta号称有多强，但他只要沾上mini，这道题就得错

dabuliu · 2025 年5 月 8 日 05:29

我是真没想到o4-mini-high这个浓眉大眼的居然也没通过，果然沾上mini就得败北么
why baby why？

freebsdfx · 2025 年5 月 8 日 05:33

我用的方法，是写一篇武侠小说。大模型的词汇组合能力和表达能力，远远超过小模型。读上几句，马上就能区分出来。

txlihao · 2025 年5 月 8 日 05:40

我在ollama中的qwen3 8B没过关，openrouter中的倒是对了，难道是量化的缘故么

dabuliu · 2025 年5 月 8 日 05:48

肯定啊，量化就是简化，至少Q8_0吧

freebsdfx · 2025 年5 月 8 日 05:49

有一定的概率问题，我也是ollama，不一定每一次都答对。

Suzu · 2025 年5 月 8 日 06:10

大多低配模型都是这样，只会做题，世界知识一塌糊涂，只有Gemini flash的世界知识甚至比某些其他家的高配模型还强

txlihao · 2025 年5 月 8 日 07:10

果然量化版本差距还有有点大的，11位号码中有两位猜不出

txlihao · 2025 年5 月 8 日 07:10

佬也是默认的量化版本么

EDWINCHENC · 2025 年5 月 8 日 07:16

chihiroyb365 · 2025 年5 月 8 日 07:16

还是得看语料了，模型语料参数不同基本上算出的结果就匹配不上

freebsdfx · 2025 年5 月 8 日 07:18

我用的是q8版本，比q4要好一些。

但是感觉回答不稳，还是换qwen3 14b要好一些。

NullUser · 2025 年5 月 8 日 07:21

txlihao · 2025 年5 月 8 日 07:22

我用的Q4，还是换14B更好些，感觉qwen3 小模型比以前好多了，佬有没有20B以下在中文方面比qwen3更好的模型

话题		回复	浏览量
没想到这个问题，竟成功区分了国产和海外大模型开发调优人工智能	31	1477	2025 年5 月 19 日
Qwen3模型Simple QA测试翻车：32B不如GPT-4o-mini，235B-A22B不如o3-mini 开发调优人工智能	56	1538	2025 年6 月 1 日
关于模型好坏个人看法资源荟萃人工智能	21	607	2024 年12 月 9 日
DeepSeek-R1-Distill 7､8B 两兄弟, 对决 7B 对话模型和 7B 非蒸馏长思考模型, 结果竟然…… 开发调优 DeepSeek , 人工智能 , 纯水	10	304	2025 年3 月 17 日
通过系统提示词为通用模型添加CoT思维链，通用模型爆改推理模型搞七捻三人工智能	11	414	2025 年3 月 28 日