小模型除了刷榜和大模型比的资格都没有

sorrow233 · 2025 年5 月 30 日 06:39

小模型可以通过强化训练来刷榜，但除了骗自己有什么用呢？小模型有的大模型一定有，大模型有的小模型一定没有

GPT 4.5：章节正确、内容正确。建议阅读章节正确（简洁正确，并且直接给出原因）

GPT 4o：2 个章节错误、内容模糊。建议阅读章节错误（看着回答挺好，实际完全乱答）

o3 mini：章节内容正确，但推荐的章节偏技术，完全错过了真正核心的章节

DeepSeek R1：幻觉奇高，每一次回答给出的回答完全不一样，并且关键章节 1、2 多次没提到，以及有些时候可以准确给出章节和内容，有些时候有完全对不上，完全不可信。

Grok 3：章节正确、内容正确、建议阅读正确

gemini 2.5p：章节内容正确，而且他意识到自己对标题有点模糊，让用户自己找类似标题。建议阅读完全正确

正确答案：第一章和第二章是全书的核心，没推荐的 AI 可以判死刑了。之后的推荐章节其实无所谓，全靠 AI 自己的感觉判断。但第七章最好

小模型第一关都过不了
最大模型GPT 4.5 永远都会推荐第一、第二章节
Grok永远会推荐一二章节其一
Gemini 极高概率推荐 1、2、6、7 这类高价值章节
中等模型DeepSeek 不可信，回答每一次都差距巨大，纯扔骰子

更大模型的进步或许在榜单中难以得到体现，比如 GPT 4.5 就这样，并且因为没法刷榜和开销巨大即将被删除，但更大模型更有智慧却是真的，但对于解决人类具体的问题来说，他们是不被需要的，因为 o3 mini 虽然更垃圾，但刷榜很猛又便宜

ningbainb · 2025 年5 月 30 日 06:41

小模型没有相关知识吧，得把书喂给他

6512345 · 2025 年5 月 30 日 06:42

小模型和大模型用途又不一样w
而且小模型本来没喂它那么多的硬知识，肯定这方面不会太好啦www

Cimix · 2025 年5 月 30 日 06:43

参数量就被碾压了，小型模型只能专注于一个方面，没法做专家型或者全能

刷榜现在都没啥参考价值

sorrow233 · 2025 年5 月 30 日 06:43

喂了也没用，o3 mini 有这个知识，但是推荐的完全偏离正常人

sssun · 2025 年5 月 30 日 06:44

感觉是知识不足，如果你把每章概要给他让他选择可能好一点。
未来一定是小模型配知识库或者联网。
依赖超大模型的知识还是太力大砖飞和不优雅了。

sorrow233 · 2025 年5 月 30 日 06:45

都有概要了还需要 AI 推荐干嘛。未来就得大模型，我现在对 Grok 3.5 最好看

Graye_Draisey · 2025 年5 月 30 日 06:46

楼上说“未来一定”是这样，我不懂，但我觉得要先对其信心加以肯定

handsome · 2025 年5 月 30 日 06:48

小模型那肯定比不得啊

wise_bird · 2025 年5 月 30 日 06:50

应用场景不一样，小模型更多在端侧、低延迟需求任务和场景下。

1263403710 · 2025 年5 月 30 日 06:53

除非全球算力得到大规模提升，不然一定未来一定是端侧专家模型+RAG的天下，但是目前台积电制程，还有英伟达架构上似乎都已经瓶颈期了，不过国产华为最近有个互联架构很不错了，可惜单卡算力太低

DFobainx · 2025 年5 月 30 日 06:53

小模型跟小模型比就好了同一需求不需要两者都满足

Threeau25 · 2025 年5 月 30 日 06:56

大語言模型現在都是玩具，無非是聰明點的和笨點的區別

liulapatuoni · 2025 年5 月 30 日 06:57

那以前拍照只能用单反，塞班手机拍出来的像素都不行
现在可不是这样了吧？
这是一种对成本的追求

earn · 2025 年5 月 30 日 06:58

现在小模型也不够专家，网络速度足够快，端侧的必要性在哪里呢？
只能想到是本地化安全性的需求，通用型的小模型优点真的不明显

sssun · 2025 年5 月 30 日 06:59

很简单，因为人脑就是这样的。
人不需要知识有那么渊博，可以调用更多工具就很好了。
这也是为什么claude的模型能力比其他主流T0模型差一截的情况下还能热度这么高。他的工具调用太强了。

mjikop1231 · 2025 年5 月 30 日 06:59

没概要你让LLM推荐什么？大模型也是它训练语料里有这本书，或类似语义的序列，它才知道给你推荐什么。

就跟你大街上随手拉个人问他他完全不了解的东西一样

真当大模型包办一切了？

Javris · 2025 年5 月 30 日 07:02

只要他不是直接把训练集当作测试集就有用

I-was-here · 2025 年5 月 30 日 07:02

大参数模型在训练方法相同的情况下绝对碾压小参数模型(

~~不排除有天才灵光一闪开发了超越自注意力的新架构~~

所以小参数模型一般都不是用来“通用”,而是特定任务的或是

sssun · 2025 年5 月 30 日 07:25

就是微软的copliot的快速响应给出的回答，借助互联网。一个过得去的基础模型，他的回答质量也没有比gpt4.5低吧？

话题		回复	浏览量
Qwen3参数量是不是太小了？这小模型表现不好与不稳定，没有刷榜宣传的性能。搞七捻三 ChatGPT , 人工智能	129	1973	2025 年5 月 29 日
【水贴】4.5 已成过去式搞七捻三纯水	38	1412	2025 年10 月 3 日
［弱智の问题］为什么claude/gpt比国产模型强搞七捻三 ChatGPT , OpenAI , 人工智能 , 快问快答 , 软件开发 , 纯水	53	1506	2026 年3 月 21 日
大家有没有感觉现在大语言模型的技术发展快要到头了搞七捻三人工智能	59	2070	2025 年5 月 31 日
不拼“智力”拼“情商”？GPT-4.5 就这？搞七捻三转载	11	624	2025 年4 月 1 日