小模型除了刷榜和大模型比的资格都没有

小模型可以通过强化训练来刷榜,但除了骗自己有什么用呢?小模型有的大模型一定有,大模型有的小模型一定没有

GPT 4.5:章节正确、内容正确。建议阅读章节正确(简洁正确,并且直接给出原因)

GPT 4o:2 个章节错误、内容模糊。建议阅读章节错误(看着回答挺好,实际完全乱答)

o3 mini:章节内容正确,但推荐的章节偏技术,完全错过了真正核心的章节

DeepSeek R1:幻觉奇高,每一次回答给出的回答完全不一样,并且关键章节 1、2 多次没提到,以及有些时候可以准确给出章节和内容,有些时候有完全对不上,完全不可信。

Grok 3:章节正确、内容正确、建议阅读正确

gemini 2.5p:章节内容正确,而且他意识到自己对标题有点模糊,让用户自己找类似标题。建议阅读完全正确

正确答案:第一章和第二章是全书的核心,没推荐的 AI 可以判死刑了。之后的推荐章节其实无所谓,全靠 AI 自己的感觉判断。但第七章最好

小模型第一关都过不了
最大模型GPT 4.5 永远都会推荐第一、第二章节
Grok永远会推荐 一二章节其一
Gemini 极高概率推荐 1、2、6、7 这类高价值章节
中等模型DeepSeek 不可信,回答每一次都差距巨大,纯扔骰子

更大模型的进步或许在榜单中难以得到体现,比如 GPT 4.5 就这样,并且因为没法刷榜和开销巨大即将被删除,但更大模型更有智慧却是真的,但对于解决人类具体的问题来说,他们是不被需要的,因为 o3 mini 虽然更垃圾,但刷榜很猛又便宜

3 个赞

小模型没有相关知识吧,得把书喂给他

小模型和大模型用途又不一样w
而且小模型本来没喂它那么多的硬知识,肯定这方面不会太好啦www

参数量就被碾压了,小型模型只能专注于一个方面,没法做专家型或者全能

刷榜现在都没啥参考价值

喂了也没用,o3 mini 有这个知识,但是推荐的完全偏离正常人

1 个赞

感觉是知识不足,如果你把每章概要给他让他选择可能好一点。
未来一定是小模型配知识库或者联网。
依赖超大模型的知识还是太力大砖飞和不优雅了。

1 个赞

都有概要了还需要 AI 推荐干嘛。未来就得大模型,我现在对 Grok 3.5 最好看

楼上说“未来一定”是这样,我不懂,但我觉得要先对其信心加以肯定

1 个赞

小模型那肯定比不得啊

应用场景不一样,小模型更多在端侧、低延迟需求任务和场景下。

1 个赞

除非全球算力得到大规模提升,不然一定未来一定是端侧专家模型+RAG的天下,但是目前台积电制程,还有英伟达架构上似乎都已经瓶颈期了,不过国产华为最近有个互联架构很不错了,可惜单卡算力太低

小模型跟小模型比就好了 同一需求不需要两者都满足

大語言模型現在都是玩具,無非是聰明點的和笨點的區別

那以前拍照只能用单反,塞班手机拍出来的像素都不行
现在可不是这样了吧?
这是一种对成本的追求

现在小模型也不够专家,网络速度足够快,端侧的必要性在哪里呢?
只能想到是本地化安全性的需求,通用型的小模型优点真的不明显

很简单,因为人脑就是这样的。
人不需要知识有那么渊博,可以调用更多工具就很好了。
这也是为什么claude的模型能力比其他主流T0模型差一截的情况下还能热度这么高。他的工具调用太强了。

没概要你让LLM推荐什么?大模型也是它训练语料里有这本书,或类似语义的序列,它才知道给你推荐什么。

就跟你大街上随手拉个人问他他完全不了解的东西一样

真当大模型包办一切了?

只要他不是直接把训练集当作测试集就有用

大参数模型在训练方法相同的情况下绝对碾压小参数模型(

不排除有天才灵光一闪开发了超越自注意力的新架构

所以小参数模型一般都不是用来“通用”,而是特定任务的或是


就是微软的copliot的快速响应给出的回答,借助互联网。一个过得去的基础模型,他的回答质量也没有比gpt4.5低吧?