未齐之齐:DeepSeek在年初的爆火似乎佐证了大家喜欢来点狠的

本文发布后,有读者提出了一个非常中肯的观点:DeepSeek的成功应主要归功于其顶尖的性能与开源策略。
这是一个我完全认同的核心事实。我无意否定DeepSeek作为顶级模型的硬实力及其在技术圈的“扫地僧”地位——事实上,我在另一篇文章中也详细分析过其强大且性价比极高的通用模型能力
然而,本文更想探讨的是另一个层面的问题:是什么让DeepSeek从一个“新的SOTA模型”破圈成为一个现象级的社会热点? 我认为,我们不能忽视其在全国范围内以夸张速度传播的背后,一个至关重要、甚至是主要的原因——它当时那惊艳、灵动的文风。
如果没有这种风格上的“惊鸿一瞥”,DeepSeek或许会像同期的Qwen、Doubao一样,在技术圈内获得高度认可,但未必能点燃最广大人民群众的传播意愿,从而引发病毒式的分享。
因此,本文的讨论正是建立在“性能卓越”这一共识之上,去探寻那些“非对齐”的、风格化的特质,如何成为引爆大众市场的关键变量。

2025年春节期间,DeepSeek 在全中国乃至全世界的范围内爆火的一塌糊涂。但人民群众其实对于模型绝对性能的增长,对于研发边界的拓宽是没有实感的(甚至部分程序员/平时大模型产品用的比较多的人群实际上也不能很准确的体验到模型性能边界的拓宽),人民群众对 DeepSeek R1 惊喜至此,很大程度上是初次试用时R1那灵动飘逸,高度奔放洒脱有灵气的文风唬到了所有人

这种体验是自由自在、精力充沛的,不会是25年年初那会GPT、豆包、Qwen、Kimi等给出的规规矩矩的「尊敬的用户大人,我正在尝试把我的回答变得亲切易懂,以确保我在处理问题时的专业性和娴熟程度,从中立性和唯物主义的辩证统一观点出发……」之类的千篇一律的方式。

这里稍微偏向性的给其他旗舰模型的规规矩矩道个歉,因为它们的能力实在是把这种文风的劣势盖过去了,甚至有时候它的结果会让人误以为这种文风是正确回答必不可少的一环

我开头bb了三段,其实主要想以此来表达一个观点:

对于模型厂商来说,尤其是对于哪些非T0的模型厂商和AI Infra公司来说,把模型训练&微调的不那么「对齐」可能是另一条吸引用户的野路子方法

单纯从这个视角可能没啥说服力,我们可以转到最符合每一代人 性与审美需求的文化产品领域,以二次元文化中各个年代的「显学」人物形象为例。

为什么选择二次元呢?因为我熟悉(

高度工业化下的二次元产品构建

在上世纪,日本的二次元产品是非常流行「大和抚子」的形象,这种女性形象气质高雅、性格娴静、生活举止有法度,待人接物懂得分寸。在这个时候,男性know-how的话语权还是非常显著的,大家都普遍的喜欢稳定、喜欢不破碎的特征——这一点同样适用在其时初见萌动的电子产品行业。

到了新世纪,日本流行文化产品已经开始趋向了「傲娇」。基本上我小时候关注过的所有动漫都会配一个铁打的傲娇角色配置,这种人物形象表面看起来略显刁蛮任性,说话带刺,态度高傲,实际上外冷内热,有一颗温柔善良的心,偶尔会展现出害羞的一面。这种性格的一些特质实际上是非常不稳定的,在人际关系中是有可能极大程度打破确定性的——我不会说我喜欢你,我喜欢的方式是捉弄你。

在21世纪20年代已经完成高度工业化和商业化改造之后,「动物一般的后现代」的中日韩二次元工厂里,傲娇或者说「反差」更是成为了每一位设计师的显学,如果你仔细研究一下当前热门二游的人物设计,会发现人物性格&背景故事越是反差,其美术表现越会说人话会整活越会利用二创去与玩家互动,这个二游底子就打的好,后续的增值服务和更新就会变得更容易。

此处可以@蔚蓝档案,里面的学生人物设计彻彻底底贯彻落实了「反差」作为新时代人民群众审美G点的精髓,无处不在反差,时刻都有反差

建模师也假的,投资方也是假的,编剧也是假的,但市销比是真的,完成某类形象设计的作品在当时的融合了社会、政治、经济、亚文化的市场里极大的收益比是真的。他们没有开天眼,他们也不会做统计预测,但时代大潮推动着这类审美形象登上舞台的能力,是一种无法否认且绝对高效的社会力量

伴随着景观社会下资本主义驱动的商业化景观对我们的狂轰乱炸,实际上大家的刺激阈值都在不断的被提高,大家都在疯狂渴求着一种正面的,最终会被归于确定化的不稳定。这就构成了我们所处的时代成长起来的YYDS的「不确定性下的浪漫观」和「繁美堆砌的解构主义」框架。

我知道你会说这不是个玄学的东西,有哪些游戏能火爆都是有迹可循的。话题打开就聊不完了,此处不表。

未齐之齐

我们会发现,站在25年年中的视角回头看,基本上所有刷屏的那些大模型官方的公关稿都在强调说自己旗下的大模型都是「Helpful、Honest、Safe」的,致力于打造最先进的、最真诚的、最SOTA的AI助理——但更广大的人民群众更欣赏DS和4o式小诗人的可以马上抵达的优美和灵动,看不上同期其他模型生成的那些虚以委蛇、难以触及的正确

以正确为纲,其实大概率也是其研发团队对技术、真实、价值等抱有高度的信心和理想主义的信念;但在对GenAI「正确」抱有高度执念的意识形态的另一面,也约束了能够实现的期待范围。

当然,作为码农&工程师,我们现在的用法、现在的需求,是在使用 LLM 去完成大部分的乏味工作、重复劳动,去协助我们处理一些列机械化、系统性、结构性的任务——尤其是需要大量Coding的编程工作。但尝试拓宽这个界限,我们会发现AI「不应该」有且只有这两种展示形象,一个是完全实用主义的,一个是完全虚无主义的。

作为最广大客户的人民群众更喜欢带有不确定性的延伸感觉,更喜欢带有饱含动态的姿式,更喜欢具有神性风度,天地万物竞自由的精神。至于如何让用户在使用LLM产品时产生不确定的延伸感觉&有多巴胺存在的动态体验&最好能附带有艺术和神性意志存在的精神,可以成为一些设计者和战略者对未来的一些考量,没准也是一个未来的亿级,乃至于十亿级的新市场呢?

从商业化角度,大多数GenAI产品都选择了「轻量」的市场,试图在套壳的基础上通过简单的服务和较低的成本来吸引用户。它们宣传自己的能解决的问题是实用的、窄赛道的、基本的,但这样,价格难以提高,盈利空间有限,用户对产品的留存度和忠诚度也比较低。

相比之下,DeepSeek选择走了一条看似更险、更玄的路(实际上可能并不是,因为大模型的不对齐可能更易于训练(划掉),不知道是不是RL太用力的后遗症,因为o3也干了!),即追求「文采」和「灵动」等用户的主观体验。

我们回到开头:

对于模型厂商来说,尤其是对于那些非T0的模型厂商和AI Infra公司来说,把模型训练&微调的不那么「对齐」可能是另一条吸引用户的野路子方法。

反正砸钱烧GPU冲SOTA这件事上指定是干不过T0级别的御六家了,干的事一直一样,卷性价比卷稳定在卷交互上根本卷不出一片天,不如另辟蹊径,赛道细分点,最后市场能大点;又或者,可能另辟蹊径者本身就是最大的赛道?

日月出矣,而爝火不息;其于光也,不亦难乎?

你也可以在这里看到我的博客原文

15 个赞

前排沙发

3 个赞

龟龟,这也太快了bro

2 个赞

顺手的事

2 个赞

好文,赞了

2 个赞

不理解这篇文章的意图,说得好像是有一个高材生是因为不走寻常路的配饰才得到了大家的喜爱并成为了爱豆。

这与事实似乎相去甚远。

5 个赞

感觉跟事实差了很多,你只是说到了其中一个点而已,DeepSeek 起来更大的原因是开源+成本+国产。这种文风也不是它的初创的,那会基本上都是这种。

2 个赞

关注点不一样,佬们可能更看重其他性能,模型确实突破点也不在这 不过这个文笔确实是引发轰动原因之一

2 个赞

我这里没有否定DeepSeek作为顶级模型的性能之强势和独特的扫地僧地位,只是我们不能忽视ds在全国范围内以一个极为夸张的地步爆火迅速传播的重要、甚至是主要原因也有它当时的文风惊艳了所有人。如果没有那么惊艳的文风,可能就会像qwen、doubao那样又多一个新的sota模型,但有了惊艳的文风会直接让最广大的人民群众也有其传播意愿了

2 个赞

我觉得这篇文章的立足点有点奇怪,DS 的成功硬要归结到“花哨”的风格上去,而不是实打实的模型能力和廉价的成本?

但有一个问题值得思考,为什么美国头部那几家这么喜欢强调 Alignment, Safety 这些概念,至少在我个人看来,当前模型的能力还远没达到需要真正特别关注这些问题的地步。我们也能观察到头部几家为了这些伤害到模型性能的例子。

个人感觉和老美那边民众对 AI 的较低信任度有关。之前有调查,国内民众对“AI 改变生活”的相信程度几乎是最高的。

3 个赞

请参见此回复

ds的成功和惊艳,其实在我博客「模型考古学」系列很久之前就已经有过论文简析,这里相当于提供另一个视角 :face_blowing_a_kiss:

时势造英雄。

坦率的说,我几乎完全不能同意佬的观点,你用一个几乎完全没有意义的点去解构当时现象级的传播,我认为是非常偏颇的。也因此忽视几乎所有造就现象级传播的真正原因。

用文艺的解构方式去强行解读AI的现象,很可能恰恰是对AI认知的严重不足,或者是故意哗众取宠,从写文章的角度来说,我觉得这是极度不可取的。

3 个赞

针对ds在传媒领域成为现象级符号爆火的原因,我在文章开头增加了相关讨论 :face_blowing_a_kiss:

媒体需要热度,人们需要win

1 个赞

好文,太强了

r1的中文创意写作非常的强,当时确实吊打所有其他模型

其他家在当时都写不出来这么有意思的内容

推理过程透明,价格低廉,性能不俗,训练成本不高,对比起彼时的o1以及一众国模
火起来也正常吧

个人不是很赞同佬友的这篇文章,DS的文风灵动恰恰说明它的RLHF阶段做的很好。如果要用一个通俗但不恰当的比喻来说明的话,大概就是RLHF做的越好,LLM会在对话时越让你感觉有人格,哪怕是以代码和agent专精的claude,它作为一个chatbox的水平也是相当优秀的,更别提Grok、Gemini。

相反,那些RL阶段做的很差的模型才会让人感觉对话能力偏弱。R1之后的国模很大概率从Gemini和R1中Distill语料下来做RL,这种合成语料的风险之一就是语言野性的消退,进而导致语言多样性的消失。详细的研究你可以参考这篇论文:ICLR 2025 Strong Model Collapse

1 个赞

当时最主要的原因是性能直逼OpenAI的O1模型,而且还便宜是国产,那个时候来看,豆包,qwen这些还不如DeepSeek,单论模型体验上当时肯定是甩其他国产好几条街的,那个时候国内不会翻墙的哪吃过这么好的,当然就1传10,10传百了