DeepSeek到底是不是技术领先?

meix1 · 2025 年2 月 10 日 01:55

一堆文章分析DeepSeek的，但是没看到比较参数大小的, 有没有可能只是因为他的模型大呢？
如果 qwen的70b是大模型的话，那 Deepseek接近700b算超大模型了吧，足足大了10倍，分数相差20分，如果qwen也出一个700b的模型能不能追平甚至超过跑分？

bbznop · 2025 年2 月 10 日 01:56

但是 DeepSeek 的优势不是用低成本训练 AI 吗

Davidasx · 2025 年2 月 10 日 01:57

独创deepseekMoE架构，降低成本
不然训练700b模型不得贵死

eugeneL · 2025 年2 月 10 日 01:58

moe gpu开销小，虽然占用内存大但是承受更高并发

WenboWong · 2025 年2 月 10 日 01:59

关键得看应用情况，每家都在说自己模型的优势，但还是要落地才行。真正能够落在实处，一个在于怎么使用，谁使用，另一个在于模型自身的特征适合做什么。

eugeneL · 2025 年2 月 10 日 02:02

之前零一万物的moe成本做到1块钱 1m

zhangyang0301 · 2025 年2 月 10 日 02:03

我觉得吧，不能说领先，是另辟蹊径比较贴切。至于成本低，一方面是技术创新，另一方面和蒸馏关系很大。不知道理解对不对，请各位大佬指教。

handsome · 2025 年2 月 10 日 02:07

我觉得是领先

meix1 · 2025 年2 月 10 日 02:07

有道理，好多人都理解偏了包括我，误以为模型能力上比其它模型强很多

meix1 · 2025 年2 月 10 日 02:08

有道理，Deepseek领先的地方主要是成本降低了

meix1 · 2025 年2 月 10 日 02:08

好像qwen也是moe

meix1 · 2025 年2 月 10 日 02:09

模型越来越大，本地部署越来越不可能了

meix1 · 2025 年2 月 10 日 02:10

meix1 · 2025 年2 月 10 日 02:10

感觉这个说得比较有道理

meix1 · 2025 年2 月 10 日 02:11

有可能，但是模型大小差别太大了，qwen-max 追上 v3 的跑分，但是他的模型多大的没公开，不知道是多少b的

hengrrr · 2025 年2 月 10 日 02:11

架构算法上上Multi-head Latent Atten-
tion (MLA) 提高了正确率，通信上 DualPipe,all-to-all 提高效率，减少开销，还有别的优化共同早就他的低成本高效率

runs · 2025 年2 月 10 日 02:12

就是因为成本低才火起来的，

这个R1模型上年就已经在官网可以正常使用了，火起来是因为一月底把模型开源出来以后，大家发现成本真的很低。

yuyuyang · 2025 年2 月 10 日 02:13

低成本+开源复现o1，并不仅仅是低成本

wise_bird · 2025 年2 月 10 日 02:31

从参数量来讲，DeepSeek-V3 是 MoE 模型，虽然总参数为 671B，但推理激活仅有 37B。 DeepSeek-V3 正式发布。

从技术角度来讲，DeepSeek应该是第一个从0到1走通使用强化学习让模型自主学习并获取推理能力的，而且把技术报告，模型权重全部公开。

ettingshausen · 2025 年2 月 10 日 02:38

Deepseek 的优势是低成本+开源。

话题		回复	浏览量
未齐之齐：DeepSeek在年初的爆火似乎佐证了大家喜欢来点狠的开发调优 ChatGPT , 人工智能 , 原创	34	919	2025 年8 月 19 日
deepseek在行业里到底什么地位国产替代 DeepSeek , 人工智能	106	3010	2026 年3 月 7 日
o4和r2什么时候能来？搞七捻三纯水	63	1657	2025 年4 月 2 日
为什么感觉deepseek“泯然众人”了，甚至被国内一些大模型赶超了国产替代	165	8025	2026 年1 月 9 日
斯坦福大学报告称中美AI差距缩小至0.3% 前沿快讯	26	1010	2025 年5 月 9 日