DeepSeek到底是不是技术领先?

一堆文章分析DeepSeek的,但是没看到比较参数大小的, 有没有可能只是因为他的模型大呢?
如果 qwen的70b是大模型的话,那 Deepseek接近700b算超大模型了吧,足足大了10倍,分数相差20分,如果qwen也出一个700b的模型能不能追平甚至超过跑分?

11 个赞

但是 DeepSeek 的优势不是用低成本训练 AI 吗

8 个赞

独创deepseekMoE架构,降低成本
不然训练700b模型不得贵死

3 个赞

moe gpu开销小,虽然占用内存大但是承受更高并发

2 个赞

关键得看应用情况,每家都在说自己模型的优势,但还是要落地才行。真正能够落在实处,一个在于怎么使用,谁使用,另一个在于模型自身的特征适合做什么。

4 个赞

之前零一万物的moe成本做到1块钱 1m

2 个赞

我觉得吧,不能说领先,是另辟蹊径比较贴切。至于成本低,一方面是技术创新,另一方面和蒸馏关系很大。不知道理解对不对,请各位大佬指教。

1 个赞

我觉得是领先

有道理,好多人都理解偏了包括我,误以为模型能力上比其它模型强很多 :joy:

有道理,Deepseek领先的地方主要是成本降低了

好像qwen也是moe

模型越来越大,本地部署越来越不可能了

1 个赞

:+1:

感觉这个说得比较有道理

有可能,但是模型大小差别太大了,qwen-max 追上 v3 的跑分,但是他的模型多大的没公开,不知道是多少b的

架构算法上上Multi-head Latent Atten-
tion (MLA) 提高了正确率,通信上 DualPipe,all-to-all 提高效率,减少开销,还有别的优化共同早就他的低成本高效率

1 个赞

就是因为成本低才火起来的,

这个R1模型上年就已经在官网可以正常使用了,火起来是因为一月底把模型开源出来以后,大家发现成本真的很低。

1 个赞

低成本+开源复现o1,并不仅仅是低成本

1 个赞

从参数量来讲,DeepSeek-V3 是 MoE 模型,虽然总参数为 671B,但推理激活仅有 37B。 DeepSeek-V3 正式发布

从技术角度来讲,DeepSeek应该是第一个从0到1走通使用强化学习让模型自主学习并获取推理能力的,而且把技术报告,模型权重全部公开。

4 个赞

Deepseek 的优势是低成本+开源。