DeepSeek还有新活（？

bfloat16 · 2025 年1 月 27 日 16:12

We present JanusFlow, a powerful framework that unifies image understanding and generation in a single model. JanusFlow introduces a minimalist architecture that integrates autoregressive language models with rectified flow, a state-of-the-art method in generative modeling. Our key finding demonstrates that rectified flow can be straightforwardly trained within the large language model framework, eliminating the need for complex architectural modifications.

新活是一个支持图像多模态的 LLM，成功把图像生成和理解在单个模型中统一起来（不像其它大模型生成图片都调用什么 SD Flux 啥的其它模型）
训练方式是传统预训练 & SFT，没有用强化学习。这个模型比较小，只有 7b 参数量，大家可以随意本地运行，看这个 Series 估计先 PoC 以后后面再搞个大的。看技术报告里面全面打爆同参数量模型，技术报告还没上传，传了再看。

现在预定的链接：
线上 Playground（还没做）：Chat With Janus-Pro-7B - a Hugging Face Space by deepseek-ai
技术报告（还没传）：Janus/janus_pro_tech_report.pdf at main · deepseek-ai/Janus · GitHub
DeepSeek 到底在干嘛，除夕也有新活，这也卷？？感觉可以给 DS 磕两个
再这样下去别人的新模型就要比不上baseline了

来源：Telegram: View @microblock_pub

wangqazwsx · 2025 年1 月 27 日 16:16

干嘛的？我去看看哦

Reno · 2025 年1 月 27 日 16:32

风暴来袭

bsa · 2025 年1 月 27 日 16:35

他们到底憋了多少东西没发出来

Aopex · 2025 年1 月 27 日 16:38

太吊了ds…

Reno · 2025 年1 月 27 日 16:38

狠狠做空美股

zgccrui · 2025 年1 月 27 日 16:39

不是这？？？

glacier · 2025 年1 月 27 日 16:40

不是哥们，这辈子没这么win过，一下子有点不适应了

Dabai · 2025 年1 月 27 日 16:41

我很纳闷他们还有个 QWen 的开源模型，而且排在 hf 很靠前，和阿里的千问啥关系？

stevessr · 2025 年1 月 27 日 16:41

什么，还能加

stevessr · 2025 年1 月 27 日 16:42

是那个qwen distilled r1吗那个是在qwen基础上训练的

Dabai · 2025 年1 月 27 日 16:43

是的，这俩：

stevessr · 2025 年1 月 27 日 16:44

就是deepseek在qwen的模型上用R1训练出来的…

Dabai · 2025 年1 月 27 日 16:45

啊，有点没懂，R1 本身是个模型吧？它还能基于其他模型跑一个新模型出来吗

stevessr · 2025 年1 月 27 日 16:47

按照原文翻译来
利用 DeepSeek-R1 生成的推理数据，我们对研究社区中广泛使用的几个密集模型进行了微调。评估结果表明，蒸馏后的较小密集模型在基准测试中表现出色。我们将基于 Qwen2.5 和 Llama3 系列的 1.5B、7B、8B、14B、32B 和 70B 检查点开源给社区。

stevessr · 2025 年1 月 27 日 16:50

怎么上传人是CXK后缀啊…（应激反应了

6512345 · 2025 年1 月 27 日 16:50

这是要发连招啊

Guducat · 2025 年1 月 27 日 16:52

看美股没死透再来一下（）

Cisco_He · 2025 年1 月 27 日 16:52

DS：一直发布一直爽一直做空一直爽（

handsome · 2025 年1 月 28 日 01:16

太期待了！

话题		回复	浏览量
用qwen3 235b 分析了一下deepseek本次推出的新模型的动机搞七捻三 AIGC , 人工智能 , 纯水	19	692	2025 年5 月 31 日
Jauns专篇‖回顾DS多模态历程前沿快讯 DeepSeek , 人工智能	12	408	2025 年2 月 27 日
DeepSeek 发布 R1 蒸馏过的现有开源模型，家家户户都能 CoT 前沿快讯人工智能	33	1971	2025 年2 月 20 日
DeepSeek-R1 开源版来了！！前沿快讯 DeepSeek , 人工智能	52	2281	2025 年2 月 20 日
DeepSeek-V3-Base 开源，685B Moe 开发调优人工智能	64	2484	2025 年1 月 27 日

DeepSeek还有新活（？

相关话题