DeepSeek还有新活(?

We present JanusFlow, a powerful framework that unifies image understanding and generation in a single model. JanusFlow introduces a minimalist architecture that integrates autoregressive language models with rectified flow, a state-of-the-art method in generative modeling. Our key finding demonstrates that rectified flow can be straightforwardly trained within the large language model framework, eliminating the need for complex architectural modifications.

新活是一个支持图像多模态的 LLM,成功把图像生成和理解在单个模型中统一起来(不像其它大模型生成图片都调用什么 SD Flux 啥的其它模型)
训练方式是传统 预训练 & SFT,没有用强化学习。这个模型比较小,只有 7b 参数量,大家可以随意本地运行,看这个 Series 估计先 PoC 以后后面再搞个大的。看技术报告里面全面打爆同参数量模型,技术报告还没上传,传了再看。

现在预定的链接:
线上 Playground(还没做):Chat With Janus-Pro-7B - a Hugging Face Space by deepseek-ai
技术报告(还没传):Janus/janus_pro_tech_report.pdf at main · deepseek-ai/Janus · GitHub
DeepSeek 到底在干嘛,除夕也有新活,这也卷??感觉可以给 DS 磕两个
再这样下去别人的新模型就要比不上baseline了

来源:Telegram: View @microblock_pub

17 个赞

干嘛的?我去看看哦

2 个赞

风暴来袭

3 个赞

他们到底憋了多少东西没发出来

5 个赞

太吊了ds…

3 个赞

狠狠做空美股

3 个赞

不是 这???

2 个赞

不是哥们,这辈子没这么win过,一下子有点不适应了

8 个赞

我很纳闷他们还有个 QWen 的开源模型,而且排在 hf 很靠前,和阿里的千问啥关系?

什么,还能加

是那个qwen distilled r1吗 那个是在qwen基础上训练的

是的,这俩:

就是deepseek在qwen的模型上用R1训练出来的…

啊,有点没懂,R1 本身是个模型吧?它还能基于其他模型跑一个新模型出来吗

按照原文翻译来
利用 DeepSeek-R1 生成的推理数据,我们对研究社区中广泛使用的几个密集模型进行了微调。评估结果表明,蒸馏后的较小密集模型在基准测试中表现出色。我们将基于 Qwen2.5 和 Llama3 系列的 1.5B、7B、8B、14B、32B 和 70B 检查点开源给社区。

怎么上传人是CXK后缀啊…(应激反应了

这是要发连招啊

看美股没死透再来一下()

1 个赞

DS:一直发布一直爽 一直做空一直爽(

2 个赞

太期待了!