:Fire:【大模型系列13】关于Deepseek-V3.1,你想知道的一切【0822更新:LiveBench更新3.1 thinking评分,FictionBench长上下文评分】

基本信息

看名字就知道,小版本升级,期望值不要过高
融合模型,可以开推理,但不是r2
英国的金融时报说r2因为华为升腾计算卡的问题,训练不顺利,不会马上面市,此说法未经验证,当八卦吧
官网Chat和API,已经用3.1开推理,替代掉了R1,所以也有可能根本就没有R2,而是类似OpenAI以后不会再有o4,直接与gpt5合并了

250820上线
训练数据到24年7月
基本参数同Deepseek-V3 0324

API上下文从64k增加到128k,参考ds3貌似有些第三方云就已经是128k或160k
API非推理输出默认4k/最大8k,与ds3一样
推理输出(含推理Token)默认32k/最大64k,与r1一样

推理非推理统一价:输入$0.56/输出$1.68,输入缓存价1/8,取消了夜间5折优惠
250906开始实施,0906之前按v3/r1的老价格
3.1比ds3的$0.14/$0.28,缓存价1/4。输入涨到4倍,输出涨到6倍,缓存优惠幅度增加
3.1比r1的$0.55/$2.19,缓存价1/4。输入不变,输出价格下降1/4,缓存优惠幅度增加

官方模型卡

来源:deepseek-ai/DeepSeek-V3.1 · Hugging Face

官方自评





来源:DeepSeek-V3.1 发布 | DeepSeek API Docs

LMArena评分 截止250822 13:44尚未上线

来源:Overview Leaderboard | LMArena

LiveBench评分

以下是3.1推理


以下是3.1非推理,过滤掉了其他推理模型
分数明显高于deepseek-3-0324,与最新的sonnet4不开推理,gpt-5-chat不开推理,分数差不多,话说最近国产四大开源LLM和画图视频集体爆发,ds/qwen/kimi/glm都挺能打的


来源:LiveBench

Aider编程评分 Aider官网貌似已经停更,只有deepseek宣传图


来源:https://i.redd.it/mqcnus8py1kf1.png
官网:Aider LLM Leaderboards | aider

FictionBench长上下文评分


来源:Fiction.live

ArtificialAnalysis评分


来源:https://artificialanalysis.ai/

Chat渠道

官网已上线

现在官网开启思考模型回复的应该是v3.1而不是r1了,官网r1已经没了

API渠道

官网已上线

OpenRouter已上线

来源:DeepSeek V3.1 - API, Providers, Stats | OpenRouter

模型下载

如果你机器跑得动的话…
来源:deepseek-ai/DeepSeek-V3.1 at main

相关测试视频

250820 :smiling_face:NiceKate AI⁵ ▷实测 DeepSeek V3.1 编码 & 写作 :globe_with_meridians:
250820 :smiling_face:Bijan Bowen ▷DeepSeek V3.1 First Test – Is This The BEST Open Source LLM? :globe_with_meridians:

站内相关讨论

.https://linux.do/t/topic/888516
.DeepSeek v3.1 + Claude Code 初体验
.据Aider编程基准测试,deepseek超过克劳德opus4,真的假的
.DeepSeekV3.1大家用起来怎么样?
.DeepSeek V3.1发布是否打脸了金融时报?
.DeepSeek V3.1总算是来了

51 个赞

我近期其他帖子

.🔥【原创长文】GPT5来了,¥55充Plus,尼区美区所有AI类App价格对比【长期更新】
十倍速语音写作4:🔥【十倍速写作系列4】我原创的最强桌面级生产力+AI语音眼镜组合【长期更新】
十倍速语音写作3:🔥【十倍速写作系列3】关于AI语音输入法,你想知道的一切,附全平台排名【250820底楼更新最强听写+最强润色方案】
十倍速语音写作2:🔥【十倍速写作系列2】:4o-transcribe vs whisper vs gemini-2.5 vs 搜狗讯飞的识别率实测,250716更新gemini和elevenlabs-scribe
十倍速语音写作1:🔥【原创长文】深度分析AI语音输入法CleverType,如何降维打击讯飞搜狗语音,成为你的效率利器【长期更新】


深度研究5:分享个提升Gemini/ChatGPT Deep research最大输出,以及查看ChatGPT Deep research剩余次数的方法
深度研究4:🔥【原创长文】O3 Deep research vs 2.5-pro Deep research
深度研究3:🔥【原创长文】让AI为你写有声书:基于Deep research+音频朗读的学习方法


大模型12::Fire:【大模型系列12】关于 GPT-5,你想知道的一切【250904底楼更新Aider评分),狼人杀测试(撒谎与伪装)排第一】
大模型11:🔥【大模型系列11】关于Grok4,你想知道的一切。250716更新:LMArena评分,网页版支持语音,加入类似3d waifu
大模型10:🔥【原创长文】关于O3-pro,你想知道的一切,更新LiveBench评分【长期更新】
大模型9:🔥【原创长文】关于Deepseek R1-0528,你想知道的一切【250530更新LiveBench评分】
大模型8:🔥【原创长文】关于Claude4,你想知道的一切,250529更新Lmarena前端编程评分【长期更新】
大模型7:🔥【原创长文】关于Gemini 2.5 Flash,你想知道的一切。2.5-flash-0520Lmarena和长上下文评分【250525更新见底楼】
大模型6:🔥【原创长文】关于GPT-O3,O4-mini和4.1,你想知道的一切:250425:Lmarena评分出来了【长期更新】
大模型5:【原创长文】关于Gemini 2.5 Pro,你想知道的一切。2.5-pro-0605 Aider编程分数超过o3【更新见底楼】


其他:🔥【原创长文】顶级会员科普:ChatGPT Pro vs Gemini Ultra vs Claude Max vs SuperGrok Heavy
其他:🔥【原创长文】全网最全,中美AI相关社区汇总【长期更新】
其他:【原创长文】不要被官方参数骗了,各大模型实际长文输出能力测试研究【长期更新】
其他:【原创长文】Gemini-2.5-flash做沉浸式翻译的研究
其他:❓【ChatGPT】Sora画图 vs 4o画图,有什么区别,你知道吗?
其他:🔥【原创长文】关于免费和包月限量,你想知道的一切:ChatGPT Deep research限量翻倍【250518底楼更新】
其他:AI梗图大全,总有一张让你大笑☺,250410更新Llama梗图在底部【长期更新】

8 个赞

mark了 等更新

前排占座等更新

1 个赞

我好奇官网和官方api用的是目前放出来的v3.1base模型吗,之前的v3系列是有v3base和v3无后缀版的区别的 :thinking:

livebench上面还是0324,3.1还没上

5 个赞

前排占座,等更新

livebench上面的v3.1应该是0324吧

1 个赞

是的,点击模型名称,跳转的是Hugging Face中的V3-0324

1 个赞

OpenRouter的实际API用量统计上,在20天之内(7月21到8月11),领先者(claude/gemini/deepseek)的份额,正在被挑战者(qwen3/kimi k2/GLM4.5/GPT5)迅速蚕食

3 个赞

mark等待更新

1 个赞

还在拿华为算力卡说事,你都说是据说了,就不应该出现在这里,deepseek从来没说啥时候发布R2,甚至说是不是叫R2也是个未知数

8 个赞

感谢大佬总结

3.1 什么水平不知道,但是谷歌那套无脑夸倒是学到了。是你吗,套皮 Gemini?

image
image
image
image
image
image

23 个赞

qwen3coder是真的强,免费的量够,速度还快,能力也还行

1 个赞

DeepSeek 现在把 deepseek-ai/DeepSeek-V3.1 · Hugging Face 也发出来了。

2 个赞

livebench 出来了,不过目前评测的是 Base 模型

1 个赞

错误的,数据该更新了

1 个赞

看到了 :joy:谢谢佬友

增加了价格信息 250821 16:51更新