🔥【原创长文】关于Deepseek R1-0528，你想知道的一切【250530更新LiveBench评分】

dwqxq1 · 2025 年5 月 29 日 10:57

LiveBench编程评分 250530 20:16更新

模型下载

来源：deepseek-ai/DeepSeek-R1-0528 · Hugging Face

评分

官方自评

Function call性能：Tau-bench score: 53.5 (Airline)/63.9 (Retail)
复杂推理问题相比老版本R1会使用更多tokens
来源：DeepSeek-R1 更新，思考更深，推理更强 | DeepSeek API Docs
来源：https://api-docs.deepseek.com/zh-cn/updates

FictionBench长上下文评分

长上下文一直不是Deepseek强项，毕竟免费服务，长上下文会导致成本暴增，但对比r1，在32k以内的上下文性能还是有明显提升的
来源：Fiction.live

Chat渠道

官网Chat已上线

来源：deepseek.com

OpenRouter Chatroom已上线

来源：OpenRouter

API渠道

官网API已上线

官方网站、小程序、App 端和 API 中的模型上下文长度仍为 64K。
可以通过其他第三方平台调用上下文长度为 128K 的开源版本 R1-0528 模型。
官方R1 API 中max_tokens参数，用于限制模型单次输出的总长度（包括思考过程），默认为 32K，最大为 64K。暂不确定如何单独指定推理token数
参考2.5pro/sonnet4最大总输出都是64k，opus4是32k，o3/o4-mini是100k

OpenRouter已上线

上下文164k，输出一般是32k
训练数据问r1自称到24年7月
有多个供应商，价格与r1-0120基本相当
免费版：R1 0528 - API, Providers, Stats | OpenRouter
收费版：R1 0528 - API, Providers, Stats | OpenRouter

L站一些相关讨论传送门

.deepseekr1 0528和2.5p以及claude4o比那个更强
.【已更新】一招分辨新旧DeepSeek R1
.新版DeepSeek R1思考极限时长能达到24分钟52秒
.DeepSeek R1写代码已经超越Claude
.DeepSeek-R1-0528 发布了，我吓得摔了一跤（重开）
.roocode搭配deepseek R1 0528，省钱好用！
.DeepSeek-R1-0528太勾巴强了，随便让生成一个rpg就出来这么个东西，试了下真能玩
.https://linux.do/t/topic/686739

dwqxq1 · 2025 年5 月 29 日 10:57

正在更新中

LIFE001400 · 2025 年5 月 29 日 10:59

FictionBench长上下文评分，截止到250529 18:55未上线

FictionBench上线了一部分吧？没上线大于64k的评测

tbphp · 2025 年5 月 29 日 11:01

每次新上模型，都是霸榜，然后一片好评。
最后实际用的还是claude。
之前v3新版也是，但是实际效果还是差点。

Shyliuli · 2025 年5 月 29 日 11:01

https://artificialanalysis.ai/ 这个网站更新了，不过时间好像标错了，标成0525了

dwqxq1 · 2025 年5 月 29 日 11:59

livebench官方评分没出来，但有某个人跑的livebench测试评分

来源：https://www.reddit.com/r/LocalLLaMA/comments/1kxry4x

KXG · 2025 年5 月 29 日 12:06

你这有点问题，这是 LiveCodeBench，不是 LiveBench，不要搞混了，并且这就是官方数据

KXG · 2025 年5 月 29 日 12:07

这是 LiveCodeBench ，与 LiveBench 不同的

fengchris · 2025 年5 月 29 日 12:11

官方模型卡片更新了

handsome · 2025 年5 月 29 日 12:29

有些榜单怎么奇形怪状的

BunnHack · 2025 年5 月 29 日 12:35

有某个人跑的Aider测试评分
Deepseek R1-0528 在 aider polyglot 上的得分与 claude-opus-4-nothink 相同，均为 70.7%。旧版 R1 为 56.9%

 ────────────────────────────────── tmp.benchmarks/2025-05-28-18-57-01--deepseek-r1-0528 ──────────────────────────────────
- dirname: 2025-05-28-18-57-01--deepseek-r1-0528
  test_cases: 225
  model: deepseek/deepseek-reasoner
  edit_format: diff
  commit_hash: 119a44d, 443e210-dirty
  pass_rate_1: 35.6
  pass_rate_2: 70.7
  pass_num_1: 80
  pass_num_2: 159
  percent_cases_well_formed: 90.2
  error_outputs: 51
  num_malformed_responses: 33
  num_with_malformed_responses: 22
  user_asks: 111
  lazy_comments: 1
  syntax_errors: 0
  indentation_errors: 0
  exhausted_context_windows: 0
  prompt_tokens: 3218121
  completion_tokens: 1906344
  test_timeouts: 3
  total_tests: 225
  command: aider --model deepseek/deepseek-reasoner
  date: 2025-05-28
  versions: 0.83.3.dev
  seconds_per_case: 566.2

Creasys · 2025 年5 月 29 日 12:40

分数都挺高的，关键这还是用24年12月的V3训练出来的，不是基于V3-0324的，R2出来之前后面应该还能进步

sssun · 2025 年5 月 29 日 12:41

看完了，感觉还是蛮吊的。但是让我意外的是，为什么grok3mini可以成本这么低跑分还高？

Aopex · 2025 年5 月 29 日 12:43

感觉grok对跑分进行特殊优化过的，实际体验下来并不能达到它的跑分预期，唯二的优点是输出快和幻觉率低，整理文献比较好用

JamRin · 2025 年5 月 29 日 13:01

DeepSeek太强了，现在都可以和o3相提并论了

Lianues · 2025 年5 月 29 日 13:16

小版本更新这么强期待r2了

DFobainx · 2025 年5 月 29 日 13:56

写错了吗

WyInnovate · 2025 年5 月 29 日 14:00

微信公众号文章有了官方的

BlakeHansen130 · 2025 年5 月 29 日 16:56

这进步也太大了，毕竟claude家模型有时候开思考是负优化

dwqxq1 · 2025 年5 月 30 日 00:31

谢谢提醒，已经改了

话题		回复	浏览量
【Deepseek3-0324】250401：Lmarena评测出来了！【长期更新】搞七捻三 DeepSeek , 人工智能 , 纯水	32	2421	2025 年5 月 1 日
DeepSeek-V3-Base 开源，685B Moe 开发调优人工智能	64	2484	2025 年1 月 27 日
不懂为什么都在吹deepseek-v3 250324版本搞七捻三 DeepSeek , 人工智能 , 快问快答 , 纯水	58	3791	2025 年6 月 3 日
livebench将重跑qwq 32b，据说成绩将会大幅提高，甚至超过deepseek R1 前沿快讯人工智能	44	1653	2025 年4 月 9 日
685B的Deepseek V3上抱脸了，Aider榜上超sonnet了，LiveBench数据好像也出了搞七捻三人工智能	27	1262	2025 年1 月 25 日