🔥【原创长文】关于Deepseek R1-0528,你想知道的一切【250530更新LiveBench评分】

LiveBench编程评分 250530 20:16更新

来源:LiveBench

模型下载

来源:deepseek-ai/DeepSeek-R1-0528 · Hugging Face

评分

官方自评


Function call性能:Tau-bench score: 53.5 (Airline)/63.9 (Retail)
复杂推理问题相比老版本R1会使用更多tokens
来源:DeepSeek-R1 更新,思考更深,推理更强 | DeepSeek API Docs
来源:https://api-docs.deepseek.com/zh-cn/updates

FictionBench长上下文评分

长上下文一直不是Deepseek强项,毕竟免费服务,长上下文会导致成本暴增,但对比r1,在32k以内的上下文性能还是有明显提升的
来源:Fiction.live

Artificial Analysis评分


来源:https://artificialanalysis.ai/

Lmarena评分,截止到250529 18:55未上线

来源:Overview Leaderboard | LMArena

Aider编程评分,截止到250529 18:55未上线

来源:Aider LLM Leaderboards | aider

Chat渠道

官网Chat已上线

来源:deepseek.com

OpenRouter Chatroom已上线

来源:OpenRouter

API渠道

官网API已上线

官方网站、小程序、App 端和 API 中的模型上下文长度仍为 64K。
可以通过其他第三方平台调用上下文长度为 128K 的开源版本 R1-0528 模型。
官方R1 API 中max_tokens参数,用于限制模型单次输出的总长度(包括思考过程),默认为 32K,最大为 64K。暂不确定如何单独指定推理token数
参考2.5pro/sonnet4最大总输出都是64k,opus4是32k,o3/o4-mini是100k

OpenRouter已上线

上下文164k,输出一般是32k
训练数据问r1自称到24年7月
有多个供应商,价格与r1-0120基本相当
免费版:R1 0528 - API, Providers, Stats | OpenRouter
收费版:R1 0528 - API, Providers, Stats | OpenRouter

L站一些相关讨论传送门

.deepseekr1 0528和2.5p以及claude4o比那个更强
.【已更新】一招分辨新旧DeepSeek R1
.新版DeepSeek R1思考极限时长能达到24分钟52秒
.DeepSeek R1写代码已经超越Claude
.DeepSeek-R1-0528 发布了,我吓得摔了一跤(重开)
.roocode搭配deepseek R1 0528,省钱好用!
.DeepSeek-R1-0528太勾巴强了,随便让生成一个rpg就出来这么个东西,试了下真能玩
.https://linux.do/t/topic/686739

24 个赞

正在更新中

FictionBench长上下文评分,截止到250529 18:55未上线

FictionBench上线了一部分吧?没上线大于64k的评测

3 个赞

每次新上模型,都是霸榜,然后一片好评。
最后实际用的还是claude。
之前v3新版也是,但是实际效果还是差点。

7 个赞

https://artificialanalysis.ai/ 这个网站更新了,不过时间好像标错了,标成0525了

2 个赞

livebench官方评分没出来,但有某个人跑的livebench测试评分


来源:https://www.reddit.com/r/LocalLLaMA/comments/1kxry4x

1 个赞

你这有点问题,这是 LiveCodeBench,不是 LiveBench,不要搞混了,并且这就是官方数据

3 个赞

这是 LiveCodeBench ,与 LiveBench 不同的

1 个赞

官方模型卡片更新了

有些榜单怎么奇形怪状的

有某个人跑的Aider测试评分
Deepseek R1-0528 在 aider polyglot 上的得分与 claude-opus-4-nothink 相同,均为 70.7%。旧版 R1 为 56.9%

 ────────────────────────────────── tmp.benchmarks/2025-05-28-18-57-01--deepseek-r1-0528 ──────────────────────────────────
- dirname: 2025-05-28-18-57-01--deepseek-r1-0528
  test_cases: 225
  model: deepseek/deepseek-reasoner
  edit_format: diff
  commit_hash: 119a44d, 443e210-dirty
  pass_rate_1: 35.6
  pass_rate_2: 70.7
  pass_num_1: 80
  pass_num_2: 159
  percent_cases_well_formed: 90.2
  error_outputs: 51
  num_malformed_responses: 33
  num_with_malformed_responses: 22
  user_asks: 111
  lazy_comments: 1
  syntax_errors: 0
  indentation_errors: 0
  exhausted_context_windows: 0
  prompt_tokens: 3218121
  completion_tokens: 1906344
  test_timeouts: 3
  total_tests: 225
  command: aider --model deepseek/deepseek-reasoner
  date: 2025-05-28
  versions: 0.83.3.dev
  seconds_per_case: 566.2 
2 个赞

分数都挺高的,关键这还是用24年12月的V3训练出来的,不是基于V3-0324的,R2出来之前后面应该还能进步

看完了,感觉还是蛮吊的。但是让我意外的是,为什么grok3mini可以成本这么低跑分还高?

感觉grok对跑分进行特殊优化过的,实际体验下来并不能达到它的跑分预期,唯二的优点是输出快和幻觉率低,整理文献比较好用

1 个赞

DeepSeek太强了,现在都可以和o3相提并论了 :tieba_087:

小版本更新这么强 期待r2了

写错了吗

1 个赞

微信公众号文章有了官方的

这进步也太大了,毕竟claude家模型有时候开思考是负优化

谢谢提醒,已经改了