Livebench 04-25更新：更符合实际一些，但coding仍然有问题

Shyliuli · 2025 年4 月 30 日 11:01

Livebench更新了

0425（相对而言）还是比较符合使用经验的，大家可以去看看
coding仍然有些问题
coding换成aider的版本已更新

Throttle · 2025 年4 月 30 日 11:01

居然不带链接！

Shyliuli · 2025 年4 月 30 日 11:03

现在加了:)

Throttle · 2025 年4 月 30 日 11:04

太感谢了

Shyliuli · 2025 年4 月 30 日 11:04

另外不知道什么时候多了两个开关
一个是显示api名称
一个是只看非推理模型，有意思

Shyliuli · 2025 年4 月 30 日 11:20

基于qwen官方数据，参考其他模型降幅，可以预测qwen3目前还没出的成绩：
Qwen3-235B(MoE): 74.4
Qwen3-4B (Dense): 60.5

a3members · 2025 年4 月 30 日 11:30

所以r1 coding比2.5pro claude3.7st还强？

LanyangyangKing · 2025 年4 月 30 日 11:35

2.5 Pro打不过c3.5、chatgpt 4o和4.1mini吗，这对吗

Moreality · 2025 年4 月 30 日 11:38

感觉和实际使用体验不符啊，openai 的这一堆模型明显分高了，实际用起来比不上 2.5 pro 和 claude

Shyliuli · 2025 年4 月 30 日 11:54

我的错，光看到claude比上一次升上来了
确实还有很多离谱的地方

bonabarenfei · 2025 年4 月 30 日 12:02

有一次程序出现隐藏bug，发给g2.5，它说程序没问题，后来发给r1说了几个问题，其中一个就是bug所在，所以编程上r1和g2.5谁更厉害不一定。

syclove · 2025 年4 月 30 日 12:45

看榜单，Qwen 3 32B强得离谱啊

I-IronMan · 2025 年4 月 30 日 12:47

这个版本要合理了很多，之前OpenAi系的模型coding能力比其他的平均高出了十几二十分，有点过于夸张了

Shyliuli · 2025 年4 月 30 日 13:01

其实也就比上代qwq强了一丢丢感觉略低于预期(和官方发的版本比)

Lumi · 2025 年5 月 1 日 07:12

ChatGPT-4o 的 livebench coding 分数这么夸张啊

Shyliuli · 2025 年5 月 1 日 07:21

openai系的感觉都偏高

system · 2025 年5 月 31 日 07:21

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。

话题		回复	浏览量
[持续更新]livebench0425+aider综合榜单(DeepSeek R1 0528) 文档共建人工智能	10	660	2025 年6 月 26 日
看了最新的livebench评分吗？搞七捻三纯水	22	750	2025 年5 月 17 日
[停止更新]livebench0402+aider综合榜单文档共建人工智能	13	632	2025 年5 月 30 日
o3 pro就这？开发调优人工智能	15	587	2025 年7 月 12 日
跑了一下 DeepSeek-V3-0324 的 LiveBench 结果搞七捻三人工智能	19	870	2025 年4 月 25 日