Livebench 04-25更新:更符合实际一些,但coding仍然有问题

Livebench更新了

0425(相对而言)还是比较符合使用经验的,大家可以去看看
coding仍然有些问题
coding换成aider的版本已更新

9 个赞

居然不带链接!

现在加了:)

太感谢了 :smiling_face_with_three_hearts:

另外不知道什么时候多了两个开关
一个是显示api名称
一个是只看非推理模型,有意思

基于qwen官方数据,参考其他模型降幅,可以预测qwen3目前还没出的成绩:
Qwen3-235B(MoE): 74.4
Qwen3-4B (Dense): 60.5

  • 只是预测,会不会出现30b-a3b那样滑铁卢咱也不知道…懒得去跑了

所以r1 coding比2.5pro claude3.7st还强?

2.5 Pro打不过c3.5、chatgpt 4o和4.1mini吗,这对吗:tieba_015:

1 个赞

感觉和实际使用体验不符啊,openai 的这一堆模型明显分高了,实际用起来比不上 2.5 pro 和 claude

我的错,光看到claude比上一次升上来了
确实还有很多离谱的地方

有一次程序出现隐藏bug,发给g2.5,它说程序没问题,后来发给r1说了几个问题,其中一个就是bug所在,所以编程上r1和g2.5谁更厉害不一定。

看榜单,Qwen 3 32B强得离谱啊

这个版本要合理了很多,之前OpenAi系的模型coding能力比其他的平均高出了十几二十分,有点过于夸张了

其实也就比上代qwq强了一丢丢:joy:感觉略低于预期(和官方发的版本比)

ChatGPT-4o 的 livebench coding 分数这么夸张啊

openai系的感觉都偏高

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。