Livebench更新了
0425(相对而言)还是比较符合使用经验的,大家可以去看看
coding仍然有些问题
coding换成aider的版本已更新
Livebench更新了
0425(相对而言)还是比较符合使用经验的,大家可以去看看
coding仍然有些问题
coding换成aider的版本已更新
居然不带链接!
现在加了:)
太感谢了 ![]()
另外不知道什么时候多了两个开关
一个是显示api名称
一个是只看非推理模型,有意思
基于qwen官方数据,参考其他模型降幅,可以预测qwen3目前还没出的成绩:
Qwen3-235B(MoE): 74.4
Qwen3-4B (Dense): 60.5
所以r1 coding比2.5pro claude3.7st还强?
2.5 Pro打不过c3.5、chatgpt 4o和4.1mini吗,这对吗![]()
感觉和实际使用体验不符啊,openai 的这一堆模型明显分高了,实际用起来比不上 2.5 pro 和 claude
我的错,光看到claude比上一次升上来了
确实还有很多离谱的地方
有一次程序出现隐藏bug,发给g2.5,它说程序没问题,后来发给r1说了几个问题,其中一个就是bug所在,所以编程上r1和g2.5谁更厉害不一定。
看榜单,Qwen 3 32B强得离谱啊
这个版本要合理了很多,之前OpenAi系的模型coding能力比其他的平均高出了十几二十分,有点过于夸张了
其实也就比上代qwq强了一丢丢
感觉略低于预期(和官方发的版本比)
ChatGPT-4o 的 livebench coding 分数这么夸张啊
openai系的感觉都偏高
此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。