跑了一下 DeepSeek-V3-0324 的 LiveBench 结果

等了一天了没人跑,那还是自己来吧
image

Model Organization Global Average Reasoning Average Coding Average Mathematics Average Data Analysis Average Language Average IF Average
claude-3-7-sonnet-thinking Anthropic 76.10 87.83 74.54 79.00 74.05 59.93 81.25
o3-mini-2025-01-31-high OpenAI 75.88 89.58 82.74 77.29 70.64 50.68 84.36
o1-2024-12-17-high OpenAI 75.67 91.58 69.69 80.32 65.47 65.39 81.55
qwq-32b Alibaba 71.96 83.50 72.23 77.82 65.03 51.35 81.83
deepseek-r1 DeepSeek 71.57 83.17 66.74 80.71 69.78 48.53 80.51
deepseek-V3-0324 DeepSeek 70.2 75.3 73.5 73.7 60.1 50.1 88.5
o3-mini-2025-01-31-medium OpenAI 70.01 86.33 65.38 72.37 66.56 46.26 83.16
gpt-4.5-preview OpenAI 68.95 71.08 75.18 69.33 64.33 61.45 72.33
gemini-2.0-flash-thinking-exp-01-21 Google 66.92 78.17 53.49 75.85 69.37 42.18 82.47
claude-3-7-sonnet Anthropic 65.56 66.00 67.49 63.26 63.37 56.76 76.49
gemini-2.0-pro-exp-02-05 Google 65.13 60.08 63.49 70.97 68.02 44.85 83.38
gemini-exp-1206 Google 64.09 57.00 63.41 72.36 63.16 51.29 77.34
o3-mini-2025-01-31-low OpenAI 62.45 69.83 61.46 63.06 62.04 38.25 80.06
qwen2.5-max Alibaba 62.29 51.42 64.41 58.35 67.93 56.28 75.35
15 个赞

太强了大佬

5 个赞

马上将会是2.5Pro霸榜了

2 个赞

由于辛普森定律,平均分也就图一乐。主要看分项。
相比附近的模型,推理和数学弱一点(周围全是推理模型),代码强一些,指令遵循很好,甚至是所有模型里最好的。符合对新V3的刻板印象 :blush:

5 个赞

qwq-32B这么强吗?实际体验如何

1 个赞

强吗,token换的 :laughing:

编辑:没有说 qwq 不好的意思。32B 这个水平已经猛得不像话了。别的模型想烧token都没机会

1 个赞

马上该跑gemini-2.5-pro-exp-03-25了佬tieba_125

2 个赞

不愧是暂时的非推理最强

我去,这评分,我都不敢想R2得有多强 :heart_eyes:

这个token长度和推理模型有什么区别,输出过程中会反复思考

这个是0831题库得分吧?
按最新题库的话应该是跟gpt-4.5差不多

1 个赞

个人体感不如r1,思考过程太长了,题目反而做不出来

1 个赞

QwQ32b强的,虽然耗Token!V3-0324实测语言能力比R1强,目前看做国内英语试卷最强。

1 个赞

太猛了!

你说得对。。所以我现在还是用modelscope吧 :melting_face:

qwq32我怎么用的时候经常死循环 非常不稳定

佬,看到你的分身了
image

不是我:rofl:

1 个赞

一个懒洋洋一个懒羊羊 :joy:

1 个赞

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。