跑了一下 DeepSeek-V3-0324 的 LiveBench 结果

doomooo · 2025 年3 月 25 日 16:59

等了一天了没人跑，那还是自己来吧

Model	Organization	Global Average	Reasoning Average	Coding Average	Mathematics Average	Data Analysis Average	Language Average	IF Average
claude-3-7-sonnet-thinking	Anthropic	76.10	87.83	74.54	79.00	74.05	59.93	81.25
o3-mini-2025-01-31-high	OpenAI	75.88	89.58	82.74	77.29	70.64	50.68	84.36
o1-2024-12-17-high	OpenAI	75.67	91.58	69.69	80.32	65.47	65.39	81.55
qwq-32b	Alibaba	71.96	83.50	72.23	77.82	65.03	51.35	81.83
deepseek-r1	DeepSeek	71.57	83.17	66.74	80.71	69.78	48.53	80.51
deepseek-V3-0324	DeepSeek	70.2	75.3	73.5	73.7	60.1	50.1	88.5
o3-mini-2025-01-31-medium	OpenAI	70.01	86.33	65.38	72.37	66.56	46.26	83.16
gpt-4.5-preview	OpenAI	68.95	71.08	75.18	69.33	64.33	61.45	72.33
gemini-2.0-flash-thinking-exp-01-21	Google	66.92	78.17	53.49	75.85	69.37	42.18	82.47
claude-3-7-sonnet	Anthropic	65.56	66.00	67.49	63.26	63.37	56.76	76.49
gemini-2.0-pro-exp-02-05	Google	65.13	60.08	63.49	70.97	68.02	44.85	83.38
gemini-exp-1206	Google	64.09	57.00	63.41	72.36	63.16	51.29	77.34
o3-mini-2025-01-31-low	OpenAI	62.45	69.83	61.46	63.06	62.04	38.25	80.06
qwen2.5-max	Alibaba	62.29	51.42	64.41	58.35	67.93	56.28	75.35

LanyangyangKing · 2025 年3 月 25 日 17:01

太强了大佬

Jason141 · 2025 年3 月 25 日 17:03

马上将会是2.5Pro霸榜了

doomooo · 2025 年3 月 25 日 17:05

由于辛普森定律，平均分也就图一乐。主要看分项。
相比附近的模型，推理和数学弱一点（周围全是推理模型)，代码强一些，指令遵循很好，甚至是所有模型里最好的。符合对新V3的刻板印象

include · 2025 年3 月 25 日 17:05

qwq-32B这么强吗？实际体验如何

doomooo · 2025 年3 月 25 日 17:06

强吗，token换的

编辑：没有说 qwq 不好的意思。32B 这个水平已经猛得不像话了。别的模型想烧token都没机会

zhubaiwan-oozzxx · 2025 年3 月 25 日 17:12

马上该跑gemini-2.5-pro-exp-03-25了佬

zhong_little · 2025 年3 月 25 日 17:18

不愧是暂时的非推理最强

QieShiYu · 2025 年3 月 25 日 19:06

我去，这评分，我都不敢想R2得有多强

yeahhe · 2025 年3 月 25 日 19:11

这个token长度和推理模型有什么区别，输出过程中会反复思考

homeworkkun · 2025 年3 月 25 日 23:00

这个是0831题库得分吧？
按最新题库的话应该是跟gpt-4.5差不多

beyond_ken · 2025 年3 月 25 日 23:36

个人体感不如r1，思考过程太长了，题目反而做不出来

jw20230219 · 2025 年3 月 26 日 00:12

QwQ32b强的，虽然耗Token！V3-0324实测语言能力比R1强，目前看做国内英语试卷最强。

handsome · 2025 年3 月 26 日 00:24

太猛了！

homeworkkun · 2025 年3 月 26 日 00:49

你说得对。。所以我现在还是用modelscope吧

a3members · 2025 年3 月 26 日 06:59

qwq32我怎么用的时候经常死循环非常不稳定

Bonus1794 · 2025 年3 月 26 日 07:35

佬，看到你的分身了

LanyangyangKing · 2025 年3 月 26 日 08:26

不是我

doomooo · 2025 年3 月 26 日 08:27

一个懒洋洋一个懒羊羊

system · 2025 年4 月 25 日 08:27

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。

话题		回复	浏览量
爆了兄弟们！新神登场！还得是谷歌！一波更新直接霸榜！楼下细嗦前沿快讯 ChatGPT , OpenAI , 人工智能	60	3822	2025 年7 月 7 日
[持续更新]livebench0425+aider综合榜单(DeepSeek R1 0528) 文档共建人工智能	10	660	2025 年6 月 26 日
Livebench 04-25更新：更符合实际一些，但coding仍然有问题搞七捻三人工智能	16	450	2025 年5 月 31 日
Gemini 2.5 pro 来了，gemini 2.5 flash 什么时候来搞七捻三人工智能 , 纯水	23	840	2025 年4 月 25 日
qwq-32b最新排行，强得有点离谱前沿快讯人工智能	22	1301	2025 年4 月 8 日