livebench将重跑qwq 32b，据说成绩将会大幅提高，甚至超过deepseek R1

davy · 2025 年3 月 9 日 01:11

qwen团队联系了livebench团队，请他们优化参数后再跑一次，livebench已经同意重跑了。

github上有人跑过了，成绩超过deepseek R1。不过他改了livebench代码，将系统(system）提示词合并到用户(user)提示词里去了。

Tuyu · 2025 年3 月 9 日 01:12

這麼厲害

hifumi_mizuhara · 2025 年3 月 9 日 01:15

32b啊这可是，这么强

SomeBottle · 2025 年3 月 9 日 01:18

32B 能达到这种水平确实很不错了

Luis · 2025 年3 月 9 日 01:19

又有的玩了~

seamee · 2025 年3 月 9 日 01:20

卷起来了是好事，就是希望不要专门为跑分优化，实际上拉垮

zhong_little · 2025 年3 月 9 日 01:23

看代码意思是不要直接使用system，之前R1也说尽量不加system，看来推理模型训练的时候没有特别强化这方面

happyZYM · 2025 年3 月 9 日 01:34

是这样子的，问一下这个问题：在一场跑步比赛中，如果冲线前你被当时的第二名超越了，你最后是第几名。然后qwq 32b会死循环（Groq上测试的）

user695 · 2025 年3 月 9 日 01:35

昨天一直在用qwq32 个人感觉确实很不错

zhao3232 · 2025 年3 月 9 日 01:37

昨天写天气卡片它思考了半个小时没给我结果

fengchris · 2025 年3 月 9 日 01:38

又强了？

ziqian9099 · 2025 年3 月 9 日 01:50

真这么强吗？我小看他了

EFL · 2025 年3 月 9 日 02:02

实际上大概率就是这样。QwQ-32B 的价值更多是能本地跑，哪怕是专门对跑分优化，实际解决问题也不会差到哪里去

timjim · 2025 年3 月 9 日 02:04

32B这么强的吗？

tyzones · 2025 年3 月 9 日 02:09

越卷越好呀，尤其是国内，多做点实在事，少点吹

seamee · 2025 年3 月 9 日 02:24

有个正在到处吹的呢

bwrrz7x · 2025 年3 月 9 日 02:40

我试了，的确是……

6512345 · 2025 年3 月 9 日 02:42

32b，那么强

troubleman · 2025 年3 月 9 日 02:45

32b还不错啊

zhao3232 · 2025 年3 月 9 日 02:46

github上有openmanus完全不用激活码

话题		回复	浏览量
QwQ-32B发布前沿快讯人工智能	77	3198	2025 年5 月 3 日
阿里32B新模型比肩满血DeepSeek-R1 前沿快讯	9	1055	2025 年4 月 5 日
QWQ 32B分数更新，超过DeepSeek R1 前沿快讯人工智能	39	1580	2025 年4 月 14 日
qwen3 8B真实用啊！gemini2.5pro大部分时间都不需要用了开发调优人工智能	72	3144	2025 年6 月 6 日
qwen实乃ai界汪峰 qwq模型性能到底如何？搞七捻三人工智能	34	1227	2025 年3 月 29 日