livebench将重跑qwq 32b,据说成绩将会大幅提高,甚至超过deepseek R1

qwen团队联系了livebench团队,请他们优化参数后再跑一次,livebench已经同意重跑了。

github上有人跑过了,成绩超过deepseek R1。不过他改了livebench代码,将系统(system)提示词合并到用户(user)提示词里去了。

23 个赞

這麼厲害

32b啊这可是,这么强

2 个赞

32B 能达到这种水平确实很不错了

1 个赞

又有的玩了~ :bili_117:

卷起来了是好事,就是希望不要专门为跑分优化,实际上拉垮

3 个赞

看代码意思是不要直接使用system,之前R1也说尽量不加system,看来推理模型训练的时候没有特别强化这方面

3 个赞

是这样子的,问一下这个问题:在一场跑步比赛中,如果冲线前你被当时的第二名超越了,你最后是第几名。然后qwq 32b会死循环(Groq上测试的)

1 个赞

昨天一直在用qwq32 个人感觉确实很不错

昨天写天气卡片它思考了半个小时没给我结果 :rofl:

1 个赞

又强了?

真这么强吗?我小看他了

实际上大概率就是这样。QwQ-32B 的价值更多是能本地跑,哪怕是专门对跑分优化,实际解决问题也不会差到哪里去

2 个赞

32B这么强的吗?

1 个赞

越卷越好呀,尤其是国内,多做点实在事,少点吹

1 个赞

有个正在到处吹的呢

3 个赞

我试了,的确是……

32b,那么强

32b还不错啊

github上有openmanus完全不用激活码