qwen团队联系了livebench团队,请他们优化参数后再跑一次,livebench已经同意重跑了。
github上有人跑过了,成绩超过deepseek R1。不过他改了livebench代码,将系统(system)提示词合并到用户(user)提示词里去了。
qwen团队联系了livebench团队,请他们优化参数后再跑一次,livebench已经同意重跑了。
github上有人跑过了,成绩超过deepseek R1。不过他改了livebench代码,将系统(system)提示词合并到用户(user)提示词里去了。
這麼厲害
32b啊这可是,这么强
32B 能达到这种水平确实很不错了
又有的玩了~ ![]()
卷起来了是好事,就是希望不要专门为跑分优化,实际上拉垮
看代码意思是不要直接使用system,之前R1也说尽量不加system,看来推理模型训练的时候没有特别强化这方面
是这样子的,问一下这个问题:在一场跑步比赛中,如果冲线前你被当时的第二名超越了,你最后是第几名。然后qwq 32b会死循环(Groq上测试的)
昨天一直在用qwq32 个人感觉确实很不错
昨天写天气卡片它思考了半个小时没给我结果 ![]()
又强了?
真这么强吗?我小看他了
实际上大概率就是这样。QwQ-32B 的价值更多是能本地跑,哪怕是专门对跑分优化,实际解决问题也不会差到哪里去
32B这么强的吗?
越卷越好呀,尤其是国内,多做点实在事,少点吹
我试了,的确是……
32b,那么强
32b还不错啊
github上有openmanus完全不用激活码