阿里云通义千问 Qwen 3 旗舰版模型宣布更新:性能全面提升,超越 Kimi、DeepSeek 等行业顶尖水平

IT之家 7 月 22 日消息,阿里云今天更新了旗舰版 Qwen3 模型,推出 Qwen3-235B-A22B-FP8 非思考模式(Non-thinking)的更新版本,命名为 Qwen3-235B-A22B-Instruct-2507-FP8。

阿里云表示,在经过与社区沟通和深思熟虑后,决定停止使用混合思考模式,转为分别训练 Instruct 和 Thinking 模型,以获得最佳质量。

据介绍,新的 Qwen3 模型通用能力显著提升,包括指令遵循、逻辑推理、文本理解、数学、科学、编程及工具使用等方面,在 GQPA(知识)、AIME25(数学)、LiveCodeBench(编程)、Arena-Hard(人类偏好对齐)、BFCL(Agent 能力)等众多测评中表现出色,超过 Kimi-K2、DeepSeek-V3 等顶级开源模型以及 Claude-Opus4-Non-thinking 等领先闭源模型。


阿里云通义千问 Qwen 3 旗舰版模型宣布更新:性能全面提升,超越 Kimi、DeepSeek 等行业顶尖水平 - IT之家

4 个赞

测了一下,依旧一坨

6 个赞

跑分不会输,但是体验不会赢

4 个赞

正确的。之前qwen3不行感觉这就是主要原因

高分低能,面向测试集的性能提升,完全是一坨,已经彻底放弃QWEN了,非用国内模型的话,以前是DS,现在K2也不错。
真敢宣传啊,不怕被反噬?Qwen搞大跃进运动呢》 :downcast_face_with_sweat:

1 个赞

步子迈大了,想学GPT-5的技术路线,结果做了后发现自己的技术积累是一坨,做不出来 :rofl:

1 个赞

倒不一定是技术不够。模型这么小还要既要instruct又要thinking,技术再好效果肯定也不如分开来做

1 个赞

真不懂,Qwen技术不够,稳扎稳打其实也能做出一些成绩,算不上顶尖,但是也不会特别差。

但是,感觉Qwen团队的主管负责人群体,脑子有大病,

天天喊超越deepseek、chatgpt、claude,这是要逼着技术团队开发模型玩作弊啊,这技术人员还能不能好好做点研究了,每天上班就是考核模型超没超过D、O、A三家。
现在K2不错,Qwen又开始超越kimi了,你品,你细品 :kissing_face_with_smiling_eyes:
Qwen就像故意等着别人发布后自己再跳出来表演的小丑一样,大家也不傻,看着他就是笑。。。

1 个赞

模型规模比其他的小了一大圈,超越是不可能超越的。根本就不是一个赛道的,也不知道要超越啥

4 个赞

偷偷挖一铲,应该没人发现吧,反正 Qwen 3 确实又要出新模型了

被我发现了 因为有提示

1 个赞