阿里云通义千问 Qwen 3 旗舰版模型宣布更新：性能全面提升，超越 Kimi、DeepSeek 等行业顶尖水平

lezishen · 2025 年7 月 22 日 02:40

IT之家 7 月 22 日消息，阿里云今天更新了旗舰版 Qwen3 模型，推出 Qwen3-235B-A22B-FP8 非思考模式（Non-thinking）的更新版本，命名为 Qwen3-235B-A22B-Instruct-2507-FP8。

阿里云表示，在经过与社区沟通和深思熟虑后，决定停止使用混合思考模式，转为分别训练 Instruct 和 Thinking 模型，以获得最佳质量。

据介绍，新的 Qwen3 模型通用能力显著提升，包括指令遵循、逻辑推理、文本理解、数学、科学、编程及工具使用等方面，在 GQPA（知识）、AIME25（数学）、LiveCodeBench（编程）、Arena-Hard（人类偏好对齐）、BFCL（Agent 能力）等众多测评中表现出色，超过 Kimi-K2、DeepSeek-V3 等顶级开源模型以及 Claude-Opus4-Non-thinking 等领先闭源模型。

阿里云通义千问 Qwen 3 旗舰版模型宣布更新：性能全面提升，超越 Kimi、DeepSeek 等行业顶尖水平 - IT之家

sysy007uuu · 2025 年7 月 22 日 02:47

测了一下，依旧一坨

yunxin0_0 · 2025 年7 月 22 日 02:57

跑分不会输，但是体验不会赢

Ghidra · 2025 年7 月 22 日 02:58

正确的。之前qwen3不行感觉这就是主要原因

CNJK49 · 2025 年7 月 22 日 03:00

高分低能，面向测试集的性能提升，完全是一坨，已经彻底放弃QWEN了，非用国内模型的话，以前是DS，现在K2也不错。
真敢宣传啊，不怕被反噬？Qwen搞大跃进运动呢》

CNJK49 · 2025 年7 月 22 日 03:03

步子迈大了，想学GPT-5的技术路线，结果做了后发现自己的技术积累是一坨，做不出来

Ghidra · 2025 年7 月 22 日 03:04

倒不一定是技术不够。模型这么小还要既要instruct又要thinking，技术再好效果肯定也不如分开来做

CNJK49 · 2025 年7 月 22 日 03:08

真不懂，Qwen技术不够，稳扎稳打其实也能做出一些成绩，算不上顶尖，但是也不会特别差。

但是，感觉Qwen团队的主管负责人群体，脑子有大病，

天天喊超越deepseek、chatgpt、claude，这是要逼着技术团队开发模型玩作弊啊，这技术人员还能不能好好做点研究了，每天上班就是考核模型超没超过D、O、A三家。
现在K2不错，Qwen又开始超越kimi了，你品，你细品
Qwen就像故意等着别人发布后自己再跳出来表演的小丑一样，大家也不傻，看着他就是笑。。。

Ghidra · 2025 年7 月 22 日 03:09

模型规模比其他的小了一大圈，超越是不可能超越的。根本就不是一个赛道的，也不知道要超越啥

KXG · 2025 年9 月 5 日 00:07

~~偷偷挖一铲，应该没人发现吧，反正 Qwen 3 确实又要出新模型了~~

lezishen · 2025 年9 月 5 日 00:08

被我发现了因为有提示

话题		回复	浏览量
Qwen3-Max 来了 —— Qwen 系列迄今为止规模最大、能力最强的模型。前沿快讯人工智能	30	2225	2025 年9 月 24 日
Qwen3-235B-A22B 在 Aider 多语言编码基准初步测试中击败了 Sonnet 3.7 Thinking 和 OpenAI o1 开发调优 ChatGPT , OpenAI , 人工智能 , 软件开发	28	1333	2025 年6 月 23 日
Qwen又双叒叕出新模型了！前沿快讯人工智能	46	2133	2025 年7 月 30 日
慢讯 Qwen3小更新 Qwen3-235B-A22B-2507 前沿快讯人工智能	60	1753	2025 年7 月 22 日
我们都搞错了 Qwen3 的侧重点开发调优人工智能	40	1818	2025 年5 月 30 日

阿里云通义千问 Qwen 3 旗舰版模型宣布更新：性能全面提升，超越 Kimi、DeepSeek 等行业顶尖水平

相关话题