Qwen3在一些数据集上的测试

bige0123 · 2025 年4 月 29 日 17:46

评测来源于 ArtificialAnlys，
https://x.com/ArtificialAnlys/status/1917246369510879280
QWEN3-253B-A22B的官方测试结果中没有放出GPQA等其他的数据集，
主要是做到了deepseekv2的参数量跟r1比效果。

ArtificialAnlys分析中文翻译如下：

Qwen3 是开源权重和效率的胜利——混合推理模型，以总参数量三分之一的规模接近 DeepSeek R1 的 GPQA 分数，并提供一系列适用于计算受限环境的小型模型。

模型在我们 GPQA 评估中冗余度的额外视图（由推理 token 数量驱动）。

今天，阿里巴巴发布了八款不同规模和架构的混合推理模型（即可以在回答前切换至“思考”模式的模型），其规模从 0.6B 的密集模型到具有 22B 激活参数的 235B MoE 模型不等。我们的初步结果显示，所有模型在其规模类别中均具有竞争力，其中 253B-A22B 虽然参数量较少（相较于 DeepSeek R1 的总参数量 671B 和激活参数量 37B），但已接近 DeepSeek R1 的性能。
我们在完成所有评估后将进一步跟踪，以获得更全面的视图。
我们已开始进行评估，并在开启推理功能的条件下，完成了对三款模型的 GPQA Diamond 评估：
➤ Qwen3 235B-A22B (Reasoning): 70%，与 DeepSeek R1 和 Gemini 2.5 Flash (Reasoning) 持平。这相对于阿里巴巴此前领先模型 QwQ-32B 在我们的 GPQA Diamond 评估中取得的 59% 分数而言，是一个显著的飞跃。

➤ Qwen3 30B-A3B（推理）：62%，仅次于领先的非推理模型 DeepSeek V3 0324 和 Llama 4 Maverick。考虑到该模型仅有 3B 活跃参数，这非常令人印象深刻——同类模型要大得多（DeepSeek V3 03-24 总参数量为 671B，活跃参数量为 37B；Llama 4 Maverick 总参数量为 402B，活跃参数量为 17B）。Qwen3-32B 密集模型即将发布。

➤ Qwen3-14B（推理）：60%，与 Llama 4 Scout 水平相当，尽管其总/活跃参数量较少（14B/14B 对比 Scout 的 109B/17B）。

广泛的模型尺寸范围将支持从设备端（8B、4B、1.7B、0.6B）到 8xH100 DGX 节点（235B）等多种部署环境。这对开放权重社区而言是一大胜利。

敬请期待我们对整个 Qwen3 系列模型开启和关闭推理功能后的全套 7 项评估结果！
我们也将继续监测这些模型在不同推理服务提供商上的可用性，并很快分享性能基准测试结果！
更多细节包括：
➤ 混合推理：Qwen3 模型是阿里巴巴推出的首批采用混合方法解决问题的模型，支持“思考”和“非思考”模式。这在新的模型发布中很常见，尤其是在 NVIDIA Nemotrons、Google Gemini Flash、xAI Grok 3 和 Claude 3.7 Sonnet 中。
➤ 多语言支持：阿里巴巴声称支持 119 种语言和方言

➤ 扩展的预训练：Qwen3 在 36 万亿个 token 上进行了训练。这高于用于 Llama 4 Maverick 的 22 万亿个训练 token，但低于用于 Llama 4 Scout 的 40 万亿个训练 token。

image4092×1520 473 KB

image4092×2232 566 KB

➤ 开源权重：模型在 Apache 2.0 许可下可用

开源模型系列包含一系列不同尺寸的模型，以适应不同的部署环境。

Qwen3 253B-A22B 的尺寸约为 DeepSeek R1 的 1/3，活跃参数约为 DeepSeek R1 的 60%，且具有可比拟的 GPQA 分数。

这是我们在 GPQA 评估中关于模型冗余度（由推理 token 数量驱动）的另一视图。
完成所有评估后，我们将提供后续更全面的视图。

请继续关注我们对 Qwen3 模型家族的分析。我们的 Intelligence Index 评估，包括 MLU-Pro、GPQA Diamond、Humanity’s Last Exam、LiveCodeBench、SciCode、AIME、MATH-500，均正在进行中。我们计划对模型进行推理开启和关闭状态下的基准测试。

后续我将会跟进这个，有新的测试出来也会更新。

楼主个人感受：其实qwen3开源的这些模型都还挺好，规模缩小了不少，性能还是能看齐R1，但是咋说，这算是如今算力受限的无奈之举？其实也非常期待那种更大更猛的… 那等等5月的Deepseek的更新吧

6512345 · 2025 年4 月 29 日 17:51

有意思^[1]

w ↩︎

BlakeHansen130 · 2025 年4 月 29 日 18:59

可以期待一下qwen max

ZhenZhi · 2025 年4 月 29 日 19:09

国产AI还有很长的路要走啊，加油吧。
能引领开源社区，已经迈出了坚实的一步。

MIKUSCAT · 2025 年4 月 29 日 23:50

谷歌好猛啊

handsome · 2025 年4 月 30 日 00:51

还算可以了。。

wwow · 2025 年4 月 30 日 01:08

才看齐吗

bige0123 · 2025 年4 月 30 日 04:27

主要是用了参量更小的，看齐了更大的

bige0123 · 2025 年4 月 30 日 04:27

gemini确实猛，它们的目标是要干掉oai

system · 2025 年5 月 30 日 04:28

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。

话题		回复	浏览量
Qwen3 即将发布！(更新：全开源，已发布，满血版超越R1；通义千问疑似将推出会员服务，支持生图和类DeepResearch功能）前沿快讯人工智能	34	1448	2025 年5 月 28 日
Qwen3即将推出！！！有0.6B, 1.7B, 4B, 8B的稠密模型，30B-A3B和235B-A22B混合专家模型。支持开关思考模式前沿快讯人工智能	71	2376	2025 年5 月 28 日
阿里Qwen连夜发布了超大规模MoE模型：Qwen2.5-Max，性能超过了DeepSeek V3 资源荟萃人工智能	29	1504	2025 年3 月 12 日
我们都搞错了 Qwen3 的侧重点开发调优人工智能	40	1818	2025 年5 月 30 日
重大新闻：Qwen 3 即将发布前沿快讯人工智能	43	2509	2025 年5 月 10 日

Qwen3在一些数据集上的测试

相关话题