Qwen3在一些数据集上的测试

评测来源于 ArtificialAnlys,
https://x.com/ArtificialAnlys/status/1917246369510879280
QWEN3-253B-A22B的官方测试结果中没有放出GPQA等其他的数据集,
主要是做到了deepseekv2的参数量跟r1比效果。

ArtificialAnlys分析中文翻译如下:

Qwen3 是开源权重和效率的胜利——混合推理模型,以总参数量三分之一的规模接近 DeepSeek R1 的 GPQA 分数,并提供一系列适用于计算受限环境的小型模型。

模型在我们 GPQA 评估中冗余度的额外视图(由推理 token 数量驱动)。

今天,阿里巴巴发布了八款不同规模和架构的混合推理模型(即可以在回答前切换至“思考”模式的模型),其规模从 0.6B 的密集模型到具有 22B 激活参数的 235B MoE 模型不等。我们的初步结果显示,所有模型在其规模类别中均具有竞争力,其中 253B-A22B 虽然参数量较少(相较于 DeepSeek R1 的总参数量 671B 和激活参数量 37B),但已接近 DeepSeek R1 的性能。
我们在完成所有评估后将进一步跟踪,以获得更全面的视图。
我们已开始进行评估,并在开启推理功能的条件下,完成了对三款模型的 GPQA Diamond 评估:
➤ Qwen3 235B-A22B (Reasoning): 70%,与 DeepSeek R1 和 Gemini 2.5 Flash (Reasoning) 持平。这相对于阿里巴巴此前领先模型 QwQ-32B 在我们的 GPQA Diamond 评估中取得的 59% 分数而言,是一个显著的飞跃。

➤ Qwen3 30B-A3B(推理):62%,仅次于领先的非推理模型 DeepSeek V3 0324 和 Llama 4 Maverick。考虑到该模型仅有 3B 活跃参数,这非常令人印象深刻——同类模型要大得多(DeepSeek V3 03-24 总参数量为 671B,活跃参数量为 37B;Llama 4 Maverick 总参数量为 402B,活跃参数量为 17B)。Qwen3-32B 密集模型即将发布。

➤ Qwen3-14B(推理):60%,与 Llama 4 Scout 水平相当,尽管其总/活跃参数量较少(14B/14B 对比 Scout 的 109B/17B)。

广泛的模型尺寸范围将支持从设备端(8B、4B、1.7B、0.6B)到 8xH100 DGX 节点(235B)等多种部署环境。这对开放权重社区而言是一大胜利。

敬请期待我们对整个 Qwen3 系列模型开启和关闭推理功能后的全套 7 项评估结果!
我们也将继续监测这些模型在不同推理服务提供商上的可用性,并很快分享性能基准测试结果!
更多细节包括:
➤ 混合推理:Qwen3 模型是阿里巴巴推出的首批采用混合方法解决问题的模型,支持“思考”和“非思考”模式。这在新的模型发布中很常见,尤其是在 NVIDIA Nemotrons、Google Gemini Flash、xAI Grok 3 和 Claude 3.7 Sonnet 中。
➤ 多语言支持:阿里巴巴声称支持 119 种语言和方言

➤ 扩展的预训练:Qwen3 在 36 万亿个 token 上进行了训练。这高于用于 Llama 4 Maverick 的 22 万亿个训练 token,但低于用于 Llama 4 Scout 的 40 万亿个训练 token。



➤ 开源权重:模型在 Apache 2.0 许可下可用

开源模型系列包含一系列不同尺寸的模型,以适应不同的部署环境。

Qwen3 253B-A22B 的尺寸约为 DeepSeek R1 的 1/3,活跃参数约为 DeepSeek R1 的 60%,且具有可比拟的 GPQA 分数。

这是我们在 GPQA 评估中关于模型冗余度(由推理 token 数量驱动)的另一视图。
完成所有评估后,我们将提供后续更全面的视图。

请继续关注我们对 Qwen3 模型家族的分析。我们的 Intelligence Index 评估,包括 MLU-Pro、GPQA Diamond、Humanity’s Last Exam、LiveCodeBench、SciCode、AIME、MATH-500,均正在进行中。我们计划对模型进行推理开启和关闭状态下的基准测试。

后续我将会跟进这个,有新的测试出来也会更新。

楼主个人感受:其实qwen3开源的这些模型都还挺好,规模缩小了不少,性能还是能看齐R1,但是咋说,这算是如今算力受限的无奈之举?其实也非常期待那种更大更猛的… :sob:那等等5月的Deepseek的更新吧

12 个赞

有意思[1]


  1. w ↩︎

7 个赞

可以期待一下qwen max​:wink:

3 个赞

国产AI还有很长的路要走啊,加油吧。 :tieba_087:
能引领开源社区,已经迈出了坚实的一步。

4 个赞

谷歌好猛啊

还算可以了。。

1 个赞

才看齐吗

主要是用了参量更小的,看齐了更大的

gemini确实猛,它们的目标是要干掉oai

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。