Qwen3-235B-A22B 在 Aider 多语言编码基准初步测试中击败了 Sonnet 3.7 Thinking 和 OpenAI o1

jejwester · 2025 年5 月 4 日 14:18

“Qwen3-235B-A22B 在 Aider 多语言编码基准初步测试中击败了 Sonnet 3.7 Thinking 和 OpenAI o1，同时成本还便宜了 150 到 600 倍！

Qwen3-32B 的准确率达到了 45.8%，超越了 GPT-4.5 和 GPT-4o，且代码编辑格式的正确率保持在 100%，而 GPT-4.5 和 GPT-4o 的格式正确率分别为 97.3% 和 64.4%。“

为啥我在使用Qwen3-235B的时候没有这种感觉！

tig · 2025 年5 月 4 日 14:19

~~走私走出来的~~

zzzx9 · 2025 年5 月 4 日 14:20

估计是温度啥的有影响吧

VrianCao · 2025 年5 月 4 日 14:22

啊？这玩意有这么强？
虽然我乃坚定Qwen支持者，但这么强确实没想到啊

MIKUSCAT · 2025 年5 月 4 日 14:22

不应该啊，我感觉qwen也一般啊（可能是我的方法不对

leeorz · 2025 年5 月 4 日 14:23

为什么我在aider官网查不到qwen3？你这个是哪来的啊？

leeorz · 2025 年5 月 4 日 14:24

是这个地址吗？

tig · 2025 年5 月 4 日 14:24

是这个

leeorz · 2025 年5 月 4 日 14:25

哦哦哦，我说呢

leeorz · 2025 年5 月 4 日 14:25

这次不知道为啥，qwen3出来好久了，官网没更新排行

handsome · 2025 年5 月 4 日 14:37

啊？这么强？

agluo · 2025 年5 月 4 日 14:45

啊？等会去用试试

outgoing · 2025 年5 月 4 日 14:52

同感，在硅基用了几次，感觉一般啊

ablazespark · 2025 年5 月 4 日 17:11

个人体验感觉qwen3没那么强，幻觉率很高。Django加个浏览器标签icon问了几遍都是越跑越偏，claude3.7-thinking直接一步到位解决了。

momo177 · 2025 年5 月 4 日 17:25

我感觉代码能力，没那么强啊？难道是我打开方式不对？

dragonfsky · 2025 年5 月 4 日 18:06

aider还在验证吧，但实测效果很一般，考虑到阿里的风格，搞不好有针对性训练

QAWS12g · 2025 年5 月 5 日 00:06

排名没输过，体验没赢过

wystyler · 2025 年5 月 5 日 02:07

多亏了大龙虾

GinNoKaze · 2025 年5 月 5 日 02:18

完全不敢相信，跑分王吧

arxiv · 2025 年5 月 5 日 02:49

应该是定向优化了吧。aider的题好像不多就那几个类型而且是过单元测试

话题		回复	浏览量
我们都搞错了 Qwen3 的侧重点开发调优人工智能	40	1818	2025 年5 月 30 日
Qwen3-Coder-480B-A35B-Instruct-FP8模型已经上线huggingface 前沿快讯	16	748	2025 年7 月 23 日
慢讯 Qwen3小更新 Qwen3-235B-A22B-2507 前沿快讯人工智能	60	1753	2025 年7 月 22 日
Qwen3在一些数据集上的测试前沿快讯人工智能	9	845	2025 年5 月 30 日
阿里云通义千问 Qwen 3 旗舰版模型宣布更新：性能全面提升，超越 Kimi、DeepSeek 等行业顶尖水平前沿快讯	10	854	2025 年9 月 5 日