Qwen3-235B-A22B 在 Aider 多语言编码基准初步测试中击败了 Sonnet 3.7 Thinking 和 OpenAI o1

“Qwen3-235B-A22B 在 Aider 多语言编码基准初步测试中击败了 Sonnet 3.7 Thinking 和 OpenAI o1,同时成本还便宜了 150 到 600 倍!

Qwen3-32B 的准确率达到了 45.8%,超越了 GPT-4.5 和 GPT-4o,且代码编辑格式的正确率保持在 100%,而 GPT-4.5 和 GPT-4o 的格式正确率分别为 97.3% 和 64.4%。“

为啥我在使用Qwen3-235B的时候没有这种感觉!

10 个赞

走私走出来的:enraged_face:

3 个赞

估计是温度啥的有影响吧

1 个赞

啊?这玩意有这么强? :fearful:
虽然我乃坚定Qwen支持者,但这么强确实没想到啊

3 个赞

不应该啊,我感觉qwen也一般啊(可能是我的方法不对

2 个赞

为什么我在aider官网查不到qwen3?你这个是哪来的啊?

2 个赞

是这个地址吗?

是这个

1 个赞

哦哦哦,我说呢

这次不知道为啥,qwen3出来好久了,官网没更新排行

啊?这么强?

啊?等会去用试试

同感,在硅基用了几次,感觉一般啊

个人体验感觉qwen3没那么强,幻觉率很高。Django加个浏览器标签icon问了几遍都是越跑越偏,claude3.7-thinking直接一步到位解决了。

3 个赞

我感觉代码能力,没那么强啊?难道是我打开方式不对?

aider还在验证吧,但实测效果很一般,考虑到阿里的风格,搞不好有针对性训练

排名没输过,体验没赢过

3 个赞

多亏了大龙虾

完全不敢相信,跑分王吧

应该是定向优化了吧。aider的题好像不多就那几个类型而且是过单元测试