“Qwen3-235B-A22B 在 Aider 多语言编码基准初步测试中击败了 Sonnet 3.7 Thinking 和 OpenAI o1,同时成本还便宜了 150 到 600 倍!
Qwen3-32B 的准确率达到了 45.8%,超越了 GPT-4.5 和 GPT-4o,且代码编辑格式的正确率保持在 100%,而 GPT-4.5 和 GPT-4o 的格式正确率分别为 97.3% 和 64.4%。“
为啥我在使用Qwen3-235B的时候没有这种感觉!
“Qwen3-235B-A22B 在 Aider 多语言编码基准初步测试中击败了 Sonnet 3.7 Thinking 和 OpenAI o1,同时成本还便宜了 150 到 600 倍!
Qwen3-32B 的准确率达到了 45.8%,超越了 GPT-4.5 和 GPT-4o,且代码编辑格式的正确率保持在 100%,而 GPT-4.5 和 GPT-4o 的格式正确率分别为 97.3% 和 64.4%。“
为啥我在使用Qwen3-235B的时候没有这种感觉!
走私走出来的![]()
估计是温度啥的有影响吧
啊?这玩意有这么强? ![]()
虽然我乃坚定Qwen支持者,但这么强确实没想到啊
不应该啊,我感觉qwen也一般啊(可能是我的方法不对
为什么我在aider官网查不到qwen3?你这个是哪来的啊?
是这个地址吗?
是这个
哦哦哦,我说呢
这次不知道为啥,qwen3出来好久了,官网没更新排行
啊?这么强?
啊?等会去用试试
同感,在硅基用了几次,感觉一般啊
个人体验感觉qwen3没那么强,幻觉率很高。Django加个浏览器标签icon问了几遍都是越跑越偏,claude3.7-thinking直接一步到位解决了。
我感觉代码能力,没那么强啊?难道是我打开方式不对?
aider还在验证吧,但实测效果很一般,考虑到阿里的风格,搞不好有针对性训练
排名没输过,体验没赢过
多亏了大龙虾
完全不敢相信,跑分王吧
应该是定向优化了吧。aider的题好像不多就那几个类型而且是过单元测试