各AI大模型在编程上的效果差距，实测效果展示。可供大家参考选择自己使用哪种模型

Jason_ghost · 2025 年2 月 14 日 08:28

刚刚看到这个帖子

于是做了下面这些测试，双模型并排盲测，投票选择认为web开发效果更好的模型，测试网址：https://web.lmarena.ai ，盲测选题是：做一个博客登录页

moulai · 2025 年2 月 14 日 08:32

谢谢分享！请问这是什么软件呀？

chx_1126 · 2025 年2 月 14 日 08:37

同求！！

wolfceo · 2025 年2 月 14 日 08:42

moulai · 2025 年2 月 14 日 08:53

谢谢大佬！

handsome · 2025 年2 月 14 日 09:26

太强了，大佬！

I-IronMan · 2025 年2 月 14 日 09:28

从实测来看，Claude在编码这一块还是依旧强无敌，感觉o3-mini的这个10分领先有水分啊

a3members · 2025 年2 月 14 日 09:54

搞不好是作弊了

pandamao · 2025 年2 月 14 日 12:10

反正我个人最近是吧写脚本的工作都交给o3-mini-high了，个人感觉一次成功的概率比之前用claude高

system · 2025 年3 月 24 日 04:48

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。

话题		回复	浏览量
RooCode配合o4-mini-high 比较 Claude 3.7 thinking 开发调优人工智能	11	436	2025 年5 月 17 日
半年时间，claude-3-5-sonnet-20241022为何在编程领域遥遥领先？各位也可以发表自己的见解开发调优 ChatGPT , OpenAI , 人工智能 , 快问快答 , 软件开发	6	1287	2025 年3 月 9 日
目前有什么大模型代码能力的测评工具吗？主要是对比的结论是什么？开发调优人工智能 , 快问快答 , 软件开发	5	248	2025 年4 月 3 日
三大顶级模型，编程代码测试：O3，O4-Mini，Gemini-2.5-Pro，谁的代码强（为什么作者不放Claude 3.7？）开发调优人工智能	6	1150	2025 年5 月 17 日
嵌入式软件c/c++现在什么模型的效果最好开发调优 ChatGPT , 人工智能 , 快问快答	5	243	2025 年2 月 19 日