半年时间，claude-3-5-sonnet-20241022为何在编程领域遥遥领先？各位也可以发表自己的见解

Jason_ghost · 2025 年2 月 6 日 08:53

自claude-3-5-sonnet发布以来，在编程领域近半年时间一直排行在前列，
无论是排行榜（个人认为LLM Arena的Coding/LiveBenchi的排行榜没有那么准确，此排行榜准确度高），还是自己或者是同行的使用体验来看，Claude一直是写代码最好用的ai大模型，
无论是Gemini 2.0的thinking模型、Deep Seek R1、closeAi的01-mini，preview，o1，pro，o3-mini，都是无法比拟的，实际编程效果、体验都不如claude-3-5-sonnet（较于R1、o1、o3可识图，虽然Gemini 2.0全系模型、4o也识图，但呈现的效果精细程度不如Claude完美）。
请问有没有懂深度学习技术的大佬解释分析一下Claude编程的底层逻辑？与其他模型的不同点在哪里？未来是否会有比Claude更利于编程的模型？

yyy2024 · 2025 年2 月 6 日 08:58

对齐做得好？我也不理解，希望大佬解释一下

Jason_ghost · 2025 年2 月 6 日 09:01

测试与排行榜网站：WebDev Arena: AI Battle to build the best website

hanlinwenyuan · 2025 年2 月 6 日 13:52

@Jason_ghost
首先我觉得Claude 3.5 Sonnet的模型幻觉低很多
这样可以保证大模型生成信息的准确性
也就是不乱写代码
这样就保证了代码的精确度
大幅度减少了出现bug的可能性
也自然就领先了

qqy · 2025 年2 月 6 日 13:52

我记得他们 ceo有次采访说模型的能力体验受风格影响很大，他们调教的这个风格符合大众的理解，还有 3.5 是被他们内部的推理模型蒸馏过的，貌似有更大的推理模型在内部使用。而且目标单一，和 deepseek 差不多，很聚焦。谷歌和 closeai 都玩的花，搞什么视频模型。

songbailu · 2025 年2 月 7 日 07:04

理解能力强,状态很稳,准确率在8-9之间,基本上他答不上来的其他模型也会答错.

system · 2025 年3 月 9 日 07:04

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。

话题		回复	浏览量
Artificial Analysis网站已发布 Claude 4 Sonnet 与 Gemini 2.5 Pro 预览版的比较前沿快讯人工智能	28	1073	2025 年6 月 23 日
赶鸭子上架的 Claude Sonnet 3.7 - 一份不那么亮眼的答卷前沿快讯人工智能	20	1630	2025 年3 月 31 日
目前写代码哪个模型最强？资源荟萃人工智能	52	3553	2025 年1 月 19 日
各AI大模型在编程上的效果差距，实测效果展示。可供大家参考选择自己使用哪种模型开发调优 ChatGPT , OpenAI , 人工智能 , 软件开发	9	649	2025 年3 月 24 日
一个实际问题的对比让你直观感受 Claude 3.7 Sonnet 的牛逼！开发调优 Claude , 人工智能	12	1316	2025 年3 月 29 日

半年时间，claude-3-5-sonnet-20241022为何在编程领域遥遥领先？各位也可以发表自己的见解

相关话题