现在市面上那么多个大模型，有大佬做个排名吗？

Pudding · 2025 年1 月 15 日 02:57

如题，代码能力排名有谁做过测试吗，或者有其他的测试链接？为什么deepseekv2.5的排名还在v3之上？大模型代码能力评测对比 | 当前主流大模型在代码能力上的表现总榜单 | 数据学习 (DataLearner)

4396 · 2025 年1 月 15 日 03:01

当我看到 Qwen2.5-Coder-32B-Instruct 在 Claude 3.5 Sonnet 之上，我认为这个是野榜

还是看这个吧

Crixs · 2025 年1 月 15 日 03:04

排名我只看这个

Pudding · 2025 年1 月 15 日 03:09

谷歌的 gemini-2.0-flash-exp这么强吗

Captcha · 2025 年1 月 15 日 03:10

~~不是有面向题库训练~~

Pudding · 2025 年1 月 15 日 03:13

不是很懂

Captcha · 2025 年1 月 15 日 03:14

就是针对排名测试图库的优化

fengchris · 2025 年1 月 15 日 03:33

排名意义不大重要的是自己使用下来的体会

刷榜的太多了

RichardChou · 2025 年1 月 15 日 03:46

现在都喜欢刷榜，只有自己能体会到好不好。
sonnet 都掉到马里亚纳海沟了。

system · 2025 年2 月 14 日 03:46

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。

话题		回复	浏览量
从哪里可以看到实时的大模型写代码能力的排行榜？开发调优 ChatGPT , OpenAI , 人工智能 , 快问快答	8	490	2025 年5 月 15 日
有哪些大模型排行榜？搞七捻三人工智能	7	529	2025 年5 月 17 日
OpenAI 霸榜了搞七捻三人工智能	32	1881	2025 年5 月 18 日
Livebench 05-30版排行榜前十分析前沿快讯人工智能	45	1147	2025 年7 月 2 日
半年时间，claude-3-5-sonnet-20241022为何在编程领域遥遥领先？各位也可以发表自己的见解开发调优 ChatGPT , OpenAI , 人工智能 , 快问快答 , 软件开发	6	1287	2025 年3 月 9 日