现在市面上那么多个大模型,有大佬做个排名吗?

如题,代码能力排名有谁做过测试吗,或者有其他的测试链接? 为什么deepseekv2.5的排名还在v3之上? 大模型代码能力评测对比 | 当前主流大模型在代码能力上的表现总榜单 | 数据学习 (DataLearner)

2 个赞

当我看到 Qwen2.5-Coder-32B-Instruct 在 Claude 3.5 Sonnet 之上, 我认为这个是野榜

还是看这个吧

4 个赞

排名我只看这个

https://lmarena.ai/?leaderboard

谷歌的 gemini-2.0-flash-exp这么强吗

不是有面向题库训练

1 个赞

不是很懂

就是针对排名测试图库的优化
:clown_face:

1 个赞

排名意义不大 重要的是自己使用下来的体会

刷榜的太多了

现在都喜欢刷榜,只有自己能体会到好不好。
sonnet 都掉到马里亚纳海沟了。

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。