如题,代码能力排名有谁做过测试吗,或者有其他的测试链接? 为什么deepseekv2.5的排名还在v3之上? 大模型代码能力评测对比 | 当前主流大模型在代码能力上的表现总榜单 | 数据学习 (DataLearner)
2 个赞
当我看到 Qwen2.5-Coder-32B-Instruct 在 Claude 3.5 Sonnet 之上, 我认为这个是野榜
还是看这个吧
4 个赞
排名我只看这个
https://lmarena.ai/?leaderboard
谷歌的 gemini-2.0-flash-exp这么强吗
不是有面向题库训练
1 个赞
不是很懂
就是针对排名测试图库的优化
![]()
1 个赞
排名意义不大 重要的是自己使用下来的体会
刷榜的太多了
现在都喜欢刷榜,只有自己能体会到好不好。
sonnet 都掉到马里亚纳海沟了。
此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。