目前有什么大模型代码能力的测评工具吗？主要是对比的结论是什么？

ffbffs · 2025 年3 月 3 日 03:55

想调研下目前大模型特别是已经可以集成到 IDE 中插件的代码能力，比如 comate, github copilot, marscode, qwen 等等，评测方法大概看了下有比较老的 humaneval, 新势力有 fullstack bench, bigcodebench 这类，但是比如 fullstack bench 的报告中没有 deepseek v3/r1 的测试结果，而 bigcodebench 倒是在官网上有最新的评测结果，想得知有没有各类测试评估方法结果的汇总点，可以看到最新的大模型，最好是大模型所对应的 IDE 插件在测试集中的表现情况。

handsome · 2025 年3 月 3 日 04:29

@bbb 有吗

ffbffs · 2025 年3 月 3 日 11:04

自问自答了，evalplus 给出的数据比较新，包含了增加了测试集的 humaneval 和 mbpp，不过好歹最新的模型都可以在同一个评估模型上对比分数了，paper with code 的数据好像是来自论文，相关模型也不是那么全

Jason_ghost · 2025 年3 月 3 日 11:06

参考这篇帖子，直接看效果比看排行榜上的分数要更直观

ffbffs · 2025 年3 月 4 日 00:19

整挺好，不过看起来是一个前端视觉效果的评估方法，直观但是片面，我在论坛里面有看到这一篇：https://linux.do/t/topic/130861，具体的话还得看代码补全和代码架构从 0 到 1 生成的工程情况

system · 2025 年4 月 3 日 00:19

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。

话题		回复	浏览量
各AI大模型在编程上的效果差距，实测效果展示。可供大家参考选择自己使用哪种模型开发调优 ChatGPT , OpenAI , 人工智能 , 软件开发	9	649	2025 年3 月 24 日
从哪里可以看到实时的大模型写代码能力的排行榜？开发调优 ChatGPT , OpenAI , 人工智能 , 快问快答	8	490	2025 年5 月 15 日
现在市面上那么多个大模型，有大佬做个排名吗？开发调优人工智能 , 快问快答	9	487	2025 年2 月 14 日
OpenAI gpt-oss-120b 表现如何？多维度深度能力测评！搞七捻三 ChatGPT , 人工智能 , 软件开发	9	981	2025 年8 月 6 日
各位佬请问有没有国内国外的模型一起评分排行的网站？开发调优快问快答	14	3417	2024 年12 月 9 日

目前有什么大模型代码能力的测评工具吗？主要是对比的结论是什么？

相关话题