想调研下目前大模型特别是已经可以集成到 IDE 中插件的代码能力,比如 comate, github copilot, marscode, qwen 等等,评测方法大概看了下有比较老的 humaneval, 新势力有 fullstack bench, bigcodebench 这类,但是比如 fullstack bench 的报告中没有 deepseek v3/r1 的测试结果,而 bigcodebench 倒是在官网上有最新的评测结果,想得知有没有各类测试评估方法结果的汇总点,可以看到最新的大模型,最好是大模型所对应的 IDE 插件在测试集中的表现情况。
2 个赞
@bbb 有吗
自问自答了,evalplus 给出的数据比较新,包含了增加了测试集的 humaneval 和 mbpp,不过好歹最新的模型都可以在同一个评估模型上对比分数了,paper with code 的数据好像是来自论文,相关模型也不是那么全
参考这篇帖子,直接看效果比看排行榜上的分数要更直观
整挺好,不过看起来是一个前端视觉效果的评估方法,直观但是片面,我在论坛里面有看到这一篇:https://linux.do/t/topic/130861,具体的话还得看代码补全和代码架构从 0 到 1 生成的工程情况
此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。