最值得看的大模型pk排行榜，就看这两个！

EDWINCHENC · 2024 年7 月 8 日 15:39

刚看到文心一言超越GPT4o了，心头一紧
大模型榜单掺水的实在太多，导致很难选择自己中意的模型。
目前比较客观的、权威的、很难注水的榜单，我比较看好以下的：

1. OpenCompass 司南大模型评测体系
官网：https://rank.opencompass.org.cn/home
只做简单介绍，具体可以看官网。
OpenCompass大模型开放评测体系是上海人工智能实验室推出的完整开源可复现的评测框架。作为 OpenCompass 中各类榜单的承载平台，CompassRank 不受任何商业利益干扰，保持中立性。同时，依托 CompassKit 工具链体系中的各类评测手段，保证了 CompassRank 的客观性。CompassRank 不仅覆盖多领域、多任务下的模型性能，还将定期更新，提供动态的行业洞察。与此同时，OpenCompass 团队将在榜单中提供专业解读，进一步帮助从业者理解技术深意，优化模型选择。
下面是最新的榜单（代码能力，deepseek 可以一战）：

附上一篇文章：账号已迁移

2. BigCodeBench
官方榜单地址：BigCodeBench Leaderboard - a Hugging Face Space by bigcode
简单介绍： HumanEval是一个用于评估大型语言模型 (LLM) 在代码生成任务中的参考基准，因为它使得对紧凑的函数级代码片段的评估变得容易。然而，关于其在评估 LLM 编程能力方面的有效性越来越多的担忧，主要问题是 HumanEval 中的任务太简单，可能不能代表真实世界的编程任务。相比于 HumanEval 中的算法导向任务，真实世界的软件开发通常涉及多样的库和函数调用。此外，LLM 在 HumanEval 上的表现还受污染和过拟合问题的影响，这使得其在评估 LLM 的泛化能力方面不够可靠。BigCodeBench 的发布，它可以在没有污染的情况下评估 LLM 解决实际和具有挑战性的编程任务的能力。具体来说，BigCodeBench 包含 1140 个函数级任务，挑战 LLM 遵循指令并将来自 139 个库的多个函数调用作为工具进行组合。为了严格评估 LLM，每个编程任务包含 5.6 个测试用例，平均分支覆盖率为 99%。
以下是最新榜单（deepseek 牛啊）：

附上一篇文章https://mp.weixin.qq.com/s/RMNwgrXfwHFcg7wg4m4Mvw

补充：
3.Chatbot Arena
感谢null在楼层的补充，lmsys确实是当前认可度最高的，由于帖子没有把竞技场放进来，所以一开始没放lmsys，现在作为补充，供大家了解最客观的榜单。
chatbot arena https://chat.lmsys.org

最真实可信的毫无疑问是Chatbot Arena。Lecun，Karpathy，Ilya等大神和Altman等人都认可这个榜单。这个榜单是人类盲测的，且测评的网友数量是所有榜单中最多的。我自己使用这些llm的感受也和arena的leaderboard一样。

lueluelue · 2024 年7 月 8 日 15:40

第二个不是很靠谱啊，用elo测这个？

portable · 2024 年7 月 8 日 15:44

个人感受deepseek和4o或3.5sonnet写代码的差距还是很大

duckgo · 2024 年7 月 8 日 15:48

代码能力是接近 4 的，但是实际使用中还会有对 prompt 的理解能力和推理能力的影响，所以实际使用体验上跟 4 的差距还是有不少的。
但是考虑到成本，Deepseek 已经非常强了

EDWINCHENC · 2024 年7 月 8 日 15:50

那俩确实是高手中的高手。

portable · 2024 年7 月 8 日 15:57

我觉得deepseek有时候甚至还不如3.5turbo和haiku，有时间我新开个帖子整理一下我最近测评用的例子

gon · 2024 年7 月 8 日 15:58

有没有代码助手的客观排行榜

Pon · 2024 年7 月 8 日 16:08

如果作为搜题软件，佬友们有没有模型推荐？

Nec · 2024 年7 月 8 日 16:17

deepseek coder还是不咋行，不听prompt的，或者说对prompt的理解没其他那俩好，复杂的代码需求也明显不如

bbb · 2024 年7 月 8 日 16:46

第一个榜单豆包比opus还强太离谱了吧

yang · 2024 年7 月 8 日 23:21

少走了很多弯路，谢谢大佬

tistest · 2024 年7 月 8 日 23:52

感谢分享

llg · 2024 年7 月 9 日 00:00

claude全系都不弱，与chatgpt伯仲之间。

uiop123 · 2024 年7 月 9 日 00:05

感谢分享

VAN_192 · 2024 年7 月 9 日 00:26

楼主发的第二个榜单倒是没听说过，下面这个榜单怎么样
CLiB中文大模型能力评测榜单

handsome · 2024 年7 月 9 日 00:39

deepseek超opus我觉得扯了

Vindia · 2024 年7 月 9 日 01:23

记得以前sam altman在x上发过一篇推，说只有2个排行榜是他认可的。
原文没说是哪两个，我到处找了找，好像是这两个
https://arena.lmsys.org/
https://super.gluebenchmark.com/leaderboard

不知道我找的对不对

Mikewantlearn · 2024 年7 月 9 日 02:20

Clip_2024-07-09_10-20-29
多么讽刺啊，closeai实锤

ABcopilot · 2024 年7 月 9 日 02:37

Claude 3.5 sonnet我最近使用体验是对prompt的理解和跟随非常出色，当我的prompt有一大堆要求时，其他模型都会出现“注意力”问题，比如你给它1条要求它会遵守，你给4条它就抓不住重点于是不遵守了，只有3.5sonnet在这里表现出色，给一大堆要求它也能和只给1条一样精准遵守。

gpt 4o因为我问题设计的原因没试出来这方面表现怎么样。其他Claude 3 opus和gemini 1.5 pro之类的通通不行。

quin181a · 2024 年7 月 9 日 02:44

deepseek的能力有待商榷

话题		回复	浏览量
一个我觉得更准确的竞技场排名，不是arena.lmsys 资源荟萃人工智能	28	507	2024 年12 月 9 日
妙啊我没去查询你们查查吧神奇我朋友圈看到的前沿快讯	25	996	2024 年11 月 17 日
模型能力横评（仅供参考，佬友们觉得公正吗？）资源荟萃人工智能	26	572	2024 年12 月 9 日
求推荐靠谱的AI排行网站开发调优 ChatGPT , OpenAI , 人工智能	18	779	2025 年6 月 8 日
250304 三花AI日报：xAI 的 Grok-3 以 1 分优势超越 GPT4.5 登顶大模型竞技场；字节 Trae 国内首个 AI IDE 正式上线；Wan2GP：优化版 Wan2.1 视频模型；阿里开源 ViDoRAG：多智能体系统助力视觉文档检索增强生成；前沿快讯人工智能	31	1145	2025 年4 月 12 日

最值得看的大模型pk排行榜，就看这两个！

相关话题