一个我觉得更准确的竞技场排名，不是arena.lmsys

Myqwn2729 · 2024 年8 月 14 日 07:58

Chris1990 · 2024 年8 月 14 日 08:14

是啊竞技场40mini竟然排在claude3.5之上真是把大家当傻子。。

grubs · 2024 年8 月 14 日 08:32

我也更喜欢看livebench的排名
这样一看chatgpt-4o-latest和0806比还牙膏倒吸了

bbb · 2024 年8 月 14 日 08:33

插眼一下

handsome · 2024 年8 月 14 日 08:33

确实这个感觉真实一点

Myqwn2729 · 2024 年8 月 14 日 08:37

而且我发现openai一发布新模型，马上就会登顶，重复这个模式好几次了。。。。。

Nekof · 2024 年8 月 14 日 08:37

这个确实很好，测试数据集和结果每个月更新，防止大模型作弊或者刷题过拟合

wren · 2024 年8 月 14 日 08:40

竞技场排名就是参考的, 准确性可能没有那么准确. 还是多看几个来评估会好点.

Chris1990 · 2024 年8 月 14 日 08:41

竞技场是不是收钱了

Chris1990 · 2024 年8 月 14 日 08:42

基本没有参考性 4omini竟然排claude3.5前头

FAIRY_TAIL · 2024 年8 月 14 日 08:46

好东西，收藏了，感谢分享

1-debtor · 2024 年8 月 14 日 09:11

收藏了对比一下，

barrylongface · 2024 年8 月 14 日 09:15

说实话，自己整理个问题库，每次有api更新的时候挨个问一遍，心里就有数了。
我存了几个问题，宋词仿写，识图，prompt优化，角色扮演都有。

EFL · 2024 年8 月 14 日 09:16

这个榜 chatgpt-4o-latest 全面退步 openai真该倒闭了

prya · 2024 年8 月 14 日 09:17

倒闭了我用什么

EFL · 2024 年8 月 14 日 09:18

Gemini Claude

prya · 2024 年8 月 14 日 09:19

OpenAI的用习惯了

Myqwn2729 · 2024 年8 月 14 日 09:23

从4o实时语音问答这么难产看，真的内部有产能问题了，
我感觉现在它不画饼都不错了，GPT-5我觉得真的不是近期了

slot · 2024 年8 月 14 日 09:30

openAI是真的没活整了，凉凉

EDWINCHENC · 2024 年8 月 14 日 09:31

很有意义的，会很贴合自身的需求去做选择。能否分享一下具体的一些题库。

话题		回复	浏览量
求推荐靠谱的AI排行网站开发调优 ChatGPT , OpenAI , 人工智能	18	782	2025 年6 月 8 日
哪个AI模型排行榜最可信？搞七捻三人工智能	31	1085	2025 年6 月 8 日
最值得看的大模型pk排行榜，就看这两个！资源荟萃人工智能	29	4336	2024 年12 月 9 日
OpenAI 霸榜了搞七捻三人工智能	32	1881	2025 年5 月 18 日
一个由个人测评大模型网站，基于真实用户反馈给大模型排名(野榜) 资源荟萃人工智能	16	852	2024 年12 月 9 日