一个我觉得更准确的竞技场排名,不是arena.lmsys

8 个赞

是啊 竞技场40mini竟然排在claude3.5之上 真是把大家当傻子。。

1 个赞

我也更喜欢看livebench的排名
这样一看chatgpt-4o-latest和0806比还牙膏倒吸了:rofl:

插眼一下

确实这个感觉真实一点

而且我发现openai一发布新模型,马上就会登顶,重复这个模式好几次了。。。。。

1 个赞

这个确实很好,测试数据集和结果每个月更新,防止大模型作弊或者刷题过拟合

1 个赞

竞技场排名就是参考的, 准确性可能没有那么准确. 还是多看几个来评估会好点. :smile:

竞技场是不是收钱了 :xhs_008:

基本没有参考性 4omini竟然排claude3.5前头 :xhs_008:

好东西,收藏了,感谢分享 :bili_057:

收藏了对比一下,

说实话,自己整理个问题库,每次有api更新的时候挨个问一遍,心里就有数了。
我存了几个问题,宋词仿写,识图,prompt优化,角色扮演都有。

1 个赞

这个榜 chatgpt-4o-latest 全面退步 openai真该倒闭了

倒闭了我用什么 :upside_down_face:

Gemini Claude

1 个赞

OpenAI的用习惯了

从4o实时语音问答这么难产看,真的内部有产能问题了,
我感觉现在它不画饼都不错了,GPT-5我觉得真的不是近期了

openAI是真的没活整了,凉凉

很有意义的,会很贴合自身的需求去做选择。能否分享一下具体的一些题库。