8 个赞
是啊 竞技场40mini竟然排在claude3.5之上 真是把大家当傻子。。
1 个赞
我也更喜欢看livebench的排名
这样一看chatgpt-4o-latest和0806比还牙膏倒吸了![]()
插眼一下
确实这个感觉真实一点
而且我发现openai一发布新模型,马上就会登顶,重复这个模式好几次了。。。。。
1 个赞
这个确实很好,测试数据集和结果每个月更新,防止大模型作弊或者刷题过拟合
1 个赞
竞技场排名就是参考的, 准确性可能没有那么准确. 还是多看几个来评估会好点. ![]()
竞技场是不是收钱了 ![]()
基本没有参考性 4omini竟然排claude3.5前头 ![]()
好东西,收藏了,感谢分享 ![]()
收藏了对比一下,
说实话,自己整理个问题库,每次有api更新的时候挨个问一遍,心里就有数了。
我存了几个问题,宋词仿写,识图,prompt优化,角色扮演都有。
1 个赞
这个榜 chatgpt-4o-latest 全面退步 openai真该倒闭了
倒闭了我用什么 ![]()
Gemini Claude
1 个赞
OpenAI的用习惯了
从4o实时语音问答这么难产看,真的内部有产能问题了,
我感觉现在它不画饼都不错了,GPT-5我觉得真的不是近期了
openAI是真的没活整了,凉凉
很有意义的,会很贴合自身的需求去做选择。能否分享一下具体的一些题库。
