佬友有没有靠谱的ai测评榜单 截止目前日常提问gpt5.2是最强的嘛

刚刚刷到了视频说为了宣传 ai训练厂家会直接把 流行测评原题和答案训练进模型导致正确率虚高,如果拿几道没训练过的题就现原形。
会存在每家都说自己最好的现象。
有没有一个较为客观的榜单可以参考呢?
佬友们认为现在最强的自然语言大模型是哪个呢?

起因是本是一直是gpt的忠实用户(毕竟是最先做起来的模型 带一种滤镜) 最近实在觉得gpt5.2thinking有点不太适应了 问一个不懂的问题gpt现在说话我感觉晦涩难懂 能看出来好像回答问题被加了很多奇奇怪怪的限制
比如
先说结论
要不要我帮你
你的吐槽完全对
而且经常罗列分点

对我来说不如哈基米3pro的陈述自然易懂
所以想换一个主力大模型
但是gpt的比哈基米3pro强在于联网搜索 gpt的知识储备比哈基米3新
所以想找找有没有有没有更好的模型
然后又去搜了openruter lmarena hg这些模型榜单和一些测评视频众说纷纭
貌似现在最强的是claude opus4.6?
佬友们怎么看?(如果l站有个自测评榜单就好了)

没有最强,要看领域.比如龙虾机器人就不适合我,我觉得一点用没有.
其他人觉得也好用呢.
大语言模型也是一样
自己要多用,能给你解决问题快狠准的就是最强.

平常看这两个

SWE-Bench Verified Leaderboard

对于零基础的领域问ChatGPT的确是有点困难

ChatGPT默认是提纲挈领 给出本质

有点基础的还是ChatGPT舒服点

新出的 codex 5.3 太强了,成我写代码首选模型了。

日用提问是用的 gemini,免费版就已经非常棒了

不同网页入口表现差异太大,我是懒得折腾定死在 ms365 了,没风控积极搜索足矣

看起来真的是4.6最强

codex5.3我也试了 确实很棒 昨天遇到一个小bug就是上下文多了vscode页面会很卡 原来好像没有 不知道是不是更新了的原因

哈哈哈我懂了

根据我的体验来说,GPT系列从5.1开始不说人话,严肃解答问题可以,但日常使用我用不来,并且高度依赖联网搜索,世界知识并不算很好,我是只拿来codex了。
Gemini系列的话,3pro因为注意力的问题,长对话会发生错乱,我一张图一张图问学习上的问题时,能读错图片顺序来,3flash似乎好了一些,另外Gemini有相当可能出现幻觉,需要自行分辨,不过世界知识这块是无与伦比的,没有它不懂的东西,问简单问题和短一些的对话非常好,我一般拿来玩角色扮演。
Opus算是折中二者吧,不会像Gemini一样一味肯定用户,注意力很好,也比GPT会说人话 :rofl:

单论模型,日常使用Gemini 3 Pro绝对是最优的。因为它的知识库最丰富,知道非常多其它模型不知道的。

APP的话,看有哪个的会员就用哪个。

日常使用的话gemini3pro是最像人的

干活我现在核心工作都是gpt5.2xhigh,文档和简单问题就图快用opus4.6,gpt虽然慢但是干活真的很细致

可以先用gpt5.2xhigh,然后再让g3pro/flash解释一下gpt的回答