25 个赞
赞一个,超过K2了?
2 个赞
还没体验呢 看跑分是赢
步子迈大了,扯着蛋
8 个赞
AI已经进入刷分时代了
10 个赞
写错了吧,qwen的simpleQA好像一向不高
1 个赞
开始进入奖牌时代了 ![]()
刷分刷的太变态太明目张胆了有点。。。
simpleQA 比 gemini 都高。(而且说了增强长尾知识覆盖,说明数据没打错)
aime25 比部分思考模型都高。。。
有本事把 aider swe 之类刷上去。目前还不如 opus 一根。
4 个赞
看不懂qwen了,跑分特化型?
分开是好事,但是部署成本上升了
1 个赞
赢麻了,就是体验没赢过
3 个赞
2.5max感觉还行,但是qwen3系列的大杯是真不太行,小杯还行吧
1 个赞
这也太高了我超
这也没法做题刷分啊
1 个赞
不刷了,直接写? ![]()
1 个赞
arc-agi的分数也离谱
等过两天上api了,三方大佬测测就知道了
1 个赞
鉴于qwen3之前的表现,先质疑了 ![]()
1 个赞
这分数确实太夸张了
1 个赞
chutes那小子上了,而且不知道为什么不充钱也可以调用,可以试用下

