开源与闭源模型的差距从未如此之小:Kimi K2.5登顶开源SOTA

1月28日,Artificial Analysis发布最新报告,月之暗面推出的Kimi K2.5已成为当前全球领先的开源权重模型。该模型在综合智能指数上仅次于OpenAI、Anthropic和谷歌的顶级闭源模型,超越了智谱GLM-4.7和深度求索DeepSeek V3.2。这一发布进一步拉大了中美在开源大模型领域的差距,目前美国最强的开源模型仍为OpenAI的gpt-oss-120b,其性能已被不断涌现的中国开源模型矩阵全面超越。

Kimi K2.5在智能体任务中表现出极强的实用性。在模拟真实知识工作(如利用Shell权限和网络浏览能力制作演示文稿和数据分析)的GDPval-AA评测中,该模型获得了1309的Elo高分,对前任开源霸主GLM-4.7的胜率达到了66%。此次升级的核心突破在于原生多模态能力,Kimi K2.5是月之暗面首个支持图像和视频输入的旗舰模型,在MMMU Pro视觉推理基准测试中得分达到75%,与GPT-5.2和Claude Opus 4.5处于同一梯队。这一特性的加入消除了开源模型与顶级闭源实验室产品之间的一个关键壁垒。

在运行成本和效率方面,Kimi K2.5展现出了极高的性价比,其运行完整测试集的成本为371美元,仅为Claude Opus 4.5和GPT-5.2的四分之一,且推理token消耗量低于GLM-4.7。

25 个赞

https://x.com/ArtificialAnlys/status/2016250137115557953

3 个赞

现在压力给到deepseek

2 个赞

感觉deepseek不在乎这个,所谓的排名

1 个赞

这倒不是在不在乎的问题,反正我一直感觉deepseek很弱

5 个赞

deepseek每次发布都是当时的开源sota,而且deepseek v3.2对成本把控的很好。你的感觉从何而来?

15 个赞

我倒是觉得都大差不差

前排支持 国产发力了!

1 个赞

有人实际去测试过吗?

实际体验又人去试过吗?比赛和日常使用是两码事了

3 个赞

依旧跑分没输过

1 个赞

有过比这更小的时候吧
deepseek当年直接开源几乎要超过闭源的程度,自然流量登顶全球热度第一app
好用与否用户会说明的 :innocent:

7 个赞

这么强!

1 个赞

kimi好不好用另说,炒作是一流,每次发布都大批水军。

4 个赞

和御三家的差距太大了,完全就是生产工具和玩具的差距

光是一个幻觉你都顶不住,别说实际开发了

跑分再高,成本再低,不能干活也没用 :rofl:

5 个赞

还真是,上回也是莫名其妙的火,然后凉,这回又要来一次了?

用kilo code测试了实际开发,结论是:
不论怎样宣发比肩GPT,仅次于GPT,跑分如何如何。
但是就是不能解决5.2能解决的问题。
不管跑分吹的多牛逼,看上去只有10%的差距,其实就是0和1的差别。

一切以能不能真正干活为唯一标准。

5 个赞

开源和闭源还是没法比的。
Deepseek确实日常用得少,主要是幻觉太高了。

1 个赞

deepseek也是,比较适合做文员,

主要是小模型幻觉太高了,创造力上来了稳定性就不行了

1 个赞

确实,定位就不同