2025 年 AI Agent 的最佳大模型基座!kimi k2 之于 AI Agent 开发的简单测评

就在昨天,好久没有声音的 kimi 也是推出了他们的最新力作:kimi k2 模型,在多个榜单上又刷到了 SOTA。但是熟悉 锦恢 的朋友都知道,我不在乎榜单,我更在乎实际使用体验。

作为 Agent 开发者和 OpenMCP 作者,大模型工具调用能力和 planning 能力一直是我最关心的。所以简单做了一份不算权威的测试。

先说我用下来的结论:与 deepseek v3 相比,kimi k2 的响应速度更快,在 Agent 应用上有非常明显的性能提升。结合廉价的 API 定价,我单方面认为 kimi k2 或许是 2025 年国内最适合用来构建 AI Agent 应用的大模型基座(油管上甚至有人把 kimi k2 称为 Agentic AI 的 Deepseek 时刻)。关键是这玩意儿还开源,不过个人用的话,还是推荐购买 API。

#T1. 响应速度测试

prompt 为

const testMessage = 'you\'re a smart assistant, please write an article of at least 100 words to introduce mcp';

#T2. 幻觉测试

在 openmcp 官网上,有一个很有趣的进行大模型 Agent 幻觉测试的例子:
go 实现 neo4j 的只读 mcp 服务器 (SSE)​kirigaya.cn/openmcp/zh/plugin-tutorial/examples/go-neo4j-sse.html
这个例子也就是让 Agent 来访问数据库,调用 mcp 的入参由大模型生成。可以先看一下 deepseek v3 的结果:

你会发现返回为空,因为我数据库中代表评论的类型不叫 Comment,大模型在不知道的情况下,瞎编了一个 Comment,这属于幻觉。

k2 似乎很好地解决了这个问题,下面是 k2 的结果:

有点过于完美了。。。我之前的部分 trick 都可以弃之不用了。

奥,对了,如果你在 kimi 上的充值额度不足 50,那么 RPM 会被限制在 3,请求太频繁就会出现下面的问题:

可恶,还是你们会做生意。先让我充值 50.

#T3. 长上下文工具调用测试

这里使用了我开发 Slidev MCP,用于让 AI 根据输入语料或者外部链接来自动生成 ppt。

使用 Slidev MCP 的 prompt “guide”,然后加上如下的问题:

请帮我根据 https://kirigaya.cn/openmcp/zh/plugin-tutorial/examples/go-neo4j-sse.html 制作一份 ppt,作者是锦恢

先看一下 deepseek 的表现:

任务顺利完成,看一下生成的 ppt(随便选了几张)

可以看到,有些地方还是不够完美的,在有的页面 v3 并没有很好的根据 guide prompt 中设定的规则生成 ppt 的布局内容(但是 r1 是可以的,但是 r1 的执行时间大概是 v3 的五倍左右)

我们可以看一下 kimi k2 的效果:

生成的 ppt 效果:

可以看到,k2 生成的内容更加丰富,虽然也存在格式上的问题。

看来格式上的问题有待对 MCP Tool 进行进一步约束和优化来改进。

额外说一句,如果你是 claude code 的忠实用户,可以尝试通过 https://github.com/LLM-Red-Team/kimi-cc 这个项目来用 kimi k2 来驱动你的 cc,k2 底子的 cc 效果非常不错,比 cursor 在项目初期的代码上强不少。(非常抱歉,暂时没有时间做完整的系统实验,所以此处只是告知大家有这个方案可以选择)

kimi 团队确实不容易,被 ds 压了快一年,终于可以拿 k2 出一口气了,nb。压力这下转移到了 deepseek 这边。怎么说?


最后,对 AI Agent 技术感兴趣,希望一起交流的,欢迎加入 OpenMCP 交流群,加入方式就在 GitHub - LSTM-Kirigaya/openmcp-client: All in one vscode plugin for mcp developer 这个项目的 README 里面。如果可以给我们点个 star,那就再好不过了。

74 个赞

前排前排

2 个赞

佬太强啦 这就去充值用起来

2 个赞

在等微博牙医大佬的测试。
话说被 ds 压了一年吗,Kimi 之前就没强过吧。

9 个赞

这个充值 50 块钱真的绷不住了,不充够 50,真的很不人性化

5 个赞

kimi目前的token速度还是太慢

2 个赞

写的太好了

1 个赞

kimi也是有高光时刻的吧,我接触使用的第一个国内ai就是kimi

3 个赞

k2可以像Claude一样自主多步调用工具嘛
很多模型第一次调用完工具获得初步信息后就开始输出结果了

2 个赞

对啊,所以我吐槽说kimi太会做生意了hh :rofl:

2 个赞

看起来这几天Kimi2反响不错啊!

1 个赞

v3 就可以了,不仅可以多步调用,还能一步并行调用多个工具轮次,这些都可以看一下我之前的教程

1 个赞

kimi买了不少Gemini和Claude的API,蒸馏了很多数据。Claude Code可能还真是更适合kimi宝宝体质的agent脚手架

3 个赞

营销出来的不算。技术上,Kimi 没进过第一梯队。

2 个赞

tql了佬 我去看看

1 个赞

看起來不錯 難道說

1 个赞

yzl 套现之前 kimi 口碑还是非常好的。kimi 早期大部分都是清华的,苏神等一众 AI 学术工业圈的大神也都在 kimi,底子很不错的。其实从一个月之前 kimi research 出来之后,kimi 的风评就开始转好了。kimi research 确实好用,在我的朋友中口碑很棒,大家都是拿它和 gemini research 比的。

2 个赞

我个人感觉kimi K2有很多(前端)和Gemini很像

2 个赞

支持大佬

2 个赞

清华也没用啊,之前 Kimi 难用是事实。智谱也是清华,早先智谱比 Kimi 更强。Kimi 出圈除了营销就是长文本,L站刚开始吹 Kimi 那波我也参与了,不过后面被人怀疑是 RAG 不是 context。再后来长文本被谷歌吊打,完全不是一个级别的。
我是希望 Kimi 能扭转口碑的,技术才是一个公司的底气。

4 个赞