就在昨天,好久没有声音的 kimi 也是推出了他们的最新力作:kimi k2 模型,在多个榜单上又刷到了 SOTA。但是熟悉 锦恢 的朋友都知道,我不在乎榜单,我更在乎实际使用体验。
作为 Agent 开发者和 OpenMCP 作者,大模型工具调用能力和 planning 能力一直是我最关心的。所以简单做了一份不算权威的测试。
先说我用下来的结论:与 deepseek v3 相比,kimi k2 的响应速度更快,在 Agent 应用上有非常明显的性能提升。结合廉价的 API 定价,我单方面认为 kimi k2 或许是 2025 年国内最适合用来构建 AI Agent 应用的大模型基座(油管上甚至有人把 kimi k2 称为 Agentic AI 的 Deepseek 时刻)。关键是这玩意儿还开源,不过个人用的话,还是推荐购买 API。
#T1. 响应速度测试
prompt 为
const testMessage = 'you\'re a smart assistant, please write an article of at least 100 words to introduce mcp';
#T2. 幻觉测试
在 openmcp 官网上,有一个很有趣的进行大模型 Agent 幻觉测试的例子:
go 实现 neo4j 的只读 mcp 服务器 (SSE)kirigaya.cn/openmcp/zh/plugin-tutorial/examples/go-neo4j-sse.html
这个例子也就是让 Agent 来访问数据库,调用 mcp 的入参由大模型生成。可以先看一下 deepseek v3 的结果:
你会发现返回为空,因为我数据库中代表评论的类型不叫 Comment,大模型在不知道的情况下,瞎编了一个 Comment,这属于幻觉。
k2 似乎很好地解决了这个问题,下面是 k2 的结果:
有点过于完美了。。。我之前的部分 trick 都可以弃之不用了。
奥,对了,如果你在 kimi 上的充值额度不足 50,那么 RPM 会被限制在 3,请求太频繁就会出现下面的问题:
可恶,还是你们会做生意。先让我充值 50.
#T3. 长上下文工具调用测试
这里使用了我开发 Slidev MCP,用于让 AI 根据输入语料或者外部链接来自动生成 ppt。
使用 Slidev MCP 的 prompt “guide”,然后加上如下的问题:
请帮我根据 https://kirigaya.cn/openmcp/zh/plugin-tutorial/examples/go-neo4j-sse.html 制作一份 ppt,作者是锦恢
先看一下 deepseek 的表现:
任务顺利完成,看一下生成的 ppt(随便选了几张)
可以看到,有些地方还是不够完美的,在有的页面 v3 并没有很好的根据 guide prompt 中设定的规则生成 ppt 的布局内容(但是 r1 是可以的,但是 r1 的执行时间大概是 v3 的五倍左右)
我们可以看一下 kimi k2 的效果:
生成的 ppt 效果:
可以看到,k2 生成的内容更加丰富,虽然也存在格式上的问题。
看来格式上的问题有待对 MCP Tool 进行进一步约束和优化来改进。
额外说一句,如果你是 claude code 的忠实用户,可以尝试通过 https://github.com/LLM-Red-Team/kimi-cc 这个项目来用 kimi k2 来驱动你的 cc,k2 底子的 cc 效果非常不错,比 cursor 在项目初期的代码上强不少。(非常抱歉,暂时没有时间做完整的系统实验,所以此处只是告知大家有这个方案可以选择)
kimi 团队确实不容易,被 ds 压了快一年,终于可以拿 k2 出一口气了,nb。压力这下转移到了 deepseek 这边。怎么说?
最后,对 AI Agent 技术感兴趣,希望一起交流的,欢迎加入 OpenMCP 交流群,加入方式就在 GitHub - LSTM-Kirigaya/openmcp-client: All in one vscode plugin for mcp developer 这个项目的 README 里面。如果可以给我们点个 star,那就再好不过了。




















