2025 年 AI Agent 的最佳大模型基座！kimi k2 之于 AI Agent 开发的简单测评

LSTM-Kirigaya · 2025 年7 月 12 日 14:06

就在昨天，好久没有声音的 kimi 也是推出了他们的最新力作：kimi k2 模型，在多个榜单上又刷到了 SOTA。但是熟悉锦恢的朋友都知道，我不在乎榜单，我更在乎实际使用体验。

作为 Agent 开发者和 OpenMCP 作者，大模型工具调用能力和 planning 能力一直是我最关心的。所以简单做了一份不算权威的测试。

先说我用下来的结论：与 deepseek v3 相比，kimi k2 的响应速度更快，在 Agent 应用上有非常明显的性能提升。结合廉价的 API 定价，我单方面认为 kimi k2 或许是 2025 年国内最适合用来构建 AI Agent 应用的大模型基座（油管上甚至有人把 kimi k2 称为 Agentic AI 的 Deepseek 时刻）。关键是这玩意儿还开源，不过个人用的话，还是推荐购买 API。

#T1. 响应速度测试

prompt 为

const testMessage = 'you\'re a smart assistant, please write an article of at least 100 words to introduce mcp';

#T2. 幻觉测试

在 openmcp 官网上，有一个很有趣的进行大模型 Agent 幻觉测试的例子：
go 实现 neo4j 的只读 mcp 服务器 (SSE)kirigaya.cn/openmcp/zh/plugin-tutorial/examples/go-neo4j-sse.html
这个例子也就是让 Agent 来访问数据库，调用 mcp 的入参由大模型生成。可以先看一下 deepseek v3 的结果：

你会发现返回为空，因为我数据库中代表评论的类型不叫 Comment，大模型在不知道的情况下，瞎编了一个 Comment，这属于幻觉。

k2 似乎很好地解决了这个问题，下面是 k2 的结果：

有点过于完美了。。。我之前的部分 trick 都可以弃之不用了。

奥，对了，如果你在 kimi 上的充值额度不足 50，那么 RPM 会被限制在 3，请求太频繁就会出现下面的问题：

可恶，还是你们会做生意。先让我充值 50.

#T3. 长上下文工具调用测试

这里使用了我开发 Slidev MCP，用于让 AI 根据输入语料或者外部链接来自动生成 ppt。

使用 Slidev MCP 的 prompt “guide”，然后加上如下的问题：

请帮我根据 https://kirigaya.cn/openmcp/zh/plugin-tutorial/examples/go-neo4j-sse.html 制作一份 ppt，作者是锦恢

先看一下 deepseek 的表现：

任务顺利完成，看一下生成的 ppt（随便选了几张）

可以看到，有些地方还是不够完美的，在有的页面 v3 并没有很好的根据 guide prompt 中设定的规则生成 ppt 的布局内容（但是 r1 是可以的，但是 r1 的执行时间大概是 v3 的五倍左右）

我们可以看一下 kimi k2 的效果：

生成的 ppt 效果：

可以看到，k2 生成的内容更加丰富，虽然也存在格式上的问题。

看来格式上的问题有待对 MCP Tool 进行进一步约束和优化来改进。

额外说一句，如果你是 claude code 的忠实用户，可以尝试通过 https://github.com/LLM-Red-Team/kimi-cc 这个项目来用 kimi k2 来驱动你的 cc，k2 底子的 cc 效果非常不错，比 cursor 在项目初期的代码上强不少。（非常抱歉，暂时没有时间做完整的系统实验，所以此处只是告知大家有这个方案可以选择）

kimi 团队确实不容易，被 ds 压了快一年，终于可以拿 k2 出一口气了，nb。压力这下转移到了 deepseek 这边。怎么说？

最后，对 AI Agent 技术感兴趣，希望一起交流的，欢迎加入 OpenMCP 交流群，加入方式就在 GitHub - LSTM-Kirigaya/openmcp-client: All in one vscode plugin for mcp developer 这个项目的 README 里面。如果可以给我们点个 star，那就再好不过了。

edinik · 2025 年7 月 12 日 14:07

前排前排

Myallure · 2025 年7 月 12 日 14:10

佬太强啦这就去充值用起来

RichardChou · 2025 年7 月 12 日 14:15

在等微博牙医大佬的测试。
话说被 ds 压了一年吗，Kimi 之前就没强过吧。

JoeCHEN99 · 2025 年7 月 12 日 14:18

这个充值 50 块钱真的绷不住了，不充够 50，真的很不人性化

yuyuyang · 2025 年7 月 12 日 14:19

kimi目前的token速度还是太慢

skysaber · 2025 年7 月 12 日 14:20

写的太好了

EricOnly · 2025 年7 月 12 日 14:21

kimi也是有高光时刻的吧，我接触使用的第一个国内ai就是kimi

fable · 2025 年7 月 12 日 14:21

k2可以像Claude一样自主多步调用工具嘛
很多模型第一次调用完工具获得初步信息后就开始输出结果了

LSTM-Kirigaya · 2025 年7 月 12 日 14:22

对啊，所以我吐槽说kimi太会做生意了hh

XiaoHuang · 2025 年7 月 12 日 14:22

看起来这几天Kimi2反响不错啊！

LSTM-Kirigaya · 2025 年7 月 12 日 14:23

v3 就可以了，不仅可以多步调用，还能一步并行调用多个工具轮次，这些都可以看一下我之前的教程

bilibili.com

OpenMCP 教程 | 优雅地开发 MCP（二）实现图数据库 MCP Agent & 工具的原子化扩展_哔哩哔哩_bilibili

这是 openmcp 教程的第二期，这次讲讲如何使用 mcp 访问 neo4j 数据库。如果觉得还不错，不要忘了给我们的仓库点个 star：https://github.com/LSTM-Kirigaya/openmcp-client我们的官方文档也上线了，关于插件使用细节，教程，我们的理念等等，可以在这里看到：https://kirigaya.cn/openmcp/, 视频播放量 618、弹幕量 3、点赞数 33、投硬币枚数 15、收藏人数 36、转发人数 5, 视频作者锦恢, 作者简介...

TheUnknownThing · 2025 年7 月 12 日 14:24

kimi买了不少Gemini和Claude的API，蒸馏了很多数据。Claude Code可能还真是更适合kimi宝宝体质的agent脚手架

RichardChou · 2025 年7 月 12 日 14:26

营销出来的不算。技术上，Kimi 没进过第一梯队。

fable · 2025 年7 月 12 日 14:26

tql了佬我去看看

Tuyu · 2025 年7 月 12 日 14:28

看起來不錯難道說

LSTM-Kirigaya · 2025 年7 月 12 日 14:42

yzl 套现之前 kimi 口碑还是非常好的。kimi 早期大部分都是清华的，苏神等一众 AI 学术工业圈的大神也都在 kimi，底子很不错的。其实从一个月之前 kimi research 出来之后，kimi 的风评就开始转好了。kimi research 确实好用，在我的朋友中口碑很棒，大家都是拿它和 gemini research 比的。

MIKUSCAT · 2025 年7 月 12 日 14:47

我个人感觉kimi K2有很多（前端）和Gemini很像

handsome · 2025 年7 月 12 日 14:53

支持大佬

RichardChou · 2025 年7 月 12 日 15:07

清华也没用啊，之前 Kimi 难用是事实。智谱也是清华，早先智谱比 Kimi 更强。Kimi 出圈除了营销就是长文本，L站刚开始吹 Kimi 那波我也参与了，不过后面被人怀疑是 RAG 不是 context。再后来长文本被谷歌吊打，完全不是一个级别的。
我是希望 Kimi 能扭转口碑的，技术才是一个公司的底气。

话题		回复	浏览量
Kimi K2 0905 [ 正式发布 ] 编码性能提升！前沿快讯人工智能 , Cursor	98	3399	2025 年10 月 21 日
Kimi K2 模型先导 \| Tier3 apikey 测试结果文档共建人工智能	77	2733	2025 年7 月 30 日
快要变成kimi k2吹了，即使我曾经是坚定不移的augment吹开发调优纯水	41	2105	2025 年7 月 21 日
Kimi K2的意义前沿快讯人工智能 , 纯水	60	2758	2025 年7 月 15 日
K2!真的好用么？什么水平啊❓ 搞七捻三人工智能 , 纯水	64	3426	2025 年7 月 19 日

2025 年 AI Agent 的最佳大模型基座！kimi k2 之于 AI Agent 开发的简单测评

#T1. 响应速度测试

#T2. 幻觉测试

#T3. 长上下文工具调用测试

相关话题