怎么感觉大家的Kimi K2和我的不一样❓

VrianCao · 2025 年7 月 14 日 12:47

怎么L站大家都在说不好用

我怎么感觉很好用啊

业内的几个朋友这几天都很激动，在蹲技术报告

这次K2创新很多，提出了全新的稀疏性缩放定律，并证明了Muon对于超大语料训练优化的可行性，这次的博客展示出来的Loss-Tokens曲线优秀到不像话

现在据我所知已经有团队把今年2月份发布的Moun重新捡起来研究了，同时也在等稀疏性缩放定律引导下的“fewer heads, more experts”报告，一旦被审阅证明可行性，未来几个月内的MoE应该都是这个路子了

使用体验上来看，OpenRouter上的几个Provider都还不太行，量化缩水严重，官方API真的好用，但慢是真的慢

Agentic能力优秀，编码很不错，有的放矢，准确，创意性写作很棒

Throttle · 2025 年7 月 14 日 12:49

真的假的啊，比 GPT 4.1 或者 Claude 4 如何

a3members · 2025 年7 月 14 日 12:49

官网能力还行就是太慢了完全没有生产力可言

Myallure · 2025 年7 月 14 日 12:52

国内的模型都那样吧，说是这么说，真正用的还是国外那几家

VrianCao · 2025 年7 月 14 日 12:52

关于幻觉：单次激活的32B参数量注定了时效类问题幻觉严重，但384 Experts注定了各个细分领域下的表现差不了，因此专业性问题（如不同库的调用）不差，但时效性问题这类综合性问题幻觉注定很高

并且，此次K2基于DSv3架构，幻觉高并不意外，但它的Agentic强啊，可以说是面向未来，只要不封死它的工具，上限很高

zhepama · 2025 年7 月 14 日 12:54

用了还行

VrianCao · 2025 年7 月 14 日 12:55

编程干不过Claude，和4.1相当

工具调用和C4.0S接近，比4.1强，4.1在Agentic上就是怂包一个，和Gemini一样拉

日常问答，Claude和4.1水平比k2高

中文创意性写作K2断层第一

Creasys · 2025 年7 月 14 日 12:55

速率问题我看另一个帖子充了50元之后输出能达到100tps+

StellaFortuna · 2025 年7 月 14 日 12:56

任何AI不是全能模型无法完成所有任务无法精通所有领域
只要运气好 AI的每一个回答都是标准答案
只要运气差 AI永远无法给出有效答案
问题有千万个 AI的回答却只有一种
一套编程题只能得十分，全换一套 20 30甚至100 真的没可能吗
最近流行的词汇量测试不到100道题就能锁定我1万多的词汇量，你怎么这么有自信？
换一套题你能保证完全满分？

人类的探索是扩散式的从最常见到最罕见
AI的训练来源于人类的使用最常用的记得最牢最偏门的记忆最偏差(你说他训练量大…再大他目前没有做到最冷门的知识也能做到最好甚至还在犯常识性错误你觉得他能精通？)
人类感到陌生的 AI自然也不一定会(相关训练资料较少)
但人类的学习永远不是完全循序渐进的我们学一篇课文大部分是简单词总会有几个高级词汇
这几个高级词汇完全无法代替所有的高级词汇
如果AI像我们一样只学了几篇文章习得了几个高级词汇那他无法答对所有的高级词汇题目但是如果题库正好出到了这几道那么他可以拿到满分
那如果一个都没出到那很抱歉只能得0分

VrianCao · 2025 年7 月 14 日 12:57

不存在的，我充了50元到Tier1，还是死慢死慢的

wren · 2025 年7 月 14 日 12:57

tier1 也慢啊

outgoing · 2025 年7 月 14 日 13:00

Agentic到底是什么，体现在什么地方，看不出来啊

VrianCao · 2025 年7 月 14 日 13:01

了解每个模型的长处和短处，对不同的任务选择不同的模型，先测再说话，广泛的测试而不只是测试别人发现的表现好/差的项目，自己找到模型的Pros&Cons，而非刻板印象先行

nameliu · 2025 年7 月 14 日 13:01

同问，是agent吗，agentic是？

VrianCao · 2025 年7 月 14 日 13:01

工具调用，扔到CC里面试试就知道了

kityeung · 2025 年7 月 14 日 13:02

我下午试了下挺快的，之前有15块，但是rpm为3，Claude code问一个问题，三个请求一下就没了然后充了50还没试

StellaFortuna · 2025 年7 月 14 日 13:02

我个人一直秉持着一个态度目前所有的AI使用的是完全一样的数据集
它来自于这个地球不会来自火星不会来自月球
从最乐观的理论上所有AI的能力应该是一模一样的…
我们必须摒弃他不会他不能而是他不精通他不适应他不熟悉
整体训练不强参数不大那么对所有知识的理解和能力都会等比例下降
特定领域训练则可以补全一定的短板但短板被补上就会出现新的短板短板是相对的(这一条偏题了不用看了)

VrianCao · 2025 年7 月 14 日 13:04

有些偏差但大致正确，很好的比喻

VrianCao · 2025 年7 月 14 日 13:05

还是那句话，没有真正的泛用模型，每个模型都有特调的擅长的部分，用每个领域中好用的

Creasys · 2025 年7 月 14 日 13:05

我没实测过，这个佬友测出来输出100+，不知道是测试的问题还是他的账户比较特殊

话题		回复	浏览量
Kimi K2的意义前沿快讯人工智能 , 纯水	60	2758	2025 年7 月 15 日
K2!真的好用么？什么水平啊❓ 搞七捻三人工智能 , 纯水	64	3426	2025 年7 月 19 日
小模型的文学任务评测｜251223更新（加M2.1/GLM4.7）文档共建人工智能	18	673	2025 年12 月 24 日
年终 AI 总结，国内 AI 封神时刻！大杀四方！搞七捻三人工智能 , 纯水	35	896	2025 年2 月 20 日
今天站里有些和Kimi K2有关帖子真的不是软广吗？搞七捻三纯水	111	2177	2025 年7 月 14 日

怎么感觉大家的Kimi K2和我的不一样❓

相关话题