怎么感觉大家的Kimi K2和我的不一样❓

怎么L站大家都在说不好用

我怎么感觉很好用啊:red_question_mark:

业内的几个朋友这几天都很激动,在蹲技术报告

这次K2创新很多,提出了全新的稀疏性缩放定律,并证明了Muon对于超大语料训练优化的可行性,这次的博客展示出来的Loss-Tokens曲线优秀到不像话

现在据我所知已经有团队把今年2月份发布的Moun重新捡起来研究了,同时也在等稀疏性缩放定律引导下的“fewer heads, more experts”报告,一旦被审阅证明可行性,未来几个月内的MoE应该都是这个路子了

使用体验上来看,OpenRouter上的几个Provider都还不太行,量化缩水严重,官方API真的好用,但慢是真的慢

Agentic能力优秀,编码很不错,有的放矢,准确,创意性写作很棒

32 个赞

真的假的啊,比 GPT 4.1 或者 Claude 4 如何

1 个赞

官网能力还行 就是太慢了 完全没有生产力可言

5 个赞

国内的模型都那样吧,说是这么说,真正用的还是国外那几家 :thinking:

5 个赞

关于幻觉:单次激活的32B参数量注定了时效类问题幻觉严重,但384 Experts注定了各个细分领域下的表现差不了,因此专业性问题(如不同库的调用)不差,但时效性问题这类综合性问题幻觉注定很高

并且,此次K2基于DSv3架构,幻觉高并不意外,但它的Agentic强啊,可以说是面向未来,只要不封死它的工具,上限很高

4 个赞

用了还行

2 个赞

编程干不过Claude,和4.1相当

工具调用和C4.0S接近,比4.1强,4.1在Agentic上就是怂包一个,和Gemini一样拉

日常问答,Claude和4.1水平比k2高

中文创意性写作K2断层第一

5 个赞

速率问题我看另一个帖子充了50元之后输出能达到100tps+

1 个赞

任何AI不是全能模型 无法完成所有任务 无法精通所有领域
只要运气好 AI的每一个回答都是标准答案
只要运气差 AI永远无法给出有效答案
问题有千万个 AI的回答却只有一种
一套编程题只能得十分,全换一套 20 30甚至100 真的没可能吗
最近流行的词汇量测试 不到100道题就能锁定我1万多的词汇量,你怎么这么有自信?
换一套题 你能保证完全满分?

人类的探索是扩散式的 从最常见到最罕见
AI的训练来源于人类的使用 最常用的记得最牢 最偏门的记忆最偏差(你说他训练量大…再大 他目前没有做到最冷门的知识也能做到最好 甚至还在犯常识性错误 你觉得他能精通?)
人类感到陌生的 AI自然也不一定会(相关训练资料较少)
但人类的学习永远不是完全循序渐进的 我们学一篇课文 大部分是简单词 总会有几个高级词汇
这几个高级词汇完全无法代替所有的高级词汇
如果AI像我们一样只学了几篇文章 习得了几个高级词汇 那他无法答对所有的高级词汇题目 但是如果题库正好出到了这几道 那么他可以拿到满分
那如果一个都没出到 那很抱歉 只能得0分

20 个赞

不存在的,我充了50元到Tier1,还是死慢死慢的

tier1 也慢啊 :grimacing:

1 个赞

Agentic到底是什么,体现在什么地方,看不出来啊 :clown_face:

了解每个模型的长处和短处,对不同的任务选择不同的模型,先测再说话,广泛的测试而不只是测试别人发现的表现好/差的项目,自己找到模型的Pros&Cons,而非刻板印象先行

5 个赞

同问,是agent吗,agentic是?

1 个赞

工具调用,扔到CC里面试试就知道了

1 个赞

我下午试了下挺快的,之前有15块,但是rpm为3,Claude code问一个问题,三个请求一下就没了 :rofl: 然后充了50还没试

1 个赞

我个人一直秉持着一个态度 目前所有的AI使用的是 完全一样的数据集
它来自于这个地球 不会来自火星 不会来自月球
从最乐观的理论上 所有AI的能力应该是一模一样的…
我们必须摒弃他不会他不能 而是他不精通 他不适应 他不熟悉
整体训练不强 参数不大 那么对所有知识的理解和能力都会等比例下降
特定领域训练则可以补全一定的短板 但短板被补上就会出现新的短板 短板是相对的(这一条偏题了 不用看了)

8 个赞

有些偏差但大致正确,很好的比喻

还是那句话,没有真正的泛用模型,每个模型都有特调的擅长的部分,用每个领域中好用的

1 个赞

我没实测过,这个佬友测出来输出100+,不知道是测试的问题还是他的账户比较特殊

1 个赞