关于Grok 4.20 模型的一些发现

感觉幻觉明显减少了。目前的缺点就是视觉太差和编程不够强

网页版的输入限制为 390K,手动填充发现实际上限制为 256K


当前 Beta 是 Small / A8 变体(据分析约 500B 参数,激活参数更少,适合高效推理)
平时使用的时候,小问题不会思考过长时间,难问题可以拓展到几分钟的思考

Grok 的四个角色我认为不是 4 个完全独立的模型,而是共享大部分权重,单次推理里同时扮演 4 个角色同时推理(Grok 协调头、Harper 研究头、Benjamin 逻辑头、Lucas 创意头),最后由 Grok 这一个 agent 输出内容。如果是 4 个独立 4.1 角色扮演,成本要高很多

Xai 的人说这个模型“Rapid Learning / Continuous Learning”架构可以通过聊天记录和点赞拉踩的数据训练,每天小更新,每周大更新,要后续测试才能确定是不是真的

目前搜索联网能力是最有竞争力的,相信最近佬友们也用的不少,这属于 Xai 的爬虫优化和设计
言论放得开,炒币排行榜排第一也是优势


支持很多工具

下面的一致性和上下文召回题目很多模型要不开思考才能做对,Grok 的这种 agent 集群思考能做对似乎提供了新思路?


DeepSeek 开思考两题都死循环


DeepSeek 不开思考,第一张图有锯齿和杂线,第二张图无法显示

DeepSeek不开思考找数字能答对

测了很多遍三体里面魔改数字和剧情捞针,Gemini DeepSeek Grok都没问题,感觉这种任务还是简单。
别的题目不太好测,因为 Grok 的联网能力太强

https://linux.do/t/topic/286836

45 个赞

感谢分享

1 个赞

新年快乐墨子佬

1 个赞

我的场景中感觉每天都会有点进步

3 个赞

如果是这样那确实很有潜力

3 个赞

我记得 4.1think 就有多代理协作系统
在思维链里可以看到三个Agent

2 个赞

那感觉可以尝试以下Grok了

感谢分享
墨酪新春快乐

1 个赞

联网搜索其实是蛮重要的能力的
对于非编程主业的人来说,调研能力可能更重要

1 个赞

确实,现在我用 Grok 的次数更多
主要是 Manus 一直很贵,用不起,Grok 的额度太多了

1 个赞

x上的文章(以x.com/i/article开头)依然访问不了,不知道哪位佬有提取文章的方法,试了chatgpt和gemini依然不行

抱歉,由于 X 平台的限制,我无法通过可用工具提取该 Article 的完整正文内容。
您提供的链接:
https://x.com/xxxx/article/2024151797900718086
使用 X 专用工具查询后,该帖子的实际内容仅为一行链接:
http://x.com/i/article/2024148855743197184
(尝试直接拉取文章 ID 2024148855743197184 也返回“Post not found”,因为 X Article 是特殊长文格式,不属于标准 Post API 可完全读取的内容。)

让他以markdown格式或者文本格式提取全文,就是我上面的报错了,它只会给你总结文章内容

试试 Manus 吧

1 个赞

grok的搜索能力真的可以

那佬,有一个有点奇怪的就是grok-4.1-thinking,grok-4.20-beta好像都是多agent?4.1thinking还是以前的4.1thinking吗?和4.20-beta有啥区别?

1 个赞

以前的应该没变吧?但是我以前的4.1我用的太少,我也没注意
以前是多Agent讨论吗

看起来只是普通的线性推理

实际128k吧,普号更低

1 个赞


我用的是grok2api的逆向。不是官网。

我试过了,是256
我测的是4.20