🔥【大模型系列11】关于Grok4，你想知道的一切。250716更新：LMArena评分，网页版支持语音，加入类似3d waifu

dwqxq1 · 2025 年7 月 10 日 12:49

视频

发布会：https://x.com/xai/status/1943158495588815072

Chat渠道

Grok官网，App Chat

免费会员：暂时没有Grok4

$30会员：有Grok4，没有Grok4 heavy
上下文128k，参考api上下文是256k，Grok3 chat=32k
各大模型Chat版上下文都会明显小于api版，例如ChatGPT $20会员所有模型上下文都是32k
限制每2小时20次，有点少，以后应该会调整，Grok3刚出来后也经历了限量上调的过程

$300/月会员：新增加的，对标ChatGPT Pro，可以使用Grok 4 Heavy，价格和性能对标o3-pro
$300会员并非不限量，现在是Grok4 heavy限量20条/每小时，gork4限40条/2小时
来源：grok.com

X官网，App Chat

免费会员和$8会员暂时不能用Grok4
$40会员可以用Grok4
来源：https://x.com/i/premium_sign_up

OpenRouter Chatroom

消耗自己余额
来源：OpenRouter

LMArena Direct chat，

缺点：所有模型都严格限制上下文，对上下文需求高的还是要官网或api。不能上传图片
优点：无需注册，没有次数限制，可以指定两个模型同时回答（Side by side）
用CherryStudio+官网API，或LMArena问Grok4是什么模型，他有时说自己是GroqChat，使用Meta的Llama 3.1模型，或者说自己是ChatGPT，应该是正常现象
来源：LMArena
脚本：https://linux.do/t/topic/777744

API渠道

输入$3，输出$15
上下文256k，实际输出（不含推理token）达到了惊人的112ktokens，17万汉字，是2.5pro和sonnet4的2倍以上
推测是总输出128k-给推理预留了16k=最终输出112k
测试方法：一本书原文，让grok一字不差复述三遍，cherry+官网api
tokenizer用的grok官网，字数统计用cursor+插件

就是说，理论上可以一次性翻译一整本书

官网API

之前grok3时候充了$5，薅了$150羊毛，现在终于有用武之地了，发现$150过期了
来源：https://x.ai/api

Openrouter API

速度不快只有50tps
只有grok-4，没有grok-4-heavy

来源：Grok 4 - API, Providers, Stats | OpenRouter

评分

官方自评

Humanity’s Last Exam

来源：Grok发布会
官网并未更新：Humanity's Last Exam

ARC-AGI

来源：ARC Prize - Leaderboard

Artificial Analysis統計分

來源：https://artificialanalysis.ai/

NYT评分

來源：GitHub - lechmazur/nyt-connections: Benchmark that evaluates LLMs using 759 NYT Connections puzzles extended with extra trick words

LMArena，截止到250710尚未上线

来源：Overview Leaderboard | LMArena

LiveBench评分

推理第一，数学第一，语言第三。总分主要是编程拉后腿
不过编程有claude了，也不需要grok编程
来源：https://livebench.ai/

Aider编程评分 250714 15:18更新

grok4编程不是强项，grok4有个专门的code版，好像说9月发布
来源：Aider LLM Leaderboards | aider

LongBench，长上下文评分，截止到250710尚未上线

来源：Fiction.live

L站和网络相关资源汇总

⊚Grok4 Api 天气卡测试 VS gemini2.5-pro deepseek-r1 chatgpt-4o-latest claude-sonnet-4 claude-4-opus

⊚https://linux.do/t/topic/776929

⊚https://mp.weixin.qq.com/s/OR_FOz6eq4X3QIt8LX-DaQ

一些个人感想

Grok4出来一下挺好的，刺激刺激gpt5和Gemini3早点上市，
话说gemini 2.5 Pro上市也都三个半月了。

现在新模型迭代的速度也就是三四个月一次大更新

XAI是起步速度最晚但是进步速度最快的大模型公司，显卡数量跟Meta差不多，但是结果比Meta要好得多。
想起平庸的grok2，好像是很遥远的事，其实grok2才上市11个月而已

Grok近期想超过Gemini和OpenAI很难，但是争取进入新的御三家是完全有可能的。
我推测未来的座次是ChatGPT → Gemini → Grok → Claude → Meta

Claude现在实际已经主动退出c端通用大模型市场竞争了，专心做b端编程大模型，这意味着市场规模不可能与C端相比，程序员才有多少人，很快到天花板了，ChatGPT在美国周活约8000万，美国职业程序员只有30万，根本就不是一个量级的市场

Cursor$20一个月，ChatGPT/Gemini/Grok也是$20~30一个月，程序员付费的金额也不比小白更高

实际上Grok APP在全球的下载数量已经是AI类别前三了，估值上Anthropic最新一轮估值600亿美元，xai估值1200亿美元，已经达到openai去年同期估值水平，增长非常快。openai现在3000亿美元

考虑到马斯克的财力、眼光和长期主义，未来grok应该能长期保持前三名。
马斯克2015年是OpenAI的创始人之一,是的，在我们听说ChatGPT的八年前，他就已经看到未来了，后来被Sam Altman排挤了出去（这家伙也是个宫斗高手，11个创始人走了9个）。马斯克现在搞AI是认真的，长期的,不是闹着玩的。甚至憋了口气，要报山姆一箭之仇
而且，而且随着robotaxi已经在美国上路，特斯拉在有人驾驶电动汽车市场下滑，特斯拉正在转型为一家无人驾驶公司和机器人公司。強大的AI能力是这一切的基础。马斯克在AI方面是输不起的。

最后送张梗图，祝大家玩耍Grok4愉快。

daishuge · 2025 年7 月 10 日 12:50

大佬牛逼！！

user9527 · 2025 年7 月 10 日 12:50

前排!!

handsome · 2025 年7 月 10 日 12:58

感谢总结

1113410935 · 2025 年7 月 10 日 13:23

大佬nb

Throttle · 2025 年7 月 10 日 13:28

就爱这种省流贴！感谢整理

eddiego · 2025 年7 月 10 日 13:29

前排!!

qingyin · 2025 年7 月 10 日 13:44

有什么grok镜像网站嘛

tonyyn · 2025 年7 月 10 日 15:02

前排支持，大佬牛

dwqxq1 · 2025 年7 月 10 日 15:29

ARC-AGI评分，250710 23:29更新

bige0123 · 2025 年7 月 10 日 15:43

老哥想办法测测heavy啊

PSP · 2025 年7 月 10 日 15:54

不得不说，xAI拉了一坨大的

Grok-3比作是V3
那么，Grok-4非常类似于R1（V3的后训练超级强化推理版）。

只是Deepseek，在V3基础上训练R1,只花了1个月。
而xAI这个过程却花了5个月，还是从5月跳票到7月的。

当然考虑到Grok-3底子没有那么不堪，Grok-4还是比llama-4强太多了。

PSP · 2025 年7 月 10 日 16:01

Grok-3刚推出时，我当时一度视xAI为御三家之下的第一厂

尤其是Grok-3-mini，各项基准测试，干掉老R1后，比Qwen-32B还便宜的价格，外加每个月150刀，当时忍不住吹了xAI好一阵。基于Grok-3-mini的良好表现，让我对5月初档期的Grok-3.5抱有较高的预期。

后来，大家都看到了。跳票，空头支票，拉了一坨大的。（当然如果给我150刀，我可以用一下的，至少不像llama-4，那个模型免费送我都不要）

liulapatuoni · 2025 年7 月 10 日 16:06

我倒是认为grok4没有那么不堪
至少算一个输出扩大版本的o3是能匹配的
但是如果以下一代模型来考量，十有八九是拉，除非当前模型基本架构到顶了

chunkk · 2025 年7 月 10 日 16:08

楼主更新的非常全面，没有看你的就差不多了

PSP · 2025 年7 月 10 日 16:08

老马快把150刀还给我

否则等R2登场后，我估计Grok-4的API送我都不用了。

PSP · 2025 年7 月 10 日 16:10

如果是5月档，和Claude-4，R1-0528一起出，没有跳票还是Grok-3.5的话，确实表现还可以，至少理论基准测试，算是有可取之处的特色。

liulapatuoni · 2025 年7 月 10 日 16:12

是的，ai的发展演进节奏不等人
除非这个季度御三家也没拿出来显著进化的模型

KobayashiKanna · 2025 年7 月 10 日 16:14

很全面的总结

PSP · 2025 年7 月 10 日 16:15

御三家，在东方力量下，上半年牙膏挤爆，就连喜欢墨洋工的A社，上半年都更新两次模型。三家上半年的老本，都够吃到年底的最后一天。把下面压得死死的。无论是改善降智，或者搞点折扣活动，足够拖到明年。

目前，也就R2还有一些预期，可以碰一碰御三家。

话题		回复	浏览量
:fire:【原创长文】关于Claude4，你想知道的一切，250529更新Lmarena前端编程评分【长期更新】文档共建人工智能 , 纯水 , 原创	70	3190	2025 年7 月 5 日
:fire:【大模型系列27】关于Grok 4.2，你想知道的一切【底楼更新grok-4.2-beta2上线】文档共建人工智能 , 纯水 , 原创	20	1964	2026 年3 月 13 日
【gpt-4o-0326】250329更新：免费会员上线原生画图了！Aider编程评分搞七捻三 ChatGPT , 人工智能 , 纯水	60	2726	2025 年5 月 2 日
:fire:【大模型系列14】关于grok-4-fast（代号Sonoma Sky Alpha），你想知道的一切【底楼250921更新价格和LMArena评分】文档共建人工智能 , 纯水	20	1708	2025 年9 月 25 日
【原创长文】关于Gemini 2.5 Pro，你想知道的一切。2.5-pro-0605 Aider编程分数超过o3【更新见底楼】搞七捻三 Gemini , 人工智能 , 纯水 , 原创	275	14362	2025 年7 月 11 日