🔥【大模型系列11】关于Grok4,你想知道的一切。250716更新:LMArena评分,网页版支持语音,加入类似3d waifu

视频

发布会:https://x.com/xai/status/1943158495588815072

Chat渠道

Grok官网,App Chat

免费会员:暂时没有Grok4

$30会员:有Grok4,没有Grok4 heavy
上下文128k,参考api上下文是256k,Grok3 chat=32k
各大模型Chat版上下文都会明显小于api版,例如ChatGPT $20会员所有模型上下文都是32k
限制每2小时20次,有点少,以后应该会调整,Grok3刚出来后也经历了限量上调的过程

$300/月会员:新增加的,对标ChatGPT Pro,可以使用Grok 4 Heavy,价格和性能对标o3-pro
$300会员并非不限量,现在是Grok4 heavy限量20条/每小时,gork4限40条/2小时
来源:grok.com

X官网,App Chat

免费会员和$8会员暂时不能用Grok4
$40会员可以用Grok4
来源:https://x.com/i/premium_sign_up

OpenRouter Chatroom

消耗自己余额
来源:OpenRouter

LMArena Direct chat,

缺点:所有模型都严格限制上下文,对上下文需求高的还是要官网或api。不能上传图片
优点:无需注册,没有次数限制,可以指定两个模型同时回答(Side by side)
用CherryStudio+官网API,或LMArena问Grok4是什么模型,他有时说自己是GroqChat,使用Meta的Llama 3.1模型,或者说自己是ChatGPT,应该是正常现象
来源:LMArena
脚本:https://linux.do/t/topic/777744

API渠道

输入$3,输出$15
上下文256k,实际输出(不含推理token)达到了惊人的112ktokens,17万汉字,是2.5pro和sonnet4的2倍以上
推测是总输出128k-给推理预留了16k=最终输出112k
测试方法:一本书原文,让grok一字不差复述三遍,cherry+官网api
tokenizer用的grok官网,字数统计用cursor+插件

就是说,理论上可以一次性翻译一整本书

官网API

之前grok3时候充了$5,薅了$150羊毛,现在终于有用武之地了,发现$150过期了 :joy:
来源:https://x.ai/api

Openrouter API

速度不快只有50tps
只有grok-4,没有grok-4-heavy


来源:Grok 4 - API, Providers, Stats | OpenRouter

评分

官方自评

Humanity’s Last Exam


来源:Grok发布会
官网并未更新:Humanity's Last Exam

ARC-AGI

来源:ARC Prize - Leaderboard

Artificial Analysis統計分

來源:https://artificialanalysis.ai/

NYT评分

來源:GitHub - lechmazur/nyt-connections: Benchmark that evaluates LLMs using 759 NYT Connections puzzles extended with extra trick words

LMArena,截止到250710尚未上线

来源:Overview Leaderboard | LMArena

LiveBench评分

推理第一,数学第一,语言第三。总分主要是编程拉后腿
不过编程有claude了,也不需要grok编程
来源:https://livebench.ai/

Aider编程评分 250714 15:18更新

grok4编程不是强项,grok4有个专门的code版,好像说9月发布
来源:Aider LLM Leaderboards | aider

LongBench,长上下文评分,截止到250710尚未上线

来源:Fiction.live

L站和网络相关资源汇总

Grok4 Api 天气卡测试 VS gemini2.5-pro deepseek-r1 chatgpt-4o-latest claude-sonnet-4 claude-4-opus

https://linux.do/t/topic/776929

https://mp.weixin.qq.com/s/OR_FOz6eq4X3QIt8LX-DaQ

一些个人感想

Grok4出来一下挺好的,刺激刺激gpt5和Gemini3早点上市,
话说gemini 2.5 Pro上市也都三个半月了。

现在新模型迭代的速度也就是三四个月一次大更新

XAI是起步速度最晚但是进步速度最快的大模型公司,显卡数量跟Meta差不多,但是结果比Meta要好得多。
想起平庸的grok2,好像是很遥远的事,其实grok2才上市11个月而已

Grok近期想超过Gemini和OpenAI很难,但是争取进入新的御三家是完全有可能的。
我推测未来的座次是ChatGPT → Gemini → Grok → Claude → Meta

Claude现在实际已经主动退出c端通用大模型市场竞争了,专心做b端编程大模型,这意味着市场规模不可能与C端相比,程序员才有多少人,很快到天花板了,ChatGPT在美国周活约8000万,美国职业程序员只有30万,根本就不是一个量级的市场

Cursor$20一个月,ChatGPT/Gemini/Grok也是$20~30一个月,程序员付费的金额也不比小白更高

实际上Grok APP在全球的下载数量已经是AI类别前三了,估值上Anthropic最新一轮估值600亿美元,xai估值1200亿美元,已经达到openai去年同期估值水平,增长非常快。openai现在3000亿美元

考虑到马斯克的财力、眼光和长期主义,未来grok应该能长期保持前三名。
马斯克2015年是OpenAI的创始人之一,是的,在我们听说ChatGPT的八年前,他就已经看到未来了,后来被Sam Altman排挤了出去(这家伙也是个宫斗高手,11个创始人走了9个)。马斯克现在搞AI是认真的,长期的,不是闹着玩的。甚至憋了口气,要报山姆一箭之仇
而且,而且随着robotaxi已经在美国上路,特斯拉在有人驾驶电动汽车市场下滑,特斯拉正在转型为一家无人驾驶公司和机器人公司。強大的AI能力是这一切的基础。马斯克在AI方面是输不起的。

最后送张梗图,祝大家玩耍Grok4愉快。

88 个赞

大佬牛逼!!

前排!!

2 个赞

感谢总结

1 个赞

大佬nb

1 个赞

就爱这种省流贴!感谢整理

前排!!

有什么grok镜像网站嘛

前排支持,大佬牛

ARC-AGI评分,250710 23:29更新

3 个赞

老哥想办法测测heavy啊

1 个赞

不得不说,xAI拉了一坨大的

Grok-3比作是V3
那么,Grok-4非常类似于R1(V3的后训练超级强化推理版)。

只是Deepseek,在V3基础上训练R1,只花了1个月。
而xAI这个过程却花了5个月,还是从5月跳票到7月的。

当然考虑到Grok-3底子没有那么不堪,Grok-4还是比llama-4强太多了。

3 个赞

Grok-3刚推出时,我当时一度视xAI为御三家之下的第一厂 :sweat_smile:

尤其是Grok-3-mini,各项基准测试,干掉老R1后,比Qwen-32B还便宜的价格,外加每个月150刀,当时忍不住吹了xAI好一阵。基于Grok-3-mini的良好表现,让我对5月初档期的Grok-3.5抱有较高的预期。

后来,大家都看到了。跳票,空头支票,拉了一坨大的。(当然如果给我150刀,我可以用一下的,至少不像llama-4,那个模型免费送我都不要)

4 个赞

我倒是认为grok4没有那么不堪
至少算一个输出扩大版本的o3是能匹配的
但是如果以下一代模型来考量,十有八九是拉,除非当前模型基本架构到顶了

2 个赞

楼主更新的非常全面,没有看你的就差不多了

老马快把150刀还给我

否则等R2登场后,我估计Grok-4的API送我都不用了。

如果是5月档,和Claude-4,R1-0528一起出,没有跳票 还是Grok-3.5的话,确实表现还可以,至少理论基准测试,算是有可取之处的特色。

2 个赞

是的,ai的发展演进节奏不等人
除非这个季度御三家也没拿出来显著进化的模型

很全面的总结

御三家,在东方力量下,上半年牙膏挤爆,就连喜欢墨洋工的A社,上半年都更新两次模型。三家上半年的老本,都够吃到年底的最后一天。把下面压得死死的。无论是改善降智,或者搞点折扣活动,足够拖到明年。

目前,也就R2还有一些预期,可以碰一碰御三家。