:Fire:【大模型系列12】关于 GPT-5,你想知道的一切【250904底楼更新Aider评分),狼人杀测试(撒谎与伪装)排第一】

GPT-5 基本信息

250808 凌晨发布
发布会视频:https://www.youtube.com/watch?v=0Uu_VJeVVfo
官网新闻稿:https://openai.com/index/introducing-gpt-5/
官网 System card:https://cdn.openai.com/pdf/8124a3ce-ab78-4f06-96eb-49ea29ffb52f/gpt5-system-card-aug7.pdf
官网会员价格:https://openai.com/zh-Hans-CN/chatgpt/pricing/
官网 API 价格1:https://openai.com/zh-Hans-CN/api/pricing/
官网 API 价格2:https://platform.openai.com/docs/pricing
官网编程案例:GitHub - openai/gpt-5-coding-examples: GPT-5 coding examples

GPT-5 与以前模型不一样,GPT-5 就是个统一入口(路由),来自动判断问题应该转发到哪个模型,下图来自官方新闻稿翻译
个人想法:这虽然对小白用户方便,减少选择焦虑。但对专业用户,你搞不清你现在到底在用哪个模型,GPT-5 的表现也可能因为转发模型不同,而不稳定


评分

官方自评

幻觉率明显下降

正在处理:微信图片_2025-08-08_020355_121.png…


长上下文性能保持率显著提升


Humanity’s Last Exam


LMArena

综合


中文


编程


来源:Overview Leaderboard | LMArena


Artificial Analysis 评分


ARC-AGI-2评分 250808 04:41更新


来源:ARC Prize - Leaderboard


LiveBench评分 250808 12:55更新

Aider编程评分 250904 22:35更新


来源:Aider LLM Leaderboards | aider

FictionBench长上下文评分 截止到250808 01:50暂未上线

来源:Fiction.live


收费Chat渠道

官网Plus

上下文32k(参考API上下文是400k)
gpt-5,gpt-5-thinking限量,没有gpt-5-pro
貌似之前所有模型都没了,只能选gpt4
貌似现在在灰度,不是所有人都有

官网 Team

有少量gpt-5-pro,其他同Plus


来源:Team 账号出现 GPT-5、GPT-5 Thinking和GPT-5 Pro

官网Pro

gpt-5,gpt-5-thinking不限量,少量gpt-5-pro
上下文128k,远不是满血,都$200每月了,还不给满上下文,Sam也真是抠门,难不成是给$2000会员铺路?
Chat版里其他模型都删掉了
GPT-5貌似没有语音多模态,暂时语音还是用的4o的语音技术

Perplexity已上线

不过佬友反应速度很慢,貌似没思考
来源:Perplexity上GPT-5了

Poe已上线


免费Chat渠道

官网免费会员已上线

gpt-5,gpt-5-thinking限量,没有gpt-5-pro
上下文只有8k

Copilot已上线


LMArena Direct Chat已上线(免费)

不限量,但是上下文窗口很小
来源:LMArena


Chat与API命名对应关系推测

官方命名暂时有点混乱,system card与价格页面命名不一致,以下 chat 版与 API 版的对应关系为个人推测,仅供参考
全系上下文400k,最大输出暂不确定,参考上代上下文是200k,最大输出100k

gpt-5-pro chat推测转发到gpt-5-thinking-pro api

chat 在 Pro 和 Team 会员已上线,API 未上线,暂无价格,符合OpenAI o1-pro,o3-pro一贯的 Pro 会员限时独占风格
前代o3-pro价格:输入$20/输出$80

gpt-5-thinking chat推测转发gpt-5-thinking api,限额用光自动降级gpt-5-thinking-mini api

gpt-5-thinking:暂无价格
前代o3输出$10:$2/$8
gpt-5-thinking-mini:暂无价格
前代o4-mini是$1.1/4.4
训练素材240531
gpt-5-thinking-nano:$0.05/0.4
这个推测是api专有的,chat版里没有这个档
前代gpt-4.1-nano是$0.1/$0.4
训练素材240531

gpt-5 chat推测转发到gpt-5-mainapi,超限额自动降级到gpt-5-main-miniapi

gpt-5-main:$1.25/$10
无推理,前代4o是$2.5/$10
训练素材240801
gpt-5-main-mini:$0.25/$2
无推理,前代4o-mini是$0.15/$0.6
来源:https://openai.com/zh-Hans-CN/api/pricing
来源:https://platform.openai.com/docs/pricing


API渠道

官网API已上线

要 KYC,Tier 1上下文只有30k

Azure渠道API已上线

来源:Azure 上线 GPT-5 系列模型,除标准版本外,均有配额可直接部署,学生订阅 100$可用

OpenRouter 已上线

gpt-5需要自备OpenAI官网API Key
其他模型应该不用官网API Key
来源:OpenAI | OpenRouter


编程渠道

Cursor已上线

上下文 272k,免费一周


Deep research

暂不确定是否同步更新了模型,上代用的 o3/o4-mini


质疑声

不是说 GPT-5 差,而是开发了两年,巨额投入,Sam 吹了这么多 AGI 的牛,胃口调得老高,结果却只是一次常规升级,远远低于很多人的期待

谷歌 AI 负责人



博彩胜率网站,用户对 8 月底谁是第一大模型的预测,GPT-5 上市后大跳水,胜率从75%暴跌到16%,看来都在期望 Gemini 3


Reddit上投票



论坛相关帖子

.评价:建议改名 GPT-4.6,浪费时间,一块来骂
.GPT 5 小说实测:我不说像谁
.gpt-5 动画天气卡片
.对GPT-5的失望——期待落空
.GPT5 天气卡片 ☁️


我近期其他帖子

.🔥【原创长文】GPT5来了,¥55充Plus,尼区美区所有AI类App价格对比【长期更新】
十倍速语音写作4:🔥【十倍速写作系列4】我原创的最强桌面级生产力+AI语音眼镜组合【长期更新】
十倍速语音写作3:🔥【十倍速写作系列3】关于AI语音输入法,你想知道的一切,附全平台排名【250820底楼更新最强听写+最强润色方案】
十倍速语音写作2:🔥【十倍速写作系列2】:4o-transcribe vs whisper vs gemini-2.5 vs 搜狗讯飞的识别率实测,250716更新gemini和elevenlabs-scribe
十倍速语音写作1:🔥【原创长文】深度分析AI语音输入法CleverType,如何降维打击讯飞搜狗语音,成为你的效率利器【长期更新】


深度研究5:分享个提升Gemini/ChatGPT Deep research最大输出,以及查看ChatGPT Deep research剩余次数的方法
深度研究4:🔥【原创长文】O3 Deep research vs 2.5-pro Deep research
深度研究3:🔥【原创长文】让AI为你写有声书:基于Deep research+音频朗读的学习方法


大模型11:🔥【大模型系列11】关于Grok4,你想知道的一切。250716更新:LMArena评分,网页版支持语音,加入类似3d waifu
大模型10:🔥【原创长文】关于O3-pro,你想知道的一切,更新LiveBench评分【长期更新】
大模型9:🔥【原创长文】关于Deepseek R1-0528,你想知道的一切【250530更新LiveBench评分】
大模型8:🔥【原创长文】关于Claude4,你想知道的一切,250529更新Lmarena前端编程评分【长期更新】
大模型7:🔥【原创长文】关于Gemini 2.5 Flash,你想知道的一切。2.5-flash-0520Lmarena和长上下文评分【250525更新见底楼】
大模型6:🔥【原创长文】关于GPT-O3,O4-mini和4.1,你想知道的一切:250425:Lmarena评分出来了【长期更新】
大模型5:【原创长文】关于Gemini 2.5 Pro,你想知道的一切。2.5-pro-0605 Aider编程分数超过o3【更新见底楼】


其他:🔥【原创长文】顶级会员科普:ChatGPT Pro vs Gemini Ultra vs Claude Max vs SuperGrok Heavy
其他:🔥【原创长文】全网最全,中美AI相关社区汇总【长期更新】
其他:【原创长文】不要被官方参数骗了,各大模型实际长文输出能力测试研究【长期更新】
其他:【原创长文】Gemini-2.5-flash做沉浸式翻译的研究
其他:❓【ChatGPT】Sora画图 vs 4o画图,有什么区别,你知道吗?
其他:🔥【原创长文】关于免费和包月限量,你想知道的一切:ChatGPT Deep research限量翻倍【250518底楼更新】
其他:AI梗图大全,总有一张让你大笑☺,250410更新Llama梗图在底部【长期更新】


最后发几张梗图,祝大家愉快地玩耍GPT5

我下句台词是啥来的?


开发布会前:报告老板,我们已经用GPT5给发布会图片检查过,绝对没问题



我们是草台班子,简称"我草"



GPT遥遥领先!(在版本号方面)


77 个赞

正在更新中

太快了!

1 个赞

pro都才128k?!?!?1 openai去SPA

4 个赞

原来佬发布这么多原创贴,关注了 :smiling_face_with_three_hearts:

1 个赞

已进入官网的GPT5内测页面 大家有什么想问的尽管问

1 个赞

加入ARC-AGI-2评分 250808 04:41


来源:ARC Prize - Leaderboard

Poe上有了

1 个赞

佬友总结真的很详细

openai真是万恶之源,这玩意比降智还可怕。
其他公司都在想办法开源,open。
openai确在想办法把自己的真实模型越藏越深。
这边建议openai改名open router,欸,不对,应该是close router :sweat_smile:

20 个赞

感谢总结

可以加上 官网免费用户 plus用户 pro用户的用量额度吗

1 个赞

本来就降智,这下好了,你现在连你用的模型都不知道是什么,你就更不知道有没有被偷偷摸摸降智了

2 个赞

召唤始皇端上oaipro

5真是一股R1味 :rofl:

1 个赞

还是得看疗效啊。

这byd头像看起来真瘆人

本来路由这想法挺不错的,但是结合 close ai 的习惯很难不让人觉得坑

livebench分数也出来了,livebench的gpt5编程跑分完全拉了,编程分数甚至不如r1,和v3 0324同分

1 个赞

之前不是由爆料帖子老强了嘛,咋又这么拉了