时隔1年,倒反天罡 Cluade s4.5/Gemini 3.0P/GPT 5.1 high 御三家使用感受

NoahChaos · 2025 年11 月 23 日 14:37

这是今年年初的时候，我对于3款我主力模型的使用感受。

说说目前的感受。

Claude s4.5

文笔方面
文笔3家里面还是最好，简洁+说人话，有别于3.5的吐字如金，现在的4.5的输出说是“腹泻式”，平均一个问题回复字数14000+ ，每次回复都至少截断一次,用它的时候和用Gemini是相反的,害怕账单爆炸。

推理方面
长文本注意力还行，偶尔会有幻觉张冠李戴，逻辑分析都不错，嘴巴很毒，一针见血，容易发现细节问题，这点非常不错。

数据分析
由于不会调用工具，基本就是一坨，错误百出。

其他评价
由于我不写代码不搞科研，数学和代码能力未知，唯一的缺点就是API贵，官网折腾+吝啬，多模态图片识别能力一坨。

Gemini 3P

文笔方面
文笔能力强于GPT5.1，弱于Claude4.5，喜欢啰嗦的修饰词成语一大堆,看多了审美疲劳。然后怎么也令人没想到的是，Cluade3.5的吐字如金的毛病给学来了，从Gemini 2P一次吐字5000+,到2.5P一次吐字3000+,到3P一次吐字1800+，越来越懒越来越懒，什么提示词也救不了。
这货现在的输出风格和字数,和Opus4.1非常像,导致了我无法区分它们的回答。

推理方面
长文本注意力，逻辑分析和Claude差不多，但太舔狗了，基本都顺着你说，加上不喜欢细说的懒癌，导致了分析结论的价值比小克低很多。

数据分析
一样不会调用工具，但大力出奇迹，比小克强点，但数据量一大照样翻车，不堪大用。

优点总结
优点是API便宜、多模态图片能力第一，知识库广度第一（我公司的一个小品牌，竟然不给参考图，能输出完整logo）,上下文超长(但是它现在的懒癌,把这个价值弱化了)。

GPT5.1

文笔方面
文笔能力相比o3和5有不少提升,但还是有强烈的“AI在学着人类的语气说话的那种违和感”,感受不到上面2个有和真人对话的感觉。输出每次3000+字,不多不少,属于我觉得最合适的字数。

推理方面
长文本注意力很强，记忆中没出现过张冠李戴的幻觉，逻辑分析理论上是最强的，但GPT有个坏毛病，就是道德和风险底线都很高，所有事情都要走正规法律流程，灰产中间选项一律不采纳，不符合现实社会办事逻辑，就导致了分析问题还行,建议不如以上小克和哈基米。

数据分析
会调用Python写代码分析，准确性很高，最放心的就是任务交给它。

综合评价
API不便宜，但是能搞定IP的话官网爽用,体验极佳，多模态能力很不错（可能比Gemini 3P稍微差一丢丢），综合来说属于最水桶的。

最后还是问佬友一下，哈基米3P的懒癌还有救吗?

earmer · 2025 年11 月 23 日 14:38

不敢苟同，现在这B玩意的有效上下文只有32K，稀疏的上下文不怎么能用。

earmer · 2025 年11 月 23 日 14:39

救不了一点，命令让它输出长一点会疯狂注水

NoahChaos · 2025 年11 月 23 日 14:40

我是指1M内不会报错,有效上下文我还没特别大的心得,有那么差吗

earmer · 2025 年11 月 23 日 14:42

有的有的。

看我的这个帖子下的讨论。

以及：

我在这个问题下的回答。

earmer · 2025 年11 月 23 日 14:43

佬能不能试一试Haiku？听说这小东西挺别致，快而且还能用。

martie.m.wang · 2025 年11 月 23 日 14:45

佬，用的API吗？我用官网，可以直接读取Excel表做简单的统计学分析了。claude sonnet4.5和GPT 5.1thinking都能直接分析数据了

NoahChaos · 2025 年11 月 23 日 15:01

是的，官网老被封，我都是10wToken的对话一句话就满了，用的都是富可敌国的API

NoahChaos · 2025 年11 月 23 日 15:02

是嘛，我处理任务的时候一起测试一下，过几天给结果

earmer · 2025 年11 月 23 日 15:04

我已经测了一下新发的几个小模型的表现了，回头写篇帖子说一说。

zhongruan · 2025 年11 月 23 日 17:03

针对逆向的话，GPT是最便宜的…GeminiCli还要考虑账户403，Team现在随便逆向，正常API用微软AZ的，也没GCP的贵

6868888 · 2025 年11 月 23 日 17:18

sonnet就一个缺点，1m上下文不开放，哪怕彻底开放，用总额度中的token消耗倍率来抵扣，其它ai压力还是不够大，没到开放时候

Drlinuxdo · 2025 年11 月 23 日 17:19

claude写作文输出的字数很多，正常的分析问题或普通回答时依然是惜字如金啊，能缩进10个字的绝对不会再多说一句解释举例。搞得我经常分不清楚claude到底有没有思考，这么短的答案到底完不完整。
另外gemini的恭维问题的确非常头疼，我问问题基本都是因为我自己也不知道对不对，结果他全顺着我说，2.5pro的时候我被彻底搞红温，气到glm4.6出来了才又开始找AI问问题。现在3p了，让他写了个客观分析的提示词，勉强能反驳我的意见了。
glm4.6：我基本当作claude的平替，文风很像，没有gemini味（gemini跟旧R1一样味特冲）

GPT：……我问10个问题9.5个不给回答，所以我根本不用

NoahChaos · 2025 年11 月 23 日 17:21

GPT逆向容易降智。。。，其他家要降智也是普遍现象,不会因为IP降智,因为我是企业用的，稳定性很重要，要保证100%不降智。

NoahChaos · 2025 年11 月 23 日 17:23

佬你问的都是什么法外之徒问题

zhongruan · 2025 年11 月 23 日 17:23

codexcli和官网不一样吧，我用中转和自己的逆向的感觉智商没变化，除非云端，之前也看到个老说cli不受ip影响智商

NoahChaos · 2025 年11 月 23 日 17:25

哦哦,逆向自己的号,我不会弄,都是用官转API,codeX最大的问题逆向出来的不会排版,一大堆文字像代码一样看着累。。。

zhongruan · 2025 年11 月 23 日 17:26

排班是通病了，我也是服了，GPT5开始，甚至有的代码一行写完，就为了帮我省那点token，后面再系统提示词说了才好一丢丢

Drlinuxdo · 2025 年11 月 23 日 17:28

问的都是一些现实里不存在的问题，比如“假如……，那么……”、“假设……，分析……”、“如果……，那么推演……”。都是些正常问题，但要么要求不遵守现代社会道德（比如问题背景在古代、虚构世界观），要么问题本身的部分要素会直接违背现代社会的观念（但claude都没哈气，只有gpt会发颠）。
总之即便我真的没问什么违法或色情/暴力的问题，但gpt总是撞上各种奇奇怪怪的道德观念方面的甲

a192212595 · 2025 年11 月 23 日 17:33

RLHF训练过猛了吧，看到A.A直接条件反射…
prompt不知道还能不能点醒
GPT我猜差不多这个思路，模型本身有一点脾气，了解这点就好搞
claude有些词汇，严打。找一个近义词，直接效果挺好

话题		回复	浏览量
感觉对于大多数人，GPT-5是最失败的一代，对于我来说GPT-5.2也许是GPT-5系列中最失败的一个版本搞七捻三人工智能	54	1510	2025 年12 月 15 日
大家对于gemini3和Claude出opus4.5，还有GPT 5.1怎么评价？搞七捻三人工智能 , 纯水	57	1434	2026 年2 月 20 日
盘点各个领域的最强AI，纯属个人观点搞七捻三人工智能 , 纯水	50	1428	2025 年12 月 18 日
GPT5.2 VS Gemini 3.0 大佬们谈谈看法搞七捻三快问快答	48	1030	2025 年12 月 29 日
选择 ChatGPT（GPT-4o、o3……）还是 Gemini（Gemini 2.5 Pro Preview）？一些个人看法及体验搞七捻三 ChatGPT , Gemini , 人工智能	46	3495	2025 年6 月 11 日

时隔1年,倒反天罡 Cluade s4.5/Gemini 3.0P/GPT 5.1 high 御三家使用感受

Claude s4.5

Gemini 3P

GPT5.1

相关话题