时隔1年,倒反天罡 Cluade s4.5/Gemini 3.0P/GPT 5.1 high 御三家使用感受

这是今年年初的时候,我对于3款我主力模型的使用感受。


说说目前的感受。

:purple_circle: Claude s4.5

:memo: 文笔方面
文笔3家里面还是最好,简洁+说人话,有别于3.5的吐字如金,现在的4.5的输出说是“腹泻式”,平均一个问题回复字数14000+ :distorted_face:,每次回复都至少截断一次,用它的时候和用Gemini是相反的,害怕账单爆炸 :sob:

:brain: 推理方面
长文本注意力还行,偶尔会有幻觉张冠李戴,逻辑分析都不错,嘴巴很毒,一针见血,容易发现细节问题,这点非常不错 :smiling_face_with_three_hearts:

:bar_chart: 数据分析
由于不会调用工具,基本就是一坨,错误百出 :distorted_face:

:gear: 其他评价
由于我不写代码不搞科研,数学和代码能力未知,唯一的缺点就是API贵 :weary_face:,官网折腾+吝啬,多模态图片识别能力一坨。


:blue_circle: Gemini 3P

:memo: 文笔方面
文笔能力强于GPT5.1,弱于Claude4.5,喜欢啰嗦的修饰词成语一大堆,看多了审美疲劳 :weary_face:。然后怎么也令人没想到的是,Cluade3.5的吐字如金的毛病给学来了 :upside_down_face:,从Gemini 2P一次吐字5000+,到2.5P一次吐字3000+,到3P一次吐字1800+,越来越懒越来越懒,什么提示词也救不了 :face_with_bags_under_eyes:
这货现在的输出风格和字数,和Opus4.1非常像,导致了我无法区分它们的回答。

:brain: 推理方面
长文本注意力,逻辑分析和Claude差不多,但太舔狗了 :hot_face:,基本都顺着你说,加上不喜欢细说的懒癌,导致了分析结论的价值比小克低很多。

:bar_chart: 数据分析
一样不会调用工具,但大力出奇迹,比小克强点,但数据量一大照样翻车,不堪大用 :face_with_bags_under_eyes:

:glowing_star: 优点总结
优点是API便宜、多模态图片能力第一,知识库广度第一(我公司的一个小品牌,竟然不给参考图,能输出完整logo),上下文超长(但是它现在的懒癌,把这个价值弱化了)。


:green_circle: GPT5.1

:memo: 文笔方面
文笔能力相比o3和5有不少提升,但还是有强烈的“AI在学着人类的语气说话的那种违和感”,感受不到上面2个有和真人对话的感觉。输出每次3000+字,不多不少,属于我觉得最合适的字数 :innocent:

:brain: 推理方面
长文本注意力很强,记忆中没出现过张冠李戴的幻觉,逻辑分析理论上是最强的 :face_savoring_food:,但GPT有个坏毛病,就是道德和风险底线都很高,所有事情都要走正规法律流程,灰产中间选项一律不采纳,不符合现实社会办事逻辑 :face_with_bags_under_eyes:,就导致了分析问题还行,建议不如以上小克和哈基米。

:bar_chart: 数据分析
会调用Python写代码分析,准确性很高,最放心的就是任务交给它。

:balance_scale: 综合评价
API不便宜,但是能搞定IP的话官网爽用,体验极佳,多模态能力很不错(可能比Gemini 3P稍微差一丢丢),综合来说属于最水桶的。


:distorted_face:最后还是问佬友一下,哈基米3P的懒癌还有救吗?

15 个赞

不敢苟同,现在这B玩意的有效上下文只有32K,稀疏的上下文不怎么能用。

1 个赞

救不了一点,命令让它输出长一点会疯狂注水

我是指1M内不会报错,有效上下文我还没特别大的心得,有那么差吗 :distorted_face:

1 个赞

有的有的。

看我的这个帖子下的讨论。

以及:

我在这个问题下的回答。

1 个赞

佬能不能试一试Haiku?听说这小东西挺别致,快而且还能用。

佬,用的API吗?我用官网,可以直接读取Excel表做简单的统计学分析了。claude sonnet4.5和GPT 5.1thinking都能直接分析数据了

是的,官网老被封,我都是10wToken的对话一句话就满了 :weary_face:,用的都是富可敌国的API

1 个赞

是嘛,我处理任务的时候一起测试一下,过几天给结果

我已经测了一下新发的几个小模型的表现了,回头写篇帖子说一说。

1 个赞

针对逆向的话,GPT是最便宜的…GeminiCli还要考虑账户403,Team现在随便逆向,正常API用微软AZ的,也没GCP的贵

1 个赞

sonnet就一个缺点,1m上下文不开放,哪怕彻底开放,用总额度中的token消耗倍率来抵扣,其它ai压力还是不够大,没到开放时候

2 个赞

claude写作文输出的字数很多,正常的分析问题或普通回答时依然是惜字如金啊,能缩进10个字的绝对不会再多说一句解释举例。搞得我经常分不清楚claude到底有没有思考,这么短的答案到底完不完整。
另外gemini的恭维问题的确非常头疼,我问问题基本都是因为我自己也不知道对不对,结果他全顺着我说,2.5pro的时候我被彻底搞红温,气到glm4.6出来了才又开始找AI问问题。现在3p了,让他写了个客观分析的提示词,勉强能反驳我的意见了。
glm4.6: 我基本当作claude的平替,文风很像,没有gemini味(gemini跟旧R1一样味特冲)

GPT:……我问10个问题9.5个不给回答,所以我根本不用

GPT逆向容易降智 :weary_face:。。。,其他家要降智也是普遍现象,不会因为IP降智,因为我是企业用的,稳定性很重要,要保证100%不降智。

佬你问的都是什么法外之徒问题 :rofl:

codexcli和官网不一样吧,我用中转和自己的逆向的感觉智商没变化,除非云端,之前也看到个老说cli不受ip影响智商

哦哦,逆向自己的号,我不会弄,都是用官转API,codeX最大的问题逆向出来的不会排版,一大堆文字像代码一样看着累 :weary_face:。。。

排班是通病了,我也是服了,GPT5开始,甚至有的代码一行写完,就为了帮我省那点token,后面再系统提示词说了才好一丢丢

1 个赞

问的都是一些现实里不存在的问题,比如“假如……,那么……”、“假设……,分析……”、“如果……,那么推演……”。都是些正常问题,但要么要求不遵守现代社会道德(比如问题背景在古代、虚构世界观),要么问题本身的部分要素会直接违背现代社会的观念(但claude都没哈气,只有gpt会发颠)。
总之即便我真的没问什么违法或色情/暴力的问题,但gpt总是撞上各种奇奇怪怪的道德观念方面的甲

1 个赞

RLHF训练过猛了吧,看到A.A直接条件反射…
prompt不知道还能不能点醒 :sweat_smile:
GPT我猜差不多这个思路,模型本身有一点脾气,了解这点就好搞
claude有些词汇,严打。找一个近义词,直接效果挺好 :smiling_face_with_three_hearts: