这是今年年初的时候,我对于3款我主力模型的使用感受。
说说目前的感受。
Claude s4.5
文笔方面
文笔3家里面还是最好,简洁+说人话,有别于3.5的吐字如金,现在的4.5的输出说是“腹泻式”,平均一个问题回复字数14000+
,每次回复都至少截断一次,用它的时候和用Gemini是相反的,害怕账单爆炸
。
推理方面
长文本注意力还行,偶尔会有幻觉张冠李戴,逻辑分析都不错,嘴巴很毒,一针见血,容易发现细节问题,这点非常不错
。
数据分析
由于不会调用工具,基本就是一坨,错误百出
。
其他评价
由于我不写代码不搞科研,数学和代码能力未知,唯一的缺点就是API贵
,官网折腾+吝啬,多模态图片识别能力一坨。
Gemini 3P
文笔方面
文笔能力强于GPT5.1,弱于Claude4.5,喜欢啰嗦的修饰词成语一大堆,看多了审美疲劳
。然后怎么也令人没想到的是,Cluade3.5的吐字如金的毛病给学来了
,从Gemini 2P一次吐字5000+,到2.5P一次吐字3000+,到3P一次吐字1800+,越来越懒越来越懒,什么提示词也救不了
。
这货现在的输出风格和字数,和Opus4.1非常像,导致了我无法区分它们的回答。
推理方面
长文本注意力,逻辑分析和Claude差不多,但太舔狗了
,基本都顺着你说,加上不喜欢细说的懒癌,导致了分析结论的价值比小克低很多。
数据分析
一样不会调用工具,但大力出奇迹,比小克强点,但数据量一大照样翻车,不堪大用
。
优点总结
优点是API便宜、多模态图片能力第一,知识库广度第一(我公司的一个小品牌,竟然不给参考图,能输出完整logo),上下文超长(但是它现在的懒癌,把这个价值弱化了)。
GPT5.1
文笔方面
文笔能力相比o3和5有不少提升,但还是有强烈的“AI在学着人类的语气说话的那种违和感”,感受不到上面2个有和真人对话的感觉。输出每次3000+字,不多不少,属于我觉得最合适的字数
。
推理方面
长文本注意力很强,记忆中没出现过张冠李戴的幻觉,逻辑分析理论上是最强的
,但GPT有个坏毛病,就是道德和风险底线都很高,所有事情都要走正规法律流程,灰产中间选项一律不采纳,不符合现实社会办事逻辑
,就导致了分析问题还行,建议不如以上小克和哈基米。
数据分析
会调用Python写代码分析,准确性很高,最放心的就是任务交给它。
综合评价
API不便宜,但是能搞定IP的话官网爽用,体验极佳,多模态能力很不错(可能比Gemini 3P稍微差一丢丢),综合来说属于最水桶的。
最后还是问佬友一下,哈基米3P的懒癌还有救吗?
