实际事件，感觉现在的Gemini2.5Pro某些任务上智商不如GPT-4o

NoahChaos · 2025 年6 月 1 日 17:32

今天问一个公司财务问题，会计给我的表中有一笔应收账款科目，我始终没看明白，在AI Stduio中和Gemini 2.5Pro至少绕了3w token，都没给我说明白，越绕越迷糊。
无奈之下，打开GPT(Web)，抱着尝试的心理选了4o（心里想着不行马上准备切o3），没想到一下子就给我点出来了，【因为视角问题】，财务不知道这个2个公司是你们内部流转的，所以以【财务视角】当成一个外部公司做的。而你是以【老板视角】在知道这个公司是内部流转的前提下，看不懂财务的账。
可以说分析能力惊为天人，回答问题结构性也更强，更能猜出我想要什么，除了上下文比较短之外，我更喜欢用GPT-4o，不知道是否和记忆功能有关，GPT知道我的一些背景，比如职位、工作内容、公司的一些基本状况，导致了Gemini 2.5Pro的话又臭又长，我看不下去5秒，而GPT-4o我就很容易和它聊下去。

PS：老板视角只是一种形容，我不是老板，只是股东。

一个问题直接点出了核心问题，惊到我了，没有这次对比前，我只是觉得"比较喜欢问4o"

lie5860 · 2025 年6 月 1 日 17:36

gpt家的版本号不是很能理解。gemini 就1.5 2.0 2.5,flash就差一点 pro就强很多。anthropic的就3.5 3.7 sonnet就差一点 opus就厉害一点。openai之前就 3.5 4 还简单一些。现在4o o3这样的。。现在openai应该是o3最厉害哦?

NoahChaos · 2025 年6 月 1 日 17:40

是的，o3在我工作领域内（不写代码，不做数学题），基本都是复杂逻辑和推理问题，o3独当一面的强。

ne555 · 2025 年6 月 1 日 17:42

chatgpt的记忆功能我觉得确实非常棒，避免了每次新开chat需要重新赘述个人背景的麻烦

marre · 2025 年6 月 1 日 17:43

怎么说呢带o开头的是think模型，可以说是思维数学专精这方面，目前是o3最强了
普通的GPT正代也就是日常用
现在新的Codex也就是写代码用。

我记得之前有佬友总结过OAI的整个产品线，只能说大手抓的有点多，分的有点细了

marre · 2025 年6 月 1 日 17:44

感觉Gemini和Claude对于编程来说还是比较强的
OAI毕竟是先吃螃蟹的，普通日常/逻辑问题这方面还是说得过去的~

Cosmosurfer · 2025 年6 月 1 日 17:48

Gemini 2.5 pro太喜欢用其他国家的语言来回答问题了哪怕是用中文提问的

heihaha001 · 2025 年6 月 1 日 17:48

不应该是直接问财务吗？

lccong · 2025 年6 月 1 日 17:55

请问用了什么提示词？挺好看的

NoahChaos · 2025 年6 月 1 日 18:34

什么提示词也没有用，直接问的问题，这也是我比较喜欢web 4o的理由。。

NoahChaos · 2025 年6 月 1 日 18:34

我的权限目前还不太方便问财务

Caomo1988 · 2025 年6 月 1 日 18:49

这是2.0时代的历史遗留问题.OUO

Cosmosurfer · 2025 年6 月 1 日 18:49

其实是Bard时期就这样了

Caomo1988 · 2025 年6 月 1 日 18:50

主要是谷歌语料库太庞大了.没办法,有时候富裕也是一种错.

Fangmumu666 · 2025 年6 月 1 日 18:58

Gemini 2.5 pro就是这样，有时候和它说话很累，要说的很详细，他才能听懂，我有时会觉得在和zz说话，所以大部分时候我都用的4o，难的用o3

zone · 2025 年6 月 1 日 19:11

大小姐！

zhong_little · 2025 年6 月 1 日 20:09

本来就没有六边形战士

Throttle · 2025 年6 月 2 日 00:53

OpenAI还是有实力的

Keyi66 · 2025 年6 月 2 日 01:06

只要它不降智，那就好说

handsome · 2025 年6 月 2 日 01:26

不会吧，4o

话题		回复	浏览量
大佬们，Grok3使用体验怎么样搞七捻三人工智能 , 快问快答 , 纯水	63	1697	2025 年4 月 19 日
选择 ChatGPT（GPT-4o、o3……）还是 Gemini（Gemini 2.5 Pro Preview）？一些个人看法及体验搞七捻三 ChatGPT , Gemini , 人工智能	46	3495	2025 年6 月 11 日
大模型哪家强？佬友们平时怎么用？开发调优人工智能	53	947	2025 年7 月 9 日
站里有这么多佬友分享公益AI，有必要上一个Github copilot吗？开发调优 ChatGPT , Copilot , 人工智能 , 快问快答	38	2552	2024 年11 月 21 日
为什么我用下来发现chatgpt-4o-latest是最强的开发调优人工智能	48	1353	2025 年5 月 29 日

实际事件，感觉现在的Gemini2.5Pro某些任务上智商不如GPT-4o

相关话题