实际事件,感觉现在的Gemini2.5Pro某些任务上智商不如GPT-4o

今天问一个公司财务问题,会计给我的表中有一笔应收账款科目,我始终没看明白,在AI Stduio中 和Gemini 2.5Pro至少绕了3w token,都没给我说明白,越绕越迷糊。
无奈之下,打开GPT(Web),抱着尝试的心理选了4o(心里想着不行马上准备切o3),没想到一下子就给我点出来了,【因为视角问题】,财务不知道这个2个公司是你们内部流转的,所以以【财务视角】当成一个外部公司做的。而你是以【老板视角】在知道这个公司是内部流转的前提下,看不懂财务的账。
可以说分析能力惊为天人,回答问题结构性也更强,更能猜出我想要什么,除了上下文比较短之外,我更喜欢用GPT-4o,不知道是否和记忆功能有关,GPT知道我的一些背景,比如职位、工作内容、公司的一些基本状况,导致了Gemini 2.5Pro的话又臭又长,我看不下去5秒,而GPT-4o我就很容易和它聊下去。

PS:老板视角只是一种形容,我不是老板,只是股东。

一个问题直接点出了核心问题,惊到我了,没有这次对比前,我只是觉得"比较喜欢问4o"

14 个赞

gpt家的版本号不是很能理解。gemini 就1.5 2.0 2.5,flash就差一点 pro就强很多。anthropic的就3.5 3.7 sonnet就差一点 opus就厉害一点。openai之前就 3.5 4 还简单一些。现在4o o3这样的。。现在openai应该是o3最厉害哦?

2 个赞

是的,o3在我工作领域内(不写代码,不做数学题),基本都是复杂逻辑和推理问题,o3独当一面的强。

chatgpt的记忆功能我觉得确实非常棒,避免了每次新开chat需要重新赘述个人背景的麻烦

怎么说呢 带o开头的是think模型,可以说是思维数学专精这方面,目前是o3最强了
普通的GPT正代也就是日常用
现在新的Codex也就是写代码用。

我记得之前有佬友总结过OAI的整个产品线,只能说大手抓的有点多,分的有点细了

1 个赞

感觉Gemini和Claude对于编程来说还是比较强的
OAI毕竟是先吃螃蟹的,普通日常/逻辑问题这方面还是说得过去的~

Gemini 2.5 pro太喜欢用其他国家的语言来回答问题了 哪怕是用中文提问的

不应该是直接问财务吗?

请问用了什么提示词?挺好看的

什么提示词也没有用,直接问的问题,这也是我比较喜欢web 4o的理由。。

我的权限目前还不太方便问财务 :face_holding_back_tears:

1 个赞

这是2.0时代的历史遗留问题.OUO

其实是Bard时期就这样了 :rofl:

1 个赞

主要是谷歌语料库太庞大了.没办法,有时候富裕也是一种错.

1 个赞

Gemini 2.5 pro就是这样,有时候和它说话很累,要说的很详细,他才能听懂,我有时会觉得在和zz说话,所以大部分时候我都用的4o,难的用o3

1 个赞

大小姐!

1 个赞

本来就没有六边形战士

OpenAI还是有实力的

只要它不降智,那就好说

不会吧,4o

1 个赞