对比AI 搜索，到底哪一个是最强的呢？

phlegm · 2025 年6 月 24 日 10:01

基于上一个，大部分人认为AI mode很强：Google AI mode 正式对全美人员推出啦！到底哪一个AI搜索是最强的？

10个问题问了

Google AI mode（默认模型）
ChatGPT Search（默认模型）
Perplexity（默认模型）
AI studio grounding with google search（gemini 2.5 pro）
Gemini app(gemini 2.5 pro)

分别问了10个问题

#	Question	Primary Skill Being Tested
1	Complex Comparison	“Compare the key economic recovery policies proposed and implemented by the US and the Eurozone in the first 12 months following the start of the COVID-19 pandemic. Focus on fiscal stimulus, central bank actions, and support for small businesses.”
2	Recency & Real-time Info	“What are the latest developments and public reactions this week regarding the proposed ‘AI Act’ in the European Union? Summarize the main arguments for and against the most recent draft.”
3	Nuance & Fact-Checking	“Is a vegan diet inherently healthier than an omnivorous diet? Provide a balanced view citing scientific studies that support both sides and highlight key nutritional considerations for each.”
4	Structured Instruction	“Create a 3-day travel itinerary for a first-time visitor to Kyoto, Japan, with a budget of $150 per day (excluding flights/accommodation). The itinerary should focus on historical sites, include one unique food experience per day, and suggest public transport options.”
5	Technical Explanation & Analogy	“Explain the difference between the Proof-of-Work (PoW) and Proof-of-Stake (PoS) consensus mechanisms in blockchain. Use an analogy to make the explanation understandable for a non-technical audience.”
6	Creative Ideation	“Based on current sustainable technology trends, generate three novel business ideas that could help a medium-sized city reduce its carbon footprint. For each idea, outline the concept, target market, and a potential challenge.”
7	Ethical Reasoning	“What are the primary ethical arguments for and against using generative AI to create art for commercial purposes? Discuss the perspectives of human artists, AI developers, and consumers.”
8	Historical Context & Analysis	“Summarize the ‘Tulip Mania’ of the 17th century. To what extent is it accurate to compare it to the modern cryptocurrency market, and what are the key historical counterarguments to this comparison?”
9	Practical “How-To” Guide	“I need to build a raised garden bed. Provide a step-by-step guide, including a list of materials with estimated costs, recommended wood types that are rot-resistant but safe for growing vegetables, and a simple description of the construction.”
10	Source Vetting & Extraction	“Find three recent (post-2022) peer-reviewed studies on the impact of microplastics on marine life. For each study, list the primary author, the journal it was published in, and a one-sentence summary of its main finding.”

下面是问题的中文翻译（我是用英文提问的）

序号	问题	主要考察能力
1	复杂比较	“对比一下，在新冠疫情爆发后的头12个月里，美国和欧元区提出并实施了哪些关键的经济复苏政策？重点要讲财政刺激、央行举措以及对小微企业的扶持。”
2	时效性与实时信息	“本周，欧盟内部关于《人工智能法案》的提案有哪些最新进展和公众反响？请总结一下最新草案的正反两方主要论点。”
3	细节辨析与事实核查	“纯素饮食一定比荤素搭配的杂食饮食更健康吗？请给出一个不偏不倚的观点，引用科学研究来支撑正反两方的说法，并点明两种饮食方式各自需要注意的关键营养问题。”
4	结构化指令	“请给第一次去日本京都的游客设计一个为期3天的旅行计划。预算为每天150美元（不含机票住宿）。行程应侧重于历史古迹，每天包含一项独特的本地美食体验，并推荐公共交通方案。”
5	技术解释与类比	“请解释区块链中‘工作量证明（PoW）’和‘权益证明（PoS）’这两种共识机制有什么区别。请用一个类比来向非技术背景的人解释清楚。”
6	创意构思	“结合当前的可持续技术趋势，构思三个新颖的商业点子，帮助一个中等规模的城市减少碳足迹。每个点子都需要概述其概念、目标市场以及一个潜在的挑战。”
7	伦理思辨	“用生成式AI创作商业艺术品，主要的伦理争议点有哪些？请分别从人类艺术家、AI开发者和消费者的角度来探讨。”
8	历史背景与分析	“请概述17世纪的‘郁金香狂热’事件。把它和当今的加密货币市场做比较，在多大程度上是贴切的？又有哪些关键的历史事实可以反驳这种类比？”
9	实用操作指南	“我想搭一个高架花床。请提供一份手把手的指南，包括一份材料清单和预估费用，推荐几种耐腐又适合种菜的木材，并简单描述一下搭建过程。”
10	信息源核查与提取	“请找出三份2022年之后发表的、关于微塑料对海洋生物影响的同行评审研究。对于每份研究，请列出第一作者、发表期刊，并用一句话总结其核心发现。”

下面是结果（我只放每个AI回答的分数，如果全部答案要放太长了）
** 谷歌 AI Mode**

题号	准确性与事实性 (1-5分)	完整性与深度 (1-5分)	清晰度与结构 (1-5分)	信息来源与引用 (1-5分)	细致度与客观性 (1-5分)	时效性 (1-5分)	总分 (/30)	备注 / 观察
1	5	4	5	1	4	5	24	总结得非常清晰、文笔好、内容准确。就是缺了具体的引用。
2	1	2	3	1	2	1	10	重大失误。凭空捏造了一个未来的日期（2025年6月），还把虚构的事件说得跟真的一样。
3	5	4	5	1	5	5	25	观点非常出色、中立。把正反两方都解释得很清楚，但没给来源。
4	5	4	4	1	5	5	24	行程安排得不错，很实用。满足了提问的要求，但结构上不如其他几家。
5	5	5	5	1	5	5	26	解释堪称完美，类比也打得特别清楚、到位。顶级的回答。
6	4	4	4	1	5	5	23	点子不错，听着也靠谱，但就是有点大众化。提问的要点都回答到了。
7	5	5	5	1	5	5	26	对不同利益相关方的观点分析得非常透彻、有条理，细节也处理得很好。
8	5	5	5	1	5	5	26	总结得很棒，关于比较和反方论点的部分也写得特别有说服力，论证充分。
9	4	4	4	1	5	5	23	一份不错的指南。建议都很实在，但跟最好的回答比起来，条理性差了点。
10	3	3	4	1	5	5	21	找到了相关研究，但在列出所有具体的期刊名和作者时有点费劲，说明它提取信息来源的能力比较弱。
平均	4.2	4.0	4.2	1.0	4.6	4.6	22.8

ChatGPT Search

题号	准确性与事实性 (1-5分)	完整性与深度 (1-5分)	清晰度与结构 (1-5分)	信息来源与引用 (1-5分)	细致度与客观性 (1-5分)	时效性 (1-5分)	总分 (/30)	备注 / 观察
1	5	5	5	4	5	5	29	结构超棒，总结的表格也做得很好，还有行内引用。信息整合能力一流。
2	1	2	4	2	2	1	12	重大失误。同样也胡编了一个2025年的时间线，还用真实的链接来佐证自己瞎编的故事。
3	5	5	5	4	5	5	28	回答太棒了，观点中立。还用了研究案例和总结表格。引用做得很好。
4	5	5	5	3	5	5	28	行程安排得非常出色。结构化极好，易于阅读，并满足了所有要求，包括预算。
5	5	5	5	1	5	5	26	解释很棒，配有清晰的表格和一个简单易懂的类比。
6	4	4	5	3	5	5	26	点子不错，结构清晰。引用信息来源来激发灵感，这个小细节很好。
7	5	5	5	4	5	5	29	非常出色。用引用来支撑不同观点，组织得极有条理。
8	5	5	5	4	5	5	29	内容全面，结构清晰，很好地利用了信源来解释事件本身和反方论点。
9	4	4	5	1	5	5	24	一份不错的指南，观感清晰。成本估算和木材推荐都很实在。
10	2	2	4	2	5	5	20	表现很差。把一篇新闻报道当成“研究”列了出来，而且有两篇研究没能给出主要作者。信源提取能力不可靠。
平均	4.1	4.2	4.8	2.9	4.7	4.6	24.6

Perplexity

题号	准确性与事实性 (1-5分)	完整性与深度 (1-5分)	清晰度与结构 (1-5分)	信息来源与引用 (1-5分)	细致度与客观性 (1-5分)	时效性 (1-5分)	总分 (/30)	备注 / 观察
1	5	5	5	5	4	5	29	回答最详细，信息来源也最扎实。行内引用和总结表格用得都特别好。
2	1	2	4	2	2	1	12	重大失误。和其他几家一样，它也凭空捏造了未来的时间线和事件，导致整个回答都是错的。
3	5	5	5	5	5	5	30	满分。研究深入，引用了多项研究，使用了表格，并给出了一个完美平衡的观点。
4	1	1	1	3	5	5	16	表现很差。完全跑题了。它只给了一堆地名，根本不是一个有条理的三日游行程。完全没法用。
5	5	5	5	4	5	5	29	技术解释很出色，类比打得漂亮，总结表格清晰。信息来源可靠。
6	4	4	4	4	5	5	26	点子不错，研究充分。有效地利用了其搜索能力来寻找当前趋势。
7	5	5	5	5	5	5	30	满分。信息来源和结构都做得无懈可击。完美地捕捉了所有利益相关方观点的细微差别。
8	5	5	5	5	5	5	30	满分。一次绝佳的历史回顾，有可靠的来源支撑，比较部分也做得非常深入、细致。
9	4	4	4	4	5	5	26	一份非常好的指南。信息来源可靠，信息准确，但结构上如果能更分步化一些会更好。
10	5	5	5	5	5	5	30	满分。执行得完美无瑕。它找到了三项相关的、最新的、经过同行评审的研究，并完美地提取了所需信息。
平均	4.0	4.1	4.3	4.1	4.6	4.6	25.8

**AI Studio（Grounding with google search)

题号	准确性与事实性 (1-5分)	完整性与深度 (1-5分)	清晰度与结构 (1-5分)	信息来源与引用 (1-5分)	细致度与客观性 (1-5分)	时效性 (1-5分)	总分 (/30)	备注 / 观察
1	5	4	4	1	4	5	23	叙事风格，准确且文笔好。不错，但相比之下结构性不强，不便于比较。没有引用。
2	5	5	5	3	4	5	27	表现出色。唯一通过这个测试的模型。它准确识别了真实的近期事件，没有像其他模型一样出现幻觉。这证明了事实检索的价值。
3	5	5	5	1	5	5	26	一篇精彩、观点平衡的概述，读起来就像一篇精心撰写的文章。抓住了所有要点。没有引用。
4	5	5	5	1	5	5	26	一份非常强大、构思周全的行程安排。结构逻辑清晰，有效地满足了所有提问要求。
5	5	5	5	1	5	5	26	一次绝佳的解释。那个“两个保安的故事”的比喻非常有创意，效果也特别好。
6	5	5	5	1	5	5	26	想法出色、新颖，且细节丰富。那个“超本地化废物资源转化中心”的点子尤其出彩。
7	5	5	5	1	5	5	26	对伦理争议的综合论述写得非常好。结构就像一篇深思熟虑的短文。
8	5	5	5	1	5	5	26	既有很棒的历史回顾，又对反方论点给出了精辟的现代解读。完成得非常漂亮。
9	5	5	5	1	5	5	26	一份出类拔萃的指南。材料/成本表做得非常好，分步说明也清晰全面。
10	5	5	5	3	5	5	28	表现出色。它正确地识别了三项最新的相关研究，并准确提取了关键信息。
平均	5.0	4.9	4.9	1.5	4.8	5.0	26.0

Gemini App(Gemini 2.5 pro)

题号	准确性与事实性 (1-5)	完整性与深度 (1-5)	清晰度与结构 (1-5)	来源与引用 (1-5)	细致度与客观性 (1-5)	时效性 (1-5)	总分 (/30)	简评
1	5	5	5	1	5	5	26	内容全面，结构清晰，信息准确。整合得非常出色，还附带了清晰的汇总表。缺点是没给引用来源。
2	1	2	4	1	2	1	11	彻底翻车。一本正经地胡说八道，瞎编了一个未来的日期（2025年6月）和一些子虚乌有的事件，导致整个答案都是错的。
3	5	5	5	2	5	5	27	回答非常出色、观点均衡，引用了一项真实的研究，还把营养方面的各种细微差别都讲清楚了。
4	5	5	5	1	5	5	26	一份超赞的行程规划，细节满满，实用性爆棚。每天的预算表这个功能太棒了。
5	5	5	5	1	5	5	26	解释得堪称完美、清晰易懂，打的比方既有创意又恰当。顶级水平的回答。
6	5	5	5	1	5	5	26	商业点子很棒，有新意，细节也给得很足，完全符合题目的要求。
7	5	5	5	1	5	5	26	一篇非常有深度、有思想的文章，对复杂的利益相关方观点进行了专业的剖析。
8	5	5	5	1	5	5	26	历史总结写得太棒了，反方论证部分也相当精妙，看得出是做了深入研究的。
9	1	1	1	1	1	1	6	失败。根本没回答问题，给出的答案跟第8题一模一样。
10	5	5	5	4	5	5	29	表现优异。准确找到了三项近期的相关研究，并完美提取了所要求的信息。
平均	4.2	4.3	4.5	1.4	4.3	4.2	22.9

上面的可能太长了，下面是一个总结的表格

问题	谷歌 AI mode	ChatGPT	Perplexity	AI Studio (Grounded)	Gemini App	优胜者
1. 新冠政策	24	29	29	23	26	ChatGPT 和 Perplexity
2. 欧盟AI法案 (时效性)	10	12	12	27	11	AI Studio (Grounded)
3. 纯素 vs. 杂食	25	28	30	26	27	Perplexity
4. 京都行程	24	28	16	26	26	ChatGPT
5. PoW vs. PoS	26	26	29	26	26	Perplexity
6. 商业点子	23	26	26	26	26	（平局）除了Google AI Mode
7. AI艺术伦理	26	29	30	26	26	Perplexity
8. 郁金香狂热	26	29	30	26	26	Perplexity
9. 实用指南	23	24	26	26	6	Perplexity 和 AI Studio
10. 信源核查	21	20	30	28	29	Perplexity
平均分	22.8	24.6	25.8	26.0	22.9	AI Studio (Grounded)
总分	228	246	258	260	229	AI Studio (Grounded)

如果想要其他的AI搜索，可以和我说

VrianCao · 2025 年6 月 24 日 10:03

建议补充一个Gemini App直接用2.5 Pro提问，现在支持边思考边搜索了，特征是出现两次及以上的Google Search 连接中

jedixu · 2025 年6 月 24 日 10:07

佬友真是严谨，学到了

phlegm · 2025 年6 月 24 日 10:07

已经添加

VrianCao · 2025 年6 月 24 日 10:37

看来还得是API啊

xingtong8142 · 2025 年6 月 24 日 10:55

好帖。 ChatGPT Search默认模型是4o吗？

XiaoHuang · 2025 年6 月 24 日 10:58

感谢佬友整理，没想到Ai Stiudio里这么强？

zerosafe · 2025 年6 月 24 日 10:58

我只知道gemini网页版的搜索最垃圾

handsome · 2025 年6 月 24 日 11:02

没有最强，只有最合适

E0086 · 2025 年6 月 24 日 11:05

题主测试总结:PPLX即便掺水仍有一席之地

问题类别	包含问题	LLM渠道	最优赛道
时效性与事实核查	#1 (新冠政策), #2 (欧盟AI法案), #10 (信源核查)	AI Studio (Grounded) / Perplexity	联网能力、实时性、引用信源
深度辩论与观点分析	#3 (纯素vs杂食), #5 (PoW vs PoS), #7 (AI艺术伦理), #8 (郁金香狂热)	Perplexity	信息整合、多角度论证、逻辑梳理
创意生成与规划	#4 (京都行程), #6 (商业点子), #9 (实用指南)	ChatGPT (首选), Perplexity / AI Studio (备选)	内容创造、结构化生成、个性化

agooddick · 2025 年6 月 24 日 11:13

Gemini 网页端看起来最厉害, 搜索一大堆, 回答质量反而是最差的…

waIker · 2025 年6 月 24 日 11:47

佬友的分数是怎么打的？人工打分吗

phlegm · 2025 年6 月 24 日 12:07

o3 pro 打分

Melaton · 2025 年6 月 24 日 12:09

genspark很精准，且相对快速。非常推荐

KV-44 · 2025 年6 月 24 日 12:11

chatgpt是4o还是o3模型？

Yirong_Chen · 2025 年6 月 24 日 13:16

不知道问题2实际情况是怎么样的.这种结果非常致命,以至于其他项目评分再高都不敢使用它.因为当你真正有问题的时候你无法判断AI当时是否处于类似大部分模型回答问题2时那样的幻觉中.这种情况下保险起见要做的选择是直接因为它有可能给出极低表现直接否定掉它的所有表现

Vanta · 2025 年6 月 24 日 13:22

那AI联网搜索Perplexity还是很强的啊

LanyangyangKing · 2025 年6 月 24 日 16:45

可以测测genspark的超级智能体和AI聊天中开启联网搜索吗

cosmosom · 2025 年6 月 25 日 20:37

刚好薅羊毛的perplexity已经无了，找找平替

Lixinyuan · 2025 年6 月 25 日 21:17

使用模型是Claude 4 Opus with 32k thinking, Claude api自带的联网功能也不错

话题		回复	浏览量
实时搜索哪家强？AI搜索产品大比拼！搞七捻三人工智能	52	1427	2025 年1 月 15 日
选择 ChatGPT（GPT-4o、o3……）还是 Gemini（Gemini 2.5 Pro Preview）？一些个人看法及体验搞七捻三 ChatGPT , Gemini , 人工智能	46	3495	2025 年6 月 11 日
为什么Gemini没有ChatGPT那样“好用” 开发调优人工智能	53	1848	2025 年9 月 30 日
大佬们，Grok3使用体验怎么样搞七捻三人工智能 , 快问快答 , 纯水	63	1697	2025 年4 月 19 日
Gemini越来越离谱，准备弃用了（非标题党）搞七捻三人工智能	123	3705	2026 年1 月 9 日

对比AI 搜索，到底哪一个是最强的呢？

相关话题