实时搜索哪家强？AI搜索产品大比拼！

Leon01 · 2024 年12 月 15 日 14:52

（本帖子预计会持续更新，以加入更多模型）

现在AI搜索产品越来越多，模型返回真实可信的内容很重要。那么多家AI产品，到底谁的幻觉更低？

先来一个新鲜热乎的问题：

openai12天发布会每天发布了什么

看似简单，但是实际上有几个“坑”：

发布会到现在还没开完，AI可能会编造后几天的内容
一些媒体反复洗稿，内容不一定可信
可能将网友预测的内容当成了已经发生的内容

所以，高质量的信息源、模型对信息的判断等，在实时搜索类产品中都是至关重要的。

接下来用一个表格总结一下模型的表现能力。

【给星星的标准】

回答是否正确、有效
回答是否混淆真实的虚假的信息
回答是否有给出每天的时间，并正确排序
回答是否详细，排版是否美观

【叠甲】

打分是主观评价！！（比如打一颗星很重要的原因是令我出乎意料，大跌眼镜）
当前只有一个测试问题，可能不全面
由于模型输出的随机性，可能每个人的测试结果不同，欢迎补充你的测试结果
市面上模型众多，没办法覆盖到所有模型，欢迎补充希望加入到表格中的模型/产品

产品名称	解释	测试日期	图片
腾讯元宝 (普通模式)	回答正确，按照正确的顺序排序排版美观只引用了一个消息源	2024-12-14T16:00:00Z	Picsew_202412152152071290×6302 497 KB
ChatGPT	答对了每一天的事项回答比较简略，但能比较好地讲对要点引用格式的输出有点问题	2024-12-14T16:00:00Z	Picsew_202412152147231290×3047 242 KB
Grok 2	回答大致正确第二天的内容没说到要点第四天的内容"导致网站崩溃"的表述是不对的（导致网站崩溃的其实另有原因）回答过于简略	2024-12-14T16:00:00Z	IMG_25661290×1897 147 KB
deepseek	整体比较详细，每一条都给出了内容来源知道第8-12天是未发生的内容第五天内容正确，但日期错误第六天的内容错误	2024-12-14T16:00:00Z	Picsew_202412152303481290×6367 378 KB
海螺AI	前三天的内容是对的，说得还比较详细从第四天开始，无法有效整合信息（但好在没有胡编乱造）输出速度比较慢，体验感一般	2024-12-14T16:00:00Z	IMG_2575860×6010 456 KB
Gemini (2.0-flash-exp, ai studio - grounding)	先总述再分述的表达方式很不错前四天的内容大体是对的第三天错误地加入了关于Apple Intelligence的内容内容不完成，缺少了第五、六、七天的内容回复默认用英文，而不是与用户相同的语言	2024-12-15T16:00:00Z	Picsew_202412160035471290×8447 672 KB
豆包	第一、二、三、四、七天的内容是对的比较详细，并给出来源已发生的第五、六天的内容错误未发生的第八天及之后的内容在胡编乱造	2024-12-14T16:00:00Z	Picsew_202412160001141290×6535 527 KB
Perplexity (with GPT-4o)	只有第一天和第四天是对的，其它完全是胡编乱造没有在每条消息后面给出消息来源	2024-12-14T16:00:00Z	Picsew_202412152144331290×5642 431 KB
Perplexity (with claude-3.5-sonnet)	第一、二、四、六本身描述大致是对的，但是日期几乎都有问题没有在文本中给出引用	2024-12-14T16:00:00Z	Picsew_202412152229541290×6785 504 KB
KIMI (普通模式)	只有第一、二、七条本身描述没错第X天没有正确排序大部分内容在胡编乱造（引用了不可靠的消息源）	2024-12-14T16:00:00Z	Picsew_202412152149171290×3492 239 KB
秘塔搜索(深入模式)	只有前三天的内容是对的其它部分在胡编乱造输出内容过于简略	2024-12-14T16:00:00Z	Picsew_202412152211041290×4136 284 KB
Gemini (2.0-flash-exp)	只有第一第二点是对的没有给出日期给出了很多无关信息莫名夹杂韩文	2024-12-14T16:00:00Z	Picsew_20241215222236938×3847 308 KB
文小言 (文心3.5)	只有第一天是对的，其它的其它要么日期错误，要么完全在胡编乱造没有在文本中给出引用	2024-12-15T16:00:00Z	Picsew_202412160011061290×5332 469 KB
天工 (高级模式)	表格排版比较方便阅读只有前三天的内容是对的，其它部分完全在胡编乱造	2024-12-15T16:00:00Z	Picsew_202412160015571290×7578 379 KB
智谱清言 (GLM-4-Plus)	只回答了前三天的内容，且第二天的内容还是错的	2024-12-15T16:00:00Z	Picsew_202412160021191290×3722 243 KB
Arc (browse for me)	没有按照日期输出，强行分成几个大点和小点来讲述非常糟糕，似乎不能理解指令，它有自己的想法	2024-12-15T16:00:00Z	Picsew_202412160028291290×8581 707 KB

备注：

测试结果不一定代表模型本身的能力。AI搜索产品还混合了很多因素，包括但不限于搜索算法/排序算法/内容来源质量/搜索语言。例如有的产品有自己独特的内容域，有的产品擅长使用英文搜索等。
海螺默认使用了英文来搜索，可能是因为我的手机系统设置的语言是英文，它的内容来源大多是中文的。
虽然给腾讯元宝五星可能看起来有点奇怪，但是它确实马上找到了一篇公众号文章，这篇文章总结了最近OpenAI发布的内容。微信公众号算是质量比较不错的来源之一，元宝应该也用了相关算法让这篇文章排到了参考来源比较靠前的位置。但最终它只引用了一篇文章，也有相关风险。
ai studeo的gemini默认输出英文，为方便阅读使用沉浸式翻译显示了中文翻译。

【更新】

2024-12-15T16:22:00Z 更新了智谱清言 (GLM-4-Plus)、天工 (高级模式)、豆包、文小言 (文心3.5)
2024-12-15T16:52:00Z 更新了Gemini (2.0-flash-exp, ai studio - grounding)、Arc (browse for me)

Coker · 2024 年12 月 15 日 14:57

按理来说，pplx应该会给引用的

Leon01 · 2024 年12 月 15 日 14:58

是的，一般会给三个引用，但是这次换了gpt-4o和claude-3.5-sonnet都没有给引用

passerby · 2024 年12 月 15 日 14:59

deepseek试试打个分

VrianCao · 2024 年12 月 15 日 15:00

pplx pro search

只回答了前两天的

maplefz · 2024 年12 月 15 日 15:05

deepseek的回答

laodo · 2024 年12 月 15 日 15:07

pplx 确实会胡编：

Leon01 · 2024 年12 月 15 日 15:09

已更新deepseek

zilanlann · 2024 年12 月 15 日 15:18

用chatgpt试了不少遍，发现如果引用的是中文链接（如腾讯新闻、百家号等），回复质量会显著下降，如果引用的英文链接回答质量一般会不错。
试着这么问，openai12天发布会每天发布了什么，用英文搜索，并整理成中文，几乎都答的挺好的

刚才又试了几遍，即使加上用英文搜索几个字，他引用的有概率还是中文结果

agromgt · 2024 年12 月 15 日 15:20

实测pplx用英语问效果比中文问好太多。

outgoing · 2024 年12 月 15 日 15:25

试试豆包

hnres · 2024 年12 月 15 日 15:26

试试看国内的ai。

maplefz · 2024 年12 月 15 日 15:27

看看我上面发出来的deepseek，和你的好像有点出入，说明同一问题搜索总结的结果不一样？

Leon01 · 2024 年12 月 15 日 15:28

好的，稍后加入

Leon01 · 2024 年12 月 15 日 15:29

嗯嗯，确实会遇到这样的情况，可能每次测试的结果都会有不同

VrianCao · 2024 年12 月 15 日 15:31

我这边Gemini 2.0 Flash表现很好啊

有些缺陷（日期没算准、少了一两天），但信息其实是准确（这不互相矛盾，大家看一下回答就知道我所言之意了）
Sora那里确实错了
佬友这个是Google的哪个软件？开Grounding了吗？

Leon01 · 2024 年12 月 15 日 15:32

我是在gemini.google.com中使用的，不是aistudio里面

你这个看起来确实表现还行我稍后去试一下

VrianCao · 2024 年12 月 15 日 15:34

元宝接入公众号真的太占优势了。。
AI相关的公众号报道太多了
量子位、爱范儿这些还是以公众号为主，这些都会争相报道

VrianCao · 2024 年12 月 15 日 15:35

Gemini官网现在好像还没接入2.0的联网
现在想体验2.0 grounding还是需要ai studio吧？

Leon01 · 2024 年12 月 15 日 15:36

我的是gemini官网，显示的是2.0-experiment版本
看到结果输出很像是模型“知道有这么一回事”，基本都给出了大致内容。
但是没给出引用和消息来源，所以不知道是真联网还是假联网

话题		回复	浏览量
对比AI 搜索，到底哪一个是最强的呢？搞七捻三人工智能	33	1436	2025 年8 月 23 日
【投票&评测】选出你认为最好的AI搜索工具！（第一轮评测结果发布）开发调优人工智能	39	1841	2025 年4 月 6 日
这就是PPLX的绝对优势吗，从这一刻起，AI在我的心中变得伟大搞七捻三 NSFW , 人工智能 , 纯水	36	1916	2024 年12 月 9 日
别吹 KIMI 了，看看这么蠢的理解搞七捻三人工智能	55	2210	2024 年12 月 9 日
【Grok3 DeepSearch 是目前最好的搜索工具】谁赞成，谁反对！搞七捻三人工智能 , 快问快答	55	1690	2025 年4 月 2 日

实时搜索哪家强？AI搜索产品大比拼！

相关话题