(本帖子预计会持续更新,以加入更多模型)
现在AI搜索产品越来越多,模型返回真实可信的内容很重要。那么多家AI产品,到底谁的幻觉更低?
先来一个新鲜热乎的问题:
openai12天发布会每天发布了什么
看似简单,但是实际上有几个“坑”:
- 发布会到现在还没开完,AI可能会编造后几天的内容
- 一些媒体反复洗稿,内容不一定可信
- 可能将网友预测的内容当成了已经发生的内容
所以,高质量的信息源、模型对信息的判断等,在实时搜索类产品中都是至关重要的。
接下来用一个表格总结一下模型的表现能力。
【给星星的标准】
- 回答是否正确、有效
- 回答是否混淆真实的虚假的信息
- 回答是否有给出每天的时间,并正确排序
- 回答是否详细,排版是否美观
【叠甲】
- 打分是主观评价!!(比如打一颗星很重要的原因是令我出乎意料,大跌眼镜)
- 当前只有一个测试问题,可能不全面
- 由于模型输出的随机性,可能每个人的测试结果不同,欢迎补充你的测试结果
- 市面上模型众多,没办法覆盖到所有模型,欢迎补充希望加入到表格中的模型/产品
| 产品名称 | 搜索效果评价 | 解释 | 测试日期 | 图片 |
|---|---|---|---|---|
| 腾讯元宝 (普通模式) | 2024-12-14T16:00:00Z | |||
| ChatGPT | 2024-12-14T16:00:00Z | |||
| Grok 2 | 2024-12-14T16:00:00Z | |||
| deepseek | 2024-12-14T16:00:00Z | |||
| 海螺AI | 2024-12-14T16:00:00Z | |||
| Gemini (2.0-flash-exp, ai studio - grounding) | 2024-12-15T16:00:00Z | |||
| 豆包 | 2024-12-14T16:00:00Z | |||
| Perplexity (with GPT-4o) | 2024-12-14T16:00:00Z | |||
| Perplexity (with claude-3.5-sonnet) | 2024-12-14T16:00:00Z | |||
| KIMI (普通模式) | 2024-12-14T16:00:00Z | |||
| 秘塔搜索(深入模式) | 2024-12-14T16:00:00Z | |||
| Gemini (2.0-flash-exp) | 2024-12-14T16:00:00Z | |||
| 文小言 (文心3.5) | 2024-12-15T16:00:00Z | |||
| 天工 (高级模式) | 2024-12-15T16:00:00Z | |||
| 智谱清言 (GLM-4-Plus) | 2024-12-15T16:00:00Z | |||
| Arc (browse for me) | 2024-12-15T16:00:00Z |
备注:
- 测试结果不一定代表模型本身的能力。AI搜索产品还混合了很多因素,包括但不限于搜索算法/排序算法/内容来源质量/搜索语言。例如有的产品有自己独特的内容域,有的产品擅长使用英文搜索等。
- 海螺默认使用了英文来搜索,可能是因为我的手机系统设置的语言是英文,它的内容来源大多是中文的。
- 虽然给腾讯元宝五星可能看起来有点奇怪,但是它确实马上找到了一篇公众号文章,这篇文章总结了最近OpenAI发布的内容。微信公众号算是质量比较不错的来源之一,元宝应该也用了相关算法让这篇文章排到了参考来源比较靠前的位置。但最终它只引用了一篇文章,也有相关风险。
- ai studeo的gemini默认输出英文,为方便阅读使用沉浸式翻译显示了中文翻译。
【更新】
2024-12-15T16:22:00Z 更新了智谱清言 (GLM-4-Plus)、天工 (高级模式)、豆包、文小言 (文心3.5)
2024-12-15T16:52:00Z 更新了Gemini (2.0-flash-exp, ai studio - grounding)、Arc (browse for me)














