DeepSeek R1 在 Confabulations（幻覺）基準測試中的表現優於 o3-mini-medium

BunnHack · 2025 年2 月 11 日 11:23

wwow · 2025 年2 月 11 日 11:41

哇，好厉害

lenluo · 2025 年2 月 11 日 11:42

确实好用

hanlinwenyuan · 2025 年2 月 11 日 11:43

我为啥一直觉得写代码上claude 3.5 sonnet幻觉很低啊

eugeneL · 2025 年2 月 11 日 11:46

o3mini模型规模太小了

handsome · 2025 年2 月 11 日 12:06

deepseek太强了！

x1a0y4o · 2025 年2 月 11 日 12:46

但是个人认为DeepSeek R1的词汇空洞化问题是一线大模型中最严重的一个。在虚构性写作的时候是很大的优点，但是在严肃场合/方案探讨的时候，这种空洞化词汇让我完全不能信任它的回答。

stevessr · 2025 年2 月 11 日 12:48

嘿嘿嘿！

earmer · 2025 年2 月 11 日 14:21

这个评测绝对有问题。
就我而言，DS R1的幻觉绝对是目前几个前沿模型中最大的一个。比如某乎上最近出现好多的DS AI生成的回答，内容「翔实」、数据「周全」非常令人信服——不过都是瞎编的。
最主要还不是它瞎编=幻觉，而是你在没有要求它瞎编的情况下它就自己「发挥」。让它完全不可信。OAI和Sonnet好歹在一些问题上顶多编点小东西，它直接开始编数据，跟某些大学生似的。破坏性极大。

XGM · 2025 年2 月 12 日 05:46

雀食，感觉ds没有给人一个能投入生产系统的安心，OAI虽然…但是稳定的

lucas2024 · 2025 年2 月 12 日 05:52

大学生好惨
哈哈哈哈

lao-wang · 2025 年2 月 12 日 06:14

claude 3.5 还是最强了，只是很低调

cnzedchou · 2025 年2 月 17 日 09:35

非常中肯，R1随便假设、编数据，不听提示词指令，其实用起来也挺一般的

folow20601 · 2025 年2 月 17 日 09:41

temperature和topk调低试试

x1a0y4o · 2025 年2 月 17 日 13:55

嗯遵循官方最佳指南，无系统提示词+Temperature 0.7虽然还是会出现自主发挥的情况，但是比之前有些改善

earmer · 2025 年2 月 22 日 15:43

问题类型	Temperature	Top_p	效果
学术论文	0.2	0.3	绝对严谨模式
商业报告	0.3	0.5	平衡专业性与可读性
创意写作	0.7	0.9	放飞自我（慎用）

x1a0y4o · 2025 年2 月 22 日 16:39

感谢佬提供的信息，非常有用！

system · 2025 年3 月 24 日 16:40

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。

话题		回复	浏览量
DeepSeek R1 Lite Preview明显被夸大且表现不佳搞七捻三人工智能	13	1535	2025 年1 月 21 日
Deepseek-R1的写作能力全球最强搞七捻三纯水	14	585	2025 年3 月 5 日
Deepseek-V3-0324的幻觉率又高了，直接翻一番，越更新越高开发调优人工智能	68	2885	2025 年5 月 2 日
Deepseek最新官方论文揭示：少样本提示会降低R1性能开发调优人工智能	21	912	2025 年4 月 7 日
【官方推文】DeepSeek-R1 更新，思考更深，推理更强前沿快讯 DeepSeek , 人工智能	21	1118	2025 年6 月 29 日

DeepSeek R1 在 Confabulations（幻覺）基準測試中的表現優於 o3-mini-medium

相关话题