DeepSeek R1 在 Confabulations(幻覺)基準測試中的表現優於 o3-mini-medium

4 个赞

哇,好厉害

1 个赞

确实好用

我为啥一直觉得写代码上claude 3.5 sonnet幻觉很低啊

1 个赞

o3mini模型规模太小了

1 个赞

deepseek太强了!

1 个赞

但是个人认为DeepSeek R1的词汇空洞化问题是一线大模型中最严重的一个。在虚构性写作的时候是很大的优点,但是在严肃场合/方案探讨的时候,这种空洞化词汇让我完全不能信任它的回答。

1 个赞

嘿嘿嘿!

1 个赞

这个评测绝对有问题。
就我而言,DS R1的幻觉绝对是目前几个前沿模型中最大的一个。比如某乎上最近出现好多的DS AI生成的回答,内容「翔实」、数据「周全」非常令人信服——不过都是瞎编的。
最主要还不是它瞎编=幻觉,而是你在没有要求它瞎编的情况下它就自己「发挥」。让它完全不可信。OAI和Sonnet好歹在一些问题上顶多编点小东西,它直接开始编数据,跟某些大学生似的。破坏性极大。

2 个赞

雀食,感觉ds没有给人一个能投入生产系统的安心,OAI虽然…但是稳定的

1 个赞

大学生好惨
哈哈哈哈:smile:

2 个赞

claude 3.5 还是最强了,只是很低调

1 个赞

非常中肯,R1随便假设、编数据,不听提示词指令,其实用起来也挺一般的 :joy:

1 个赞

temperature和topk调低试试

嗯遵循官方最佳指南,无系统提示词+Temperature 0.7虽然还是会出现自主发挥的情况,但是比之前有些改善

1 个赞
问题类型 Temperature Top_p 效果
学术论文 0.2 0.3 绝对严谨模式
商业报告 0.3 0.5 平衡专业性与可读性
创意写作 0.7 0.9 放飞自我(慎用)
3 个赞

感谢佬提供的信息,非常有用!

1 个赞

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。