deepseek v3 0324这幻觉率。。。

HHEM-2.1幻觉评估模型 03-25更新的榜单

gemini 2.5 pro才1.1%

Snipaste_2025-03-26_18-35-40

deepseek好家伙。。。太离谱了

23 个赞

ds本来幻觉就高

4 个赞

moe的坏处吗这是

3 个赞

所以ds用起来感觉就是大错没有,小错不断

9 个赞

原本v3的3%多幻觉和r1的14%多混合一下,得到了现在8%的新v3,数学就是这么回事吧 :joy:

26 个赞

这个榜单能给个链接吗

1 个赞
3 个赞

Gemini一直都低
Gemini万岁

3 个赞

我似乎又看见了一堆人要拿幻觉这个到处刷了 :rofl:

1 个赞

吃了菌子,但是还是很牛逼


可能有Gemini拒绝机制的一个功劳?

8 个赞

应该是,参数量越小幻觉越多

1 个赞

感觉deepseek几个新模型幻觉率都挺高的

1 个赞

证明没出轨

2 个赞

我之前也对这个数据很迷惑,说一个自己的猜想。
gemini无论是chat还是deep-research回答都非常简短,相对应deepseek的v3和R1回答都长的多。
这里假设如果幻觉值会随着输出的变长而增加,例子,一个问题的答案,gemini说了A是什么,然后deepseek说因为什么什么,A做了什么什么,然后什么什么。单纯从挑错的可能性来看,越短需要验证的逻辑越少。

1 个赞

不对呀,现在gemini的回复长度可长了。

3 个赞

谷歌真的NB

1 个赞

只要开源,幻觉就幻觉吧 :joy:

2 个赞

比r1进步很多了,r1好像幻觉都有25呢

2 个赞

好家伙,这么高

2 个赞

怪不得,论坛里看到有些佬说新ds会有很多小错误,忘记补全符号,缩进啥的小问题,好像就跟幻觉有关吧。还有就是新v3的语气很像r1非常活泼,当时就觉得幻觉率不低

2 个赞