HHEM-2.1幻觉评估模型 03-25更新的榜单
gemini 2.5 pro才1.1%
![]()
deepseek好家伙。。。太离谱了
ds本来幻觉就高
moe的坏处吗这是
所以ds用起来感觉就是大错没有,小错不断
原本v3的3%多幻觉和r1的14%多混合一下,得到了现在8%的新v3,数学就是这么回事吧 ![]()
这个榜单能给个链接吗
Gemini一直都低
Gemini万岁
我似乎又看见了一堆人要拿幻觉这个到处刷了 ![]()
应该是,参数量越小幻觉越多
感觉deepseek几个新模型幻觉率都挺高的
证明没出轨
我之前也对这个数据很迷惑,说一个自己的猜想。
gemini无论是chat还是deep-research回答都非常简短,相对应deepseek的v3和R1回答都长的多。
这里假设如果幻觉值会随着输出的变长而增加,例子,一个问题的答案,gemini说了A是什么,然后deepseek说因为什么什么,A做了什么什么,然后什么什么。单纯从挑错的可能性来看,越短需要验证的逻辑越少。
不对呀,现在gemini的回复长度可长了。
谷歌真的NB
只要开源,幻觉就幻觉吧 ![]()
比r1进步很多了,r1好像幻觉都有25呢
好家伙,这么高
怪不得,论坛里看到有些佬说新ds会有很多小错误,忘记补全符号,缩进啥的小问题,好像就跟幻觉有关吧。还有就是新v3的语气很像r1非常活泼,当时就觉得幻觉率不低