deepseek v3 0324这幻觉率。。。

wiwuwiwu · 2025 年3 月 26 日 10:39

HHEM-2.1幻觉评估模型 03-25更新的榜单

gemini 2.5 pro才1.1%

deepseek好家伙。。。太离谱了

Feng · 2025 年3 月 26 日 10:40

ds本来幻觉就高

Morax · 2025 年3 月 26 日 10:40

moe的坏处吗这是

szc12000 · 2025 年3 月 26 日 10:44

所以ds用起来感觉就是大错没有，小错不断

biribiri · 2025 年3 月 26 日 10:54

原本v3的3%多幻觉和r1的14%多混合一下，得到了现在8%的新v3，数学就是这么回事吧

Biss · 2025 年3 月 26 日 10:58

这个榜单能给个链接吗

wiwuwiwu · 2025 年3 月 26 日 11:04

maho · 2025 年3 月 26 日 11:09

Gemini一直都低
Gemini万岁

JayChous · 2025 年3 月 26 日 11:18

我似乎又看见了一堆人要拿幻觉这个到处刷了

stevessr · 2025 年3 月 26 日 11:19

吃了菌子，但是还是很牛逼

可能有Gemini拒绝机制的一个功劳？

RichardChou · 2025 年3 月 26 日 11:28

应该是，参数量越小幻觉越多

Lampe · 2025 年3 月 26 日 11:30

感觉deepseek几个新模型幻觉率都挺高的

hiagfh · 2025 年3 月 26 日 11:31

证明没出轨

knil · 2025 年3 月 26 日 11:34

我之前也对这个数据很迷惑，说一个自己的猜想。
gemini无论是chat还是deep-research回答都非常简短，相对应deepseek的v3和R1回答都长的多。
这里假设如果幻觉值会随着输出的变长而增加，例子，一个问题的答案，gemini说了A是什么，然后deepseek说因为什么什么，A做了什么什么，然后什么什么。单纯从挑错的可能性来看，越短需要验证的逻辑越少。

waffie · 2025 年3 月 26 日 11:43

不对呀，现在gemini的回复长度可长了。

fengchris · 2025 年3 月 26 日 11:45

谷歌真的NB

thereisnospoon · 2025 年3 月 26 日 11:46

只要开源，幻觉就幻觉吧

3.141592653 · 2025 年3 月 26 日 12:00

比r1进步很多了，r1好像幻觉都有25呢

handsome · 2025 年3 月 26 日 12:21

好家伙，这么高

PoseidonLi0514 · 2025 年3 月 26 日 12:28

怪不得，论坛里看到有些佬说新ds会有很多小错误，忘记补全符号，缩进啥的小问题，好像就跟幻觉有关吧。还有就是新v3的语气很像r1非常活泼，当时就觉得幻觉率不低

话题		回复	浏览量
deepseek 的幻觉太高了开发调优人工智能 , 纯水	17	650	2025 年5 月 13 日
幻觉率对比表格搞七捻三人工智能 , 纯水	10	898	2025 年4 月 26 日
openai新模型的幻觉率全面退步，与前代模型出现数倍差距搞七捻三 ChatGPT , 人工智能	27	1071	2025 年5 月 21 日
为什么感觉deepseek最近胡扯率变高了搞七捻三人工智能 , 纯水	17	684	2025 年5 月 11 日
似乎R1发布后，各家模型更加在意跑分，但幻觉变严重？搞七捻三人工智能	14	532	2025 年5 月 27 日

deepseek v3 0324这幻觉率。。。

相关话题