4 个赞
哇,好厉害
1 个赞
确实好用
我为啥一直觉得写代码上claude 3.5 sonnet幻觉很低啊
1 个赞
o3mini模型规模太小了
1 个赞
deepseek太强了!
1 个赞
但是个人认为DeepSeek R1的词汇空洞化问题是一线大模型中最严重的一个。在虚构性写作的时候是很大的优点,但是在严肃场合/方案探讨的时候,这种空洞化词汇让我完全不能信任它的回答。
1 个赞
嘿嘿嘿!
1 个赞
这个评测绝对有问题。
就我而言,DS R1的幻觉绝对是目前几个前沿模型中最大的一个。比如某乎上最近出现好多的DS AI生成的回答,内容「翔实」、数据「周全」非常令人信服——不过都是瞎编的。
最主要还不是它瞎编=幻觉,而是你在没有要求它瞎编的情况下它就自己「发挥」。让它完全不可信。OAI和Sonnet好歹在一些问题上顶多编点小东西,它直接开始编数据,跟某些大学生似的。破坏性极大。
2 个赞
雀食,感觉ds没有给人一个能投入生产系统的安心,OAI虽然…但是稳定的
1 个赞
大学生好惨
哈哈哈哈![]()
2 个赞
claude 3.5 还是最强了,只是很低调
1 个赞
非常中肯,R1随便假设、编数据,不听提示词指令,其实用起来也挺一般的 ![]()
1 个赞
temperature和topk调低试试
嗯遵循官方最佳指南,无系统提示词+Temperature 0.7虽然还是会出现自主发挥的情况,但是比之前有些改善
1 个赞
| 问题类型 | Temperature | Top_p | 效果 |
|---|---|---|---|
| 学术论文 | 0.2 | 0.3 | 绝对严谨模式 |
| 商业报告 | 0.3 | 0.5 | 平衡专业性与可读性 |
| 创意写作 | 0.7 | 0.9 | 放飞自我(慎用) |
3 个赞
感谢佬提供的信息,非常有用!
1 个赞
此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。
