测试了几个大模型,发现它们都会犯一个错误

分别在 Qwen 2.5max、Deepseek V3-240326、Claude 3.7-Sonnet、Deepseek R1、ChatGPT-4o 中问了如下问题:

Rust cargo.toml 中 dependencies 的版本号规则是什么

发现它们都会答错,比如 Deepseek-R1 的回答:

serde = "1.0.0" 明明表示的是 serde = "^1.0.0",精确版本应该是 serde = "=1.0.0",连续问了几个都是这样的回答,不知道为什么会犯这样的错误。

5 个赞

太好了,是 Gemini,我们有救了!Gemini 2.5pro 的回答是对的

2 个赞

类似的问题还有

~0.2.1 和 ^0.2.1 有什么区别

有的大模型也答不对

看不懂思密达

类似 nodejs 中的版本管理,不过在 nodejs 中,如果采用这种写法,代表的是写死版本,不能使用其他版本

{
    "lodash": "4.17.21"
}

但是在 Rust 中,如果采用这种写法,则表示的是可以使用 >=1.0.0 且 <2.0.0 版本,比较宽松

serde = "1.0.0"

不明白为什么大模型会在这方便产生混淆

对齐失败

就gemini和o1靠谱,其实随便问些简单的问题就能看出,比如windows怎么更改一些基础设置,其他模型全在编,乱答。

今天看到这个回答也比较惊讶,大模型能够处理一些复杂问题,反而在一些常识问题上出错

牢记现在 LLM 都是互联网文本建模,数据决定一切,对于事实性问题,没有训练相关数据当然会错,有训练相关数据那当然就对了,这是很简单的道理。大模型能解决复杂问题不是因为它不再是统计学语言模型,而是因为人们低估了统计模型在复杂推理上的潜力。

1 个赞

所以越小众的知识越容易出错,可以这样理解?

cargo版本号这坑我也踩过,当初部署时差点翻车。直接看官方文档最稳,别信模型瞎掰。

1 个赞

越稀缺解读的易变的规则越容易出问题
~~推广能力还是 :sob:

是。无法自验证的东西(不像数学题这种)就纯看数据,真正特别小众的内容问答基本全是幻觉

1 个赞

这些模型的训练数据有吧,知识面广,很多问题就不能直接问deepseek,问gemini他真的就是把网页的每一步在哪都知道,大公司的优势吧

1 个赞

只有错了才证明他真的是纯模型,没有掺传统的外部程序辅助判断,跟问他是什么模型和截止日期基本可以归类一类了

1 个赞


o1可以答对

1 个赞


4o也可以答对

1 个赞


claude-3-7-sonnet答对

免费佬只能用 Gemini 了,目前看它的效果最好 :lark_175:

Gemini 2.5 Pro exp确实是免费最强

o3-mini 也完全答对,还给了官方文档链接