测试了几个大模型，发现它们都会犯一个错误

Jacob.liu · 2025 年3 月 30 日 03:55

分别在 Qwen 2.5max、Deepseek V3-240326、Claude 3.7-Sonnet、Deepseek R1、ChatGPT-4o 中问了如下问题：

Rust cargo.toml 中 dependencies 的版本号规则是什么

发现它们都会答错，比如 Deepseek-R1 的回答：

serde = "1.0.0" 明明表示的是 serde = "^1.0.0"，精确版本应该是 serde = "=1.0.0"，连续问了几个都是这样的回答，不知道为什么会犯这样的错误。

Jacob.liu · 2025 年3 月 30 日 03:57

太好了，是 Gemini，我们有救了！Gemini 2.5pro 的回答是对的

Jacob.liu · 2025 年3 月 30 日 03:58

类似的问题还有

~0.2.1 和 ^0.2.1 有什么区别

有的大模型也答不对

panan · 2025 年3 月 30 日 03:59

看不懂思密达

Jacob.liu · 2025 年3 月 30 日 04:02

类似 nodejs 中的版本管理，不过在 nodejs 中，如果采用这种写法，代表的是写死版本，不能使用其他版本

{
    "lodash": "4.17.21"
}

但是在 Rust 中，如果采用这种写法，则表示的是可以使用 >=1.0.0 且 <2.0.0 版本，比较宽松

serde = "1.0.0"

不明白为什么大模型会在这方便产生混淆

stevessr · 2025 年3 月 30 日 04:03

对齐失败

3.141592653 · 2025 年3 月 30 日 04:03

就gemini和o1靠谱，其实随便问些简单的问题就能看出，比如windows怎么更改一些基础设置，其他模型全在编，乱答。

Jacob.liu · 2025 年3 月 30 日 04:04

今天看到这个回答也比较惊讶，大模型能够处理一些复杂问题，反而在一些常识问题上出错

neteroster · 2025 年3 月 30 日 04:07

牢记现在 LLM 都是互联网文本建模，数据决定一切，对于事实性问题，没有训练相关数据当然会错，有训练相关数据那当然就对了，这是很简单的道理。大模型能解决复杂问题不是因为它不再是统计学语言模型，而是因为人们低估了统计模型在复杂推理上的潜力。

Jacob.liu · 2025 年3 月 30 日 04:08

所以越小众的知识越容易出错，可以这样理解？

benxc · 2025 年3 月 30 日 04:09

cargo版本号这坑我也踩过，当初部署时差点翻车。直接看官方文档最稳，别信模型瞎掰。

stevessr · 2025 年3 月 30 日 04:10

越稀缺解读的易变的规则越容易出问题
~~推广能力还是

neteroster · 2025 年3 月 30 日 04:10

是。无法自验证的东西（不像数学题这种）就纯看数据，真正特别小众的内容问答基本全是幻觉

PoseidonLi0514 · 2025 年3 月 30 日 04:15

这些模型的训练数据有吧，知识面广，很多问题就不能直接问deepseek，问gemini他真的就是把网页的每一步在哪都知道，大公司的优势吧

0wl · 2025 年3 月 30 日 04:17

只有错了才证明他真的是纯模型，没有掺传统的外部程序辅助判断，跟问他是什么模型和截止日期基本可以归类一类了

Xcating · 2025 年3 月 30 日 04:22

o1可以答对

Xcating · 2025 年3 月 30 日 04:30

4o也可以答对

Xcating · 2025 年3 月 30 日 04:32

claude-3-7-sonnet答对

Jacob.liu · 2025 年3 月 30 日 04:32

免费佬只能用 Gemini 了，目前看它的效果最好

Xcating · 2025 年3 月 30 日 04:33

Gemini 2.5 Pro exp确实是免费最强

o3-mini 也完全答对，还给了官方文档链接

话题		回复	浏览量
今年是12月1日了，问问ai还有多少天过年，可以测模型有无造假搞七捻三人工智能	48	1687	2024 年12 月 7 日
关于模型好坏个人看法资源荟萃人工智能	21	607	2024 年12 月 9 日
疑似找到一个只有 DeepSeek-R1 才能答出来的题目搞七捻三人工智能	44	1259	2025 年3 月 20 日
Cherry Studio 妙用 -- 掺水验证开发调优人工智能	70	1287	2026 年3 月 27 日
混元T1上线了，真的快!逆得也很快！前沿快讯人工智能 , 纯水	53	2566	2025 年4 月 23 日