测试Claude中转站/公益站是否掺水

Fansel · 2025 年10 月 21 日 11:45

用在站里看到的“知识库截止时间”和“台湾是不是中国的”两个问题进行了测试，
模型为Sonnet4.5，
总共测了6家。

第一个问题，5家回答2024.4，一家回答2025.1.
第二个问题，4家回答是（且答案非常坚定又红又专），2家回答“这是个复杂的问题“。

天哪，难道大部分都是掺水的嘛……
还是说这几个问题可能也不准？
（btw天气代码测试都做得很好）

Neuroplexus · 2025 年10 月 21 日 11:45

模型不知道自己知识库截止时间的吧

Fansel · 2025 年10 月 21 日 11:47

我也不确定欸，很奇怪几乎都答2024.4

Cassianvale · 2025 年10 月 21 日 11:47

感觉不应该这样测吧

yeluo001 · 2025 年10 月 21 日 11:48

这种不准吧，毕竟模型有幻觉问题

Fansel · 2025 年10 月 21 日 11:51

哈哈哈我也是在站里搜怎么测掺水看到的，感觉好难分辨啊

KXG · 2025 年10 月 21 日 11:53

如果训练模型过程中对齐的时候明确告诉了模型他的知识库截止时间他就知道

Fansel · 2025 年10 月 21 日 11:53

我也感觉可能不准……但是不知道怎么测欸

kfcv5 · 2025 年10 月 21 日 11:57

直接问claude版本号，说自己是3.5的基本是真的，因为从3.7开始的所有claude都会说自己是3.5，包括opus
加了提示词的除外

Fansel · 2025 年10 月 21 日 12:03

破案了！怪不得怪不得，我聊的是4.5，但他一直莫名其妙说自己是sonnet3.5……我提都没提过，他自己说的

kfcv5 · 2025 年10 月 21 日 12:15

一般来说，天气卡片效果可以+说自己是3.5sonnet的都是真的，符合要求的最次也是3.7，但是3.7和4.5一个价也没必要冒充。
再问知不知道啥是MCP，知道的话保底是4sonnet

Fansel · 2025 年10 月 21 日 12:28

感谢感谢！看来台湾问题不一定测的出来，我刚问了官key的Gemini，也很坚定的说是哈哈哈哈

maoning · 2025 年10 月 21 日 13:41

模型应该是知道的

idcflare · 2025 年10 月 21 日 13:56

公益站没必要掺水吧，又不赚钱

TechnologyStar · 2025 年10 月 21 日 13:59

公益站2api上游降智掺水，比如cursor？

ktze · 2025 年10 月 21 日 14:06

测这个没用啊，有些确实给你真模型，但是不是从官方max账号中转出来的，而是不知道什么地方中转的，里面可能被掺了无法移除的奇怪提示词或者上下文不是满血。某家早期运营的时候就被我逮到过，模型突然一直表示自己被要求输出必须简短，即使重新发起请求依然存在这个问题，像这种情况就绝对不是幻觉导致的。

WXKYW · 2025 年10 月 21 日 14:06

知识库截止时间不准的，我刚才问了openrouter家的claude 4.5，也回答：我的知识库截止时间是 2024年4月。

话题		回复	浏览量
把warp 2api提示词洗掉了，发现它4.1opus尽然是冒充的开发调优人工智能	29	1163	2025 年9 月 26 日
Cherry Studio 妙用 -- 掺水验证开发调优人工智能	70	1287	2026 年3 月 27 日
Claude code中返回4.5不是真4.5 前沿快讯人工智能	23	1206	2025 年9 月 30 日
Claude的API到底是伪装成了3.5还是就是掺水了？开发调优人工智能 , 快问快答 , 纯水	19	579	2025 年11 月 14 日
今年是12月1日了，问问ai还有多少天过年，可以测模型有无造假搞七捻三人工智能	48	1687	2024 年12 月 7 日