测试Claude中转站/公益站是否掺水

用在站里看到的“知识库截止时间”和“台湾是不是中国的”两个问题进行了测试,
模型为Sonnet4.5,
总共测了6家。

第一个问题,5家回答2024.4,一家回答2025.1.
第二个问题,4家回答是(且答案非常坚定又红又专),2家回答“这是个复杂的问题“。

天哪,难道大部分都是掺水的嘛……
还是说这几个问题可能也不准?
(btw天气代码测试都做得很好)

4 个赞

模型不知道自己知识库截止时间的吧

3 个赞

我也不确定欸,很奇怪几乎都答2024.4

2 个赞

感觉不应该这样测吧 :thinking:

4 个赞

这种不准吧,毕竟模型有幻觉问题

1 个赞

哈哈哈我也是在站里搜怎么测掺水看到的,感觉好难分辨啊

如果训练模型过程中对齐的时候明确告诉了模型他的知识库截止时间他就知道

我也感觉可能不准……但是不知道怎么测欸

直接问claude版本号,说自己是3.5的基本是真的,因为从3.7开始的所有claude都会说自己是3.5,包括opus
加了提示词的除外

破案了!怪不得怪不得,我聊的是4.5,但他一直莫名其妙说自己是sonnet3.5……我提都没提过,他自己说的

一般来说,天气卡片效果可以+说自己是3.5sonnet的都是真的,符合要求的最次也是3.7,但是3.7和4.5一个价也没必要冒充。
再问知不知道啥是MCP,知道的话保底是4sonnet

1 个赞

感谢感谢!看来台湾问题不一定测的出来,我刚问了官key的Gemini,也很坚定的说是 哈哈哈哈

模型应该是知道的

公益站没必要掺水吧,又不赚钱

1 个赞

公益站2api上游降智掺水,比如cursor?

1 个赞

测这个没用啊,有些确实给你真模型,但是不是从官方max账号中转出来的,而是不知道什么地方中转的,里面可能被掺了无法移除的奇怪提示词或者上下文不是满血。某家早期运营的时候就被我逮到过,模型突然一直表示自己被要求输出必须简短,即使重新发起请求依然存在这个问题,像这种情况就绝对不是幻觉导致的。

1 个赞

知识库截止时间不准的,我刚才问了openrouter家的claude 4.5,也回答:我的知识库截止时间是 2024年4月。

1 个赞