简单的ai测试题,以及背后的原理

上面是一道注意力题,我这有个更简单的版本

今天有10个苹果,昨天吃了5个,还剩几个?

很简单的逻辑,但是由于ai没有逻辑的概念,只有注意力机制,这里分别有“今天”“昨天”的时间重点,一个“还剩”这样的计算重点。
由于大模型的注意力机制,一般更倾向于靠后的“重点”权重更高。就容易把一道时间判断题当成计算题来回答。从而得出错误的答案,目前这方面做得最好的是GPT4-turbo,还有竞技场的一个神秘模型I-am-a-good-gpt2-chatbox,这个模型还不会像gpt4那么爱偷懒。

还有一些结构比较好的模型可以通过prompt工程来让他回答正确这道题,一般就视为有gpt4水准,但是有些3.5水准的模型,随便你怎么折腾,他都不可能答对。

5 个赞

改成昨天和前天更难一点

From #develop:ai to #share