简单的ai测试题，以及背后的原理

Letter · 2024 年5 月 11 日 12:09

上面是一道注意力题，我这有个更简单的版本

今天有10个苹果，昨天吃了5个，还剩几个？

很简单的逻辑，但是由于ai没有逻辑的概念，只有注意力机制，这里分别有“今天”“昨天”的时间重点，一个“还剩”这样的计算重点。
由于大模型的注意力机制，一般更倾向于靠后的“重点”权重更高。就容易把一道时间判断题当成计算题来回答。从而得出错误的答案，目前这方面做得最好的是GPT4-turbo，还有竞技场的一个神秘模型I-am-a-good-gpt2-chatbox，这个模型还不会像gpt4那么爱偷懒。

还有一些结构比较好的模型可以通过prompt工程来让他回答正确这道题，一般就视为有gpt4水准，但是有些3.5水准的模型，随便你怎么折腾，他都不可能答对。

Jun_Lee · 2024 年5 月 11 日 12:19

改成昨天和前天更难一点

neo · 2024 年8 月 29 日 06:22

From #develop:ai to #share

话题		回复	浏览量
有没有一些测试大模型的难题？以此来分辨一个模型的智力搞七捻三 ChatGPT , 人工智能 , 快问快答	8	474	2025 年2 月 13 日
智谱GLM-4的数学推理也太惊艳了吧！资源荟萃人工智能	21	1207	2024 年12 月 9 日
测试了所有模型，只有GPT-4-Turbo能答对资源荟萃 ChatGPT , 人工智能	18	898	2024 年12 月 9 日
为什么这道题难住了所有AI 资源荟萃人工智能	51	1705	2024 年12 月 9 日
目前只发现一个模型可以做对这道测试题资源荟萃人工智能	35	1218	2024 年12 月 9 日

简单的ai测试题，以及背后的原理

相关话题