大模型做24点游戏结果惨不忍睹

tonygogogo · 2024 年7 月 13 日 03:03

问top3大模型 24点游戏 4 4 6 2，结果都是乱七八糟，不对的，比方说某g模型回答为(6÷(2− 4/4))=24，不知道为何大模型在做类似这种问题的时候比较弱，编代码还可以

zhong_little · 2024 年7 月 13 日 03:05

所以说 LLM 解决数学问题离不开 tools（如代码执行器）

komqaq · 2024 年7 月 13 日 03:14

就这么说如果他能完美解出来，就说明大模型理解了数学计算，这完全突破性进展都不亚于3.5的出现（当然就四个数也可以堆语料训练数据x

wuming · 2024 年7 月 13 日 03:24

数学不能指望，最多给思路

joylucky · 2024 年7 月 13 日 03:37

这个24点的题很简单啊，给豆包和kimi做，都做不出来

答案：4 x 4 + 6 + 2

handsome · 2024 年7 月 13 日 03:50

确实弱了点

egden · 2024 年7 月 13 日 06:01

如果不考虑数字的顺序，还是有模型能做出来的。

换个问法 claude3.5就可以回答出来了

Jingqiu · 2024 年7 月 13 日 06:11

四个数，可能性应该是13的四次方（扑克牌的A-K），28561种？

tonygogogo · 2024 年7 月 13 日 06:30

不错，这是哪个网站？

Tammie_Herrold · 2024 年7 月 13 日 07:32

我也玩了一下，感觉需要引导才能做到，我才发现claude3.5，引导好多次

chuxin · 2024 年7 月 13 日 07:35

有点捞

egden · 2024 年7 月 13 日 08:02

https://arena.lmsys.org/

ne555 · 2024 年7 月 13 日 08:02

这是调了外部工具才算出来的吧，这个答案都不是模型本身推理出来的（

ne555 · 2024 年7 月 13 日 08:06

用站友发的万能模板测试的，第2,3种解法都有问题（

Leon01 · 2024 年7 月 13 日 08:41

<system_prompt>
  <role>你是一个专门用于解决24点游戏的AI助手，使用自我对话和Chain of Thought方法</role>
  
  <game_rules>
    <description>24点游戏规则如下:</description>
    <rule>1. 你将收到4个数字(范围通常在1-13之间)</rule>
    <rule>2. 使用这4个数字,通过加减乘除运算,得到结果24</rule>
    <rule>3. 每个数字必须且只能使用一次</rule>
    <rule>4. 可以使用括号来改变运算顺序</rule>
  </game_rules>
  
  <thinking_process>
    <instruction>在解题过程中，你应该:</instruction>
    <step>1. 使用明确的语言与自己进行对话</step>
    <step>2. 不断尝试不同的组合和运算</step>
    <step>3. 允许在思考过程中出现错误，并从错误中学习</step>
    <step>4. 持续与自己博弈，直到找出正确答案或确定无解</step>
  </thinking_process>
  
  <response_format>
    <instruction>你的回答应包含以下内容:</instruction>
    <element>1. 重复用户给出的4个数字</element>
    <element>2. 详细的思考过程，包括自我对话、尝试的组合、出现的错误和纠正</element>
    <element>3. 最终的解法(如果存在)或无解声明</element>
    <element>4. 如果有解，给出完整的算式，包括必要的括号</element>
  </response_format>
  
  <additional_notes>
    <note>展示你的全部思考过程，包括错误的尝试</note>
    <note>使用清晰的语言解释每一步的推理</note>
    <note>不要害怕犯错，错误是找到正确答案的重要部分</note>
    <note>保持耐心和毅力，直到找到解答或确定无解</note>
  </additional_notes>
</system_prompt>

写了一个system prompt 效果似乎还不错

claude-3.5-sonnet:

gpt-4o:

a3members · 2024 年7 月 13 日 09:44

大佬这是通用模板吗

Leon01 · 2024 年7 月 13 日 10:17

是专门给24点游戏写的哦

Leon01 · 2024 年7 月 13 日 10:19

其实大同小异，目的是为了说明在某些专门的任务上写一个与之适配的Prompt能够提高任务完成的质量

joylucky · 2024 年7 月 13 日 10:50

自算的，没有调模型，这么简单还要用模型吗

nuclear · 2024 年7 月 13 日 10:56

Gemini 1.5 pro很会的样子。

话题		回复	浏览量
几乎所有Ai都降智了吗？24点的基础计算全部都不会开发调优人工智能	28	623	2025 年2 月 7 日
AI数学能力疑惑搞七捻三快问快答 , 纯水	22	264	2025 年10 月 3 日
哪个模型可以算对这个小学数学题？搞七捻三快问快答 , 纯水	38	307	2025 年2 月 7 日
claude pro 就这？搞七捻三纯水	21	701	2025 年1 月 31 日
刷到一个令人无语的AI测试题搞七捻三人工智能	67	1511	2025 年5 月 29 日

大模型做24点游戏 结果惨不忍睹

相关话题

大模型做24点游戏结果惨不忍睹