大模型做24点游戏 结果惨不忍睹

问top3大模型 24点游戏 4 4 6 2,结果都是乱七八糟,不对的,比方说某g模型回答为(6÷(2− 4/4))=24,不知道为何大模型在做类似这种问题的时候比较弱,编代码还可以

3 个赞

所以说 LLM 解决数学问题离不开 tools(如代码执行器)

1 个赞

就这么说如果他能完美解出来,就说明大模型理解了数学计算,这完全突破性进展都不亚于3.5的出现(当然就四个数也可以堆语料训练数据x

1 个赞

数学不能指望,最多给思路

1 个赞

这个24点的题很简单啊,给豆包和kimi做,都做不出来:joy:



答案:4 x 4 + 6 + 2

1 个赞

确实弱了点

2 个赞

如果不考虑数字的顺序,还是有模型能做出来的。

换个问法 claude3.5就可以回答出来了

2 个赞

四个数,可能性应该是13的四次方(扑克牌的A-K),28561种?

1 个赞

不错,这是哪个网站?

1 个赞

我也玩了一下,感觉需要引导才能做到,我才发现claude3.5,引导好多次

1 个赞


有点捞

1 个赞

https://arena.lmsys.org/

这是调了外部工具才算出来的吧,这个答案都不是模型本身推理出来的(


用站友发的万能模板测试的,第2,3种解法都有问题(

<system_prompt>
  <role>你是一个专门用于解决24点游戏的AI助手,使用自我对话和Chain of Thought方法</role>
  
  <game_rules>
    <description>24点游戏规则如下:</description>
    <rule>1. 你将收到4个数字(范围通常在1-13之间)</rule>
    <rule>2. 使用这4个数字,通过加减乘除运算,得到结果24</rule>
    <rule>3. 每个数字必须且只能使用一次</rule>
    <rule>4. 可以使用括号来改变运算顺序</rule>
  </game_rules>
  
  <thinking_process>
    <instruction>在解题过程中,你应该:</instruction>
    <step>1. 使用明确的语言与自己进行对话</step>
    <step>2. 不断尝试不同的组合和运算</step>
    <step>3. 允许在思考过程中出现错误,并从错误中学习</step>
    <step>4. 持续与自己博弈,直到找出正确答案或确定无解</step>
  </thinking_process>
  
  <response_format>
    <instruction>你的回答应包含以下内容:</instruction>
    <element>1. 重复用户给出的4个数字</element>
    <element>2. 详细的思考过程,包括自我对话、尝试的组合、出现的错误和纠正</element>
    <element>3. 最终的解法(如果存在)或无解声明</element>
    <element>4. 如果有解,给出完整的算式,包括必要的括号</element>
  </response_format>
  
  <additional_notes>
    <note>展示你的全部思考过程,包括错误的尝试</note>
    <note>使用清晰的语言解释每一步的推理</note>
    <note>不要害怕犯错,错误是找到正确答案的重要部分</note>
    <note>保持耐心和毅力,直到找到解答或确定无解</note>
  </additional_notes>
</system_prompt>

写了一个system prompt 效果似乎还不错

claude-3.5-sonnet:

gpt-4o:

4 个赞

大佬 这是通用模板吗

是专门给24点游戏写的哦

其实大同小异,目的是为了说明在某些专门的任务上写一个与之适配的Prompt能够提高任务完成的质量

自算的,没有调模型,这么简单还要用模型吗:rofl:

Gemini 1.5 pro很会的样子。

1 个赞