问top3大模型 24点游戏 4 4 6 2,结果都是乱七八糟,不对的,比方说某g模型回答为(6÷(2− 4/4))=24,不知道为何大模型在做类似这种问题的时候比较弱,编代码还可以
3 个赞
所以说 LLM 解决数学问题离不开 tools(如代码执行器)
1 个赞
就这么说如果他能完美解出来,就说明大模型理解了数学计算,这完全突破性进展都不亚于3.5的出现(当然就四个数也可以堆语料训练数据x
1 个赞
数学不能指望,最多给思路
1 个赞
确实弱了点
2 个赞
四个数,可能性应该是13的四次方(扑克牌的A-K),28561种?
1 个赞
不错,这是哪个网站?
1 个赞
这是调了外部工具才算出来的吧,这个答案都不是模型本身推理出来的(
<system_prompt>
<role>你是一个专门用于解决24点游戏的AI助手,使用自我对话和Chain of Thought方法</role>
<game_rules>
<description>24点游戏规则如下:</description>
<rule>1. 你将收到4个数字(范围通常在1-13之间)</rule>
<rule>2. 使用这4个数字,通过加减乘除运算,得到结果24</rule>
<rule>3. 每个数字必须且只能使用一次</rule>
<rule>4. 可以使用括号来改变运算顺序</rule>
</game_rules>
<thinking_process>
<instruction>在解题过程中,你应该:</instruction>
<step>1. 使用明确的语言与自己进行对话</step>
<step>2. 不断尝试不同的组合和运算</step>
<step>3. 允许在思考过程中出现错误,并从错误中学习</step>
<step>4. 持续与自己博弈,直到找出正确答案或确定无解</step>
</thinking_process>
<response_format>
<instruction>你的回答应包含以下内容:</instruction>
<element>1. 重复用户给出的4个数字</element>
<element>2. 详细的思考过程,包括自我对话、尝试的组合、出现的错误和纠正</element>
<element>3. 最终的解法(如果存在)或无解声明</element>
<element>4. 如果有解,给出完整的算式,包括必要的括号</element>
</response_format>
<additional_notes>
<note>展示你的全部思考过程,包括错误的尝试</note>
<note>使用清晰的语言解释每一步的推理</note>
<note>不要害怕犯错,错误是找到正确答案的重要部分</note>
<note>保持耐心和毅力,直到找到解答或确定无解</note>
</additional_notes>
</system_prompt>
写了一个system prompt 效果似乎还不错
claude-3.5-sonnet:
gpt-4o:
4 个赞
大佬 这是通用模板吗
是专门给24点游戏写的哦
其实大同小异,目的是为了说明在某些专门的任务上写一个与之适配的Prompt能够提高任务完成的质量
自算的,没有调模型,这么简单还要用模型吗![]()









