原文链接https://arxiv.org/pdf/2501.12948
论文明确建议R1使用零样本提示而非少样本提示。
此外,还确认了R1在以下方面表现不如或没有显著优于V3:
- 函数调用(Function Calling)能力
- 多轮对话(Multi-turn)能力
- 复杂角色扮演能力
- JSON输出格式处理
- 软件工程
原文链接https://arxiv.org/pdf/2501.12948
论文明确建议R1使用零样本提示而非少样本提示。
此外,还确认了R1在以下方面表现不如或没有显著优于V3:
JSON输出格式的确不如V3
意思是不要用传统的 few-shot 技巧
其实应该不止于此,感觉 R1 对于以往的结构化提示词(比如 #Role ##Workflow ##Skills 这类)都没什么感觉,用大白话告诉他任务是什么才能达到最好的效果,否则会把提示词翻来覆去地解读反而优柔寡断
关于结构化提示词的效果,我也怀疑过,但是论文没提,我也还没实测确认
啊这,会过度思考吗
部分倒退……
如果R1的"复杂角色扮演能力"差的话,也不会有那么多拿R1来搞**的了 ![]()
我观察了一下,提示词写得过于详细他就会不停的用“但是,用户说……”这类句式来否定原本说的很对的思考结果。我个人认为作为推理模型他自己能推导出应该做什么,就不需要那么多条条框框了
能否认为指令遵循能力不及预期?
刚刚试了一下
r1输出的文本质量比v3好很多,v3像人机而且说的话不自然
输出json格式的随机角色
按用户输入生成
必须按照以下格式生成角色的json资料
姓名:(以欧美与日本风格的名字为主,严格禁止出现名字相同或相似的角色)
稀有度:(有N,R,SR,SSR四种稀有度,越靠后越稀有)
性别:(随机)
种族:(N和R固定为人类,SR可能是人类,也可能是精灵、半兽人、矮人等其他种族,SSR必定是龙、天使、恶魔等稀有且强大的种族,但并不一定是这三个中的)
职业:(N是普通人日常中常见的职业,R是日常能够遇到但是较为少见的职业,SR是日常中十分少见的职业,SSR是高贵而稀有的职业)
外貌特点:(包括发色、瞳色等情况)
服装:(通常情况下,角色会穿着符合其职业和身份的衣服)
介绍:(对该角色的简要介绍)
标签:(用于AI绘图的关键字,根据角色的种族,职业,外貌特点,服装等情况生成,标签应当使用英文而非中文)
我之前在cursor里用就发现了。。。
药多会左脑跟右脑打架,跟阿诺一样复读是吗
那我问你
你是怎么不打架 ![]()
就是要说人话,少整那么多复杂的prompt
比如让他模仿孙吧风格就行了,不用整那么多设定
是这样的,我让它写一个函数,把背景和需求都写详细了,这货一直反复思考,然后就被截断了
好像就是用大白话直接问,效果好一些
太经典了 ![]()
我用的时候,可能是我表达不太准的原因,他总是会自己解读一部分信息,然后又自己反驳自己,这就导致他经常思考很久,而且有的时候回答不尽如人意
看他深度思考就给我一种看阿诺的感觉 ![]()
![]()
那这个 Aider LLM Leaderboards | aider 排行榜上 DeepSeek R1 + claude-3-5-sonnet-20241022 这一条,说不定换个模型效果更好(