Deepseek最新官方论文揭示：少样本提示会降低R1性能

alondite04 · 2025 年2 月 10 日 09:51

原文链接https://arxiv.org/pdf/2501.12948

论文明确建议R1使用零样本提示而非少样本提示。
此外，还确认了R1在以下方面表现不如或没有显著优于V3:

函数调用（Function Calling）能力
多轮对话（Multi-turn）能力
复杂角色扮演能力
JSON输出格式处理
软件工程

old9 · 2025 年2 月 10 日 09:54

JSON输出格式的确不如V3

EFL · 2025 年2 月 10 日 10:08

意思是不要用传统的 few-shot 技巧
其实应该不止于此，感觉 R1 对于以往的结构化提示词（比如 #Role ##Workflow ##Skills 这类）都没什么感觉，用大白话告诉他任务是什么才能达到最好的效果，否则会把提示词翻来覆去地解读反而优柔寡断

alondite04 · 2025 年2 月 10 日 10:11

关于结构化提示词的效果，我也怀疑过，但是论文没提，我也还没实测确认

handsome · 2025 年2 月 10 日 10:16

啊这，会过度思考吗

stevessr · 2025 年2 月 10 日 10:17

部分倒退……

hanlinwenyuan · 2025 年2 月 10 日 10:21

如果R1的"复杂角色扮演能力"差的话，也不会有那么多拿R1来搞**的了

EFL · 2025 年2 月 10 日 10:22

我观察了一下，提示词写得过于详细他就会不停的用“但是，用户说……”这类句式来否定原本说的很对的思考结果。我个人认为作为推理模型他自己能推导出应该做什么，就不需要那么多条条框框了

liulapatuoni · 2025 年2 月 10 日 10:23

能否认为指令遵循能力不及预期？

wuming · 2025 年2 月 10 日 10:28

刚刚试了一下
r1输出的文本质量比v3好很多，v3像人机而且说的话不自然
输出json格式的随机角色

总结

按用户输入生成
必须按照以下格式生成角色的json资料
姓名：（以欧美与日本风格的名字为主，严格禁止出现名字相同或相似的角色）
稀有度：（有N,R,SR,SSR四种稀有度，越靠后越稀有）
性别：（随机）
种族：（N和R固定为人类，SR可能是人类，也可能是精灵、半兽人、矮人等其他种族，SSR必定是龙、天使、恶魔等稀有且强大的种族，但并不一定是这三个中的）
职业：（N是普通人日常中常见的职业，R是日常能够遇到但是较为少见的职业，SR是日常中十分少见的职业，SSR是高贵而稀有的职业）
外貌特点：（包括发色、瞳色等情况）
服装：（通常情况下，角色会穿着符合其职业和身份的衣服）
介绍：（对该角色的简要介绍）
标签：（用于AI绘图的关键字，根据角色的种族，职业，外貌特点，服装等情况生成，标签应当使用英文而非中文）

lieyanqzu · 2025 年2 月 10 日 10:49

我之前在cursor里用就发现了。。。

IzualYang · 2025 年2 月 10 日 11:08

药多会左脑跟右脑打架，跟阿诺一样复读是吗

TuT · 2025 年2 月 10 日 11:24

那我问你你是怎么不打架

barrylongface · 2025 年2 月 10 日 11:25

就是要说人话，少整那么多复杂的prompt
比如让他模仿孙吧风格就行了，不用整那么多设定

leeorz · 2025 年2 月 10 日 11:28

是这样的，我让它写一个函数，把背景和需求都写详细了，这货一直反复思考，然后就被截断了

leeorz · 2025 年2 月 10 日 11:29

好像就是用大白话直接问，效果好一些

a-tang · 2025 年2 月 10 日 11:46

EFL · 2025 年2 月 10 日 11:56

太经典了

zys · 2025 年2 月 10 日 11:58

我用的时候，可能是我表达不太准的原因，他总是会自己解读一部分信息，然后又自己反驳自己，这就导致他经常思考很久，而且有的时候回答不尽如人意看他深度思考就给我一种看阿诺的感觉

tig · 2025 年3 月 6 日 13:20

那这个 Aider LLM Leaderboards | aider 排行榜上 DeepSeek R1 + claude-3-5-sonnet-20241022 这一条，说不定换个模型效果更好（

话题		回复	浏览量
DeepSeek，也许不是最好，但一定有细节打动你开发调优纯水	20	448	2025 年4 月 21 日
deepseek-v3 超过 claude-3.5？前沿快讯 ChatGPT , OpenAI , 人工智能	64	2657	2025 年1 月 28 日
Aider 排名中DSR1.1强于claude-opus-4 开发调优 DeepSeek , 人工智能	25	1050	2025 年7 月 4 日
不懂为什么都在吹deepseek-v3 250324版本搞七捻三 DeepSeek , 人工智能 , 快问快答 , 纯水	58	3791	2025 年6 月 3 日
感觉deepseek不好用啊，为啥都吹上天了搞七捻三人工智能	74	2271	2025 年4 月 25 日

Deepseek最新官方论文揭示：少样本提示会降低R1性能

相关话题