怎么量化测评提示词的性能呢

user1703 · 2025 年8 月 7 日 05:38

大多数时候，我们写提示词都是随便写的，或者按照某个模板，但是一般来说不会反复对比哪个提示词更好，而且很多问题上没法直观对比。
指定角色，让他反复思考，锁定某些数据源，严格规范输出，这些到底会不会对模型性能产生影响，产生多大影响，在通用任务中该如何量化呢。

yqyan · 2025 年8 月 7 日 05:54

没太理解佬友的需求，不过按我的理解大概说一下思路。

这个问题的关键点是要有评价用数据集，就是问题和标准回答（满分回答）。

用这个评价用数据集来对你写的一组提示词进行评价。

评价也可以使用大模型来做，就是写一个法官(judge) 提示词，这个提示词的功能就是
按照你给出的规则对于一个问题，用提示词生成的回答和标准答案进行对比打分并给出打分理由（打分理由实际上也是为了人为评价法官提示词的关键）。

用提示词生成的回答和评价都要多做几轮，对打分进行统计就会相对准确一些。

leokk · 2025 年8 月 7 日 06:00

看实现的程度，设定几个预期指标，看满足多少，然后多次测量，取平均值（bushi）

user1703 · 2025 年8 月 7 日 06:37

关键是没有标准答案

user1703 · 2025 年8 月 7 日 06:38

没法量化预期指标

yqyan · 2025 年8 月 7 日 06:45

那你就没法量化，因为没有量化依据
你想打个分，总的知道满分是什么样的啊

user1703 · 2025 年8 月 7 日 06:54

所以不知道怎么办，生活中没法打分的事情还是占大多数的

Calmmd · 2025 年8 月 7 日 07:06

可以举点例子吗？总能打分的呀，或者你可以把问题跟答案反向丢给另外的模型进行评测

yqyan · 2025 年8 月 7 日 07:10

没标准，丢给哪个模型都很难评测

user1703 · 2025 年8 月 7 日 07:27

比如我让它写个ppt大纲，或者举个例子说明一件事

user1703 · 2025 年8 月 7 日 07:28

是的，给两份答案到ai中，每次的回答和分数都是不一样的

yqyan · 2025 年8 月 7 日 07:30

没标准，就别指望量化，你可以做一些标准数据，用AI生成一些，人工整合整理修补后，作为标准答案

user1703 · 2025 年8 月 7 日 07:32

标准会分为两种，一种是简单的二元判断，可用，不可用。另一种是，需要我改动的比例。但是这两种无法快速判断提示词质量和回答质量

user1703 · 2025 年8 月 7 日 07:33

写个 ppt 大纲，或者举个例子说明一件事，或者帮我设计一套面试题，这些没什么标准数据和标准答案的。。

yqyan · 2025 年8 月 7 日 07:36

做的评价数据集是用于评价提示词的，只是为了用于判断提示词的好坏，不是判断生成的回答好坏的

sharmt · 2025 年8 月 7 日 08:56

如果单纯看某些提示词技巧有没有用，准备比如选择题，判断题，填空题之类的有标准答案的测试集10题。用不同提示词去看准确率。这种一般提示词技巧都有对应的论文，看论文就知道有没有提升了。
如果说单纯具体到某个你的不可量化的项目上，那还真没啥好办法，只能人工主观打分。

apparition · 2025 年8 月 7 日 09:14

佬讲的例子都有可以量化的指标
ppt 大纲什么叫好，最简单不就是台下的人(听众)喜不喜欢吗
G佬(?) 讲得已经很清楚了，所谓的指标不是只有0或1而已
某项目只能主观评价时，让LLM主观评分很合理
说穿了提示词只是辅助，不用太钻研在一些枝微末节上

JanZhang · 2025 年8 月 7 日 10:19

主要是产出非标准化的。很难打分的呀。

我认为佬本质上还是想找一个相对好一些的提示词来输出答案。不如在提示词上面多下功夫，可以让AI先一步优化一下提示词部分。

对于输出的结果想横向评估，在日常问答里面太难了。除非这个提示词你会用很多次。

我记得市面上是有专门用语提示词优化的软件的，之前有了解过，我感觉他们的用户更多是一个提示词要用好久那种

mars89757 · 2025 年8 月 7 日 10:58

我觉得augument比cursor好用,我就觉得augument提示词强

StriveMario · 2025 年8 月 7 日 11:17

没法量化

话题		回复	浏览量
“提示词工程师”目前算不算风口行业？这个新兴职业可以考虑吗？搞七捻三人工智能	50	1239	2025 年3 月 19 日
为什么很多人这么纠结于prompt 开发调优 Prompt , 人工智能	72	2866	2025 年4 月 5 日
终极翻译家-信·达·雅【by Q_S提示研究师】资源荟萃 Prompt , 人工智能	55	1472	2024 年12 月 9 日
让模型自行决定想做什么，第一个想做的事情居然是研究昆虫和古人类的迁徙路线选择搞七捻三人工智能 , 纯水	104	994	2025 年6 月 18 日
关于提示词能不能解决 sonnet 的思维逻辑不足。。。开发调优人工智能 , 纯水	10	357	2026 年2 月 19 日