怎么量化测评提示词的性能呢

大多数时候,我们写提示词都是随便写的,或者按照某个模板,但是一般来说不会反复对比哪个提示词更好,而且很多问题上没法直观对比。
指定角色,让他反复思考,锁定某些数据源,严格规范输出,这些到底会不会对模型性能产生影响,产生多大影响,在通用任务中该如何量化呢。

3 个赞

没太理解佬友的需求,不过按我的理解大概说一下思路。


这个问题的关键点是要有评价用数据集,就是问题和标准回答(满分回答)。

用这个评价用数据集来对你写的一组提示词进行评价。

评价也可以使用大模型来做,就是写一个法官(judge) 提示词,这个提示词的功能就是
按照你给出的规则对于一个问题,用提示词生成的回答和标准答案进行对比打分并给出打分理由(打分理由实际上也是为了人为评价法官提示词的关键)。

用提示词生成的回答和评价都要多做几轮,对打分进行统计就会相对准确一些。

1 个赞

看实现的程度,设定几个预期指标,看满足多少,然后多次测量,取平均值(bushi)

关键是没有标准答案

没法量化预期指标

那你就没法量化,因为没有量化依据
你想打个分,总的知道满分是什么样的啊

所以不知道怎么办,生活中没法打分的事情还是占大多数的

4 个赞

可以举点例子吗? 总能打分的呀,或者你可以把问题跟答案反向丢给另外的模型进行评测

没标准,丢给哪个模型都很难评测

比如我让它写个ppt大纲,或者举个例子说明一件事

是的,给两份答案到ai中,每次的回答和分数都是不一样的

没标准,就别指望量化,你可以做一些标准数据,用AI生成一些,人工整合整理修补后,作为标准答案

1 个赞

标准会分为两种,一种是简单的二元判断,可用,不可用。另一种是,需要我改动的比例。但是这两种无法快速判断提示词质量和回答质量

写个 ppt 大纲,或者举个例子说明一件事,或者帮我设计一套面试题,这些没什么标准数据和标准答案的。。

做的评价数据集是用于评价提示词的,只是为了用于判断提示词的好坏,不是判断生成的回答好坏的

如果单纯看某些提示词技巧有没有用,准备比如选择题,判断题,填空题之类的有标准答案的测试集10题。 用不同提示词去看准确率。 这种一般提示词技巧都有对应的论文,看论文就知道有没有提升了。
如果说单纯具体到某个你的不可量化的项目上,那还真没啥好办法,只能人工主观打分。

佬讲的例子都有可以量化的指标
ppt 大纲什么叫好,最简单不就是台下的人(听众)喜不喜欢吗
G佬(?) 讲得已经很清楚了,所谓的指标不是只有0或1而已
某项目只能主观评价时,让LLM主观评分很合理
说穿了提示词只是辅助,不用太钻研在一些枝微末节上

主要是产出非标准化的。 很难打分的呀。

我认为佬本质上还是想找一个相对好一些的提示词 来输出答案 。不如在提示词上面多下功夫,可以让AI先一步优化一下提示词部分 。

对于输出的结果 想横向评估,在日常问答里面太难了。 除非这个提示词你会用很多次 。

我记得市面上是有专门用语提示词优化的软件的,之前有了解过,我感觉他们的用户更多是一个提示词要用好久那种

1 个赞

我觉得augument比cursor好用,我就觉得augument提示词强 :laughing:

1 个赞

没法量化