本站没有人访问都是0,没有赚取一分钱
请扫码咨询

新闻动态

NEWS CENTER

优质评测 Prompt = 明晰的评测方针 + 明晰明晰的规矩文档 + 格局束缚

2025-08-19

在评测流程完结初步改造后,AI 已能够接手规矩的初版撰写、试标以及正式的评测标注,这意味着自动化评测的结构根本具有。

但真正决议这套系统能否跑得通的要害因素,或者说整个流程的要害节点,其实在于——评测 Prompt 的构建。

我把一个好的评测 Prompt,浓缩为了以下这个公式:

优质评测 Prompt = 明晰的评测方针 + 明晰明晰的规矩文档 + 格局束缚

一个个来展开。

1. 明晰的评测方针

这个没有太多可说的,便是要让模型知道它究竟在评测什么?是准确性、相关性、逻辑共同性,仍是可读性?假如方针本身模糊,模型的输出就会违背预期,评测成果也就无法选用。

2. 明晰明晰的规矩文档

能够这么说,写给模型参考的规矩文档,质量要求要比给人类团队的更高。由于人类评测和模型自动化评测,即便终究交付的成果相同,但完结使命的路径差别极大。

在人类团队评测时,即便规矩文档存在瑕疵或表述不行明晰,评测员仍能够通过交流、提问或反应来弄清困惑,然后批改差错,终究使得交付的评测数据根本符合评测需求及规矩。

而模型不同于人类评测员,首要,模型无法在模糊规矩下做出灵活的判别,而是完全依靠 Prompt 供给的信息、指令来进行输出;其次,模型没有这种问询规矩制定者的处理路径,它面临模糊规矩时只能硬性给出成果,往往违背实在目的。

因而假如规矩在 Prompt 中的表达不行明晰,对规矩维度的定义不明晰,那么自动化评测的定论就会失真,自动化评测不只无法帮助咱们降本增效,反而浪费了许多的时刻和资源。

除了各个评测维度的规矩以外,评测的办法分值也需求进一步优化。

在人类评测中,常用的是 0/0.5/1、0/1/2,或 0–5 等较粗粒度刻度。之所以可行,是由于整个流程严厉依据评测规矩与判定规范,合作质检与验收流程,对存疑数据也能够通过讨论到达评测成果的共同,总体而言,现有的人类评测流程和规范,是科学且相信的。

对模型而言,情况则有所不同。

由于大言语模型的实质是计算学,是概率,这就导致模型的生成成果必定存在抖动

而模型在面临纤细差异时,要么被逼落在同一档,失掉区分度;要么由于细微波动而跨档跳分,构成成果不安稳。长期来看,这会把本来能够忽略的小差异不断扩大,与模型本身的输出抖动叠加在一起,使得评测成果在批次之间缺少共同性,难以作为可靠的参考依据。

因而,在自动化评测中通常需求更细粒度或更长刻度的评分办法,防止呈现上述情况,以提高评测的准确度。

自动化评测意味着规模化的输出成果,因而强制束缚模型的输出格局,十分重要。

即便是同一段prompt,即便是同一个模型,或许每次都会输出不同结构的内容,这种结构上的不共同,一旦进入大规模评测,就会带来严重的问题:

首要,人工验收模型评测的成果会十分费事,比方有的response只给分数,不给原因,验收就相当于人工从头再评一次这条数据,团队不得不投入许多人力去判别评测成果,那自动化频次的含义安在?其次,不同批次的评测成果缺少共同的输出口径,就很难进行横向比照,乃至今天输出的数据和下个月的数据没有可比性,版别迭代之间的差异无法量化,导致咱们无法判别模型的实在改善起伏。

因而咱们在prompt里边,有必要要求模型以固定结构输出成果,这是规模化的条件,只要共同格局才干保证后续:人工核验、计算、比对、批量数据整合的可行性。

落到实操上,能够要求模型严厉遵循固定的输出结构,比方共同要求以 JSON 格局回来评分和理由,或者以表格形式输出各维度的得分等。

这样做的优点是清楚明了的:一方面,成果能够直接被系统化收集和剖析,极大提升了规模化的可行性;另一方面,不同版别、不同批次的成果能够保持共同口径,真正构成可比性和可追溯性。

满意上述的三个条件,咱们也就得到了一个优质的可用于自动化评测的 Prompt,接下来的重点是什么呢?

是模型。

评测模型的选用


相信我,假如你真的完好建立一遍自动化评测流程,会发现挑选合适的模型,或许是最费事的一步,由于你需求同时考虑三个问题:

  1. 功能问题
  2. 安稳性问题
  3. 本钱问题

功能问题

首要是功能问题,并不是一切的大模型都合适用来作为评测模型。这儿的“功能”指的不是通用功能,而是评测方面的功能。

固然,许多模型在生成使命中体现出色,比方对话流通、内容丰富、信息密度较大,但当场景切换到自动化评测,反而未必合适,原因在于,评测要求模型更加克制和精准,它要依照固定的规矩去判别正确与否、怎么给分,而不是发挥创意,对评测数据进行发散的剖析。

比方咱们在内部的模型选型进程傍边,测试了若干个干流大模型,其中有一个模型的体现,让人感到错愕:某thinking大模型,文本生成才能不错,代码才能也是榜首队伍,咱们本来对其寄予厚望,但很无奈,它在自动化评测场景的体现十分一般,乃至有些让人绝望。

举个比如:当咱们故意往一条评测数据中,人为参加一些显着的初级过错,而且进行反复评测,依照咱们设定的机制和规矩,呈现这种初级过错,终究得分不或许高于30分…然而,该模型评测成果这样的:


也就意味着,该模型在5次评测中,有4次都没有发现人为添加的初级过错,乃至第3次分数的还更高了。

当然,这个模型还存在一些其他的问题,咱们立刻就会讲到,也便是:安稳性。

安稳性问题

仍是某thinking模型,以另外一条数据为例:


在同一个模型、同一条输入的条件下,咱们接连跑了 5 次评测,成果呈现了显着的波动:榜首次是 52 分,第二次掉到 49 分,第三次又升到 56 分,第四次骤降到 43 分,第五次再回到 60 分。

——全体的浮动范围到达 16 分。

这就会导致同一条数据没有得到相对共同的定论,对于自动化评测系统来说,这种波动是丧命的,由于它不行安稳,导致咱们无法判别究竟哪一次的定论才是相信的,也就无法用它来长期进行评测。

怎么处理功能问题和安稳性问题呢?只能不断地尝试,用各种难度的数据进行测试,终究构成几个团队公认的、评测成果较为相信的标杆模型。

选出了标杆模型之后,咱们还需求处理第三个问题:本钱。

本钱问题

在实践的评测使命傍边,并非一切的使命难度都很大,如目的辨认类的评测相对简单,模型只需判别query的核心目的即可;而代码生成、翻译等使命的评测难度则显着更高,往往需求模型具有强壮的理解与剖析才能。

这就引出了一个问题:是不是一切的评测都需求用顶尖的大模型去自动化评测?

明显不需求,假如一切使命都一刀切地用顶尖模型去跑,本钱会迅速膨胀,老板也不会太高兴。因而在自动化评测傍边,咱们还需求根据使命难度,去匹合作适的模型。

例如低难度、高频次的使命,能够使用参数量较小的模型,以较低的单次调用本钱换取覆盖面和效率,加上使命本身难度较小,人工复核的速度也较快,终究能够给出相信的评测成果。

高难度、对成果准确性要求极高的使命,则有必要引入顶尖大模型,本钱高一些是能够承受的,但有必要保证评测定论的可信度。

所以归纳看下来,在实践建立模型自动化评测流程的进程傍边,要踩的坑仍是不少的,模型的挑选便是一个比较大的坑。

因而模型自动化评测流程的建立,并不是一蹴即至的,它需求咱们耐心地衡量每一步怎么改造,才干在提升评测产能的同时,也统筹评测成果的相信,最重要的是让评测团队的同学,从重复性劳作中解放出来,转而专注于规矩优化、差错诊断等更高价值的环节。

完结上述的步骤,自动化评测的流程根本也就能够跑通了,当然,建立这个流程急不得,在统筹现有业务的情况下,个人预计一个团队要把这套流程建立起来,一个月的时刻仍是需求的。

相关推荐