新闻动态
NEWS CENTER
NEWS CENTER
2025-08-19
在大模型的练习中,模型评测始终是不可或缺的一个环节,模型的优势劣势、迭代方向、迭代效果、与国表里竞品的差距、是否存在硬伤?假如没有评测,以上所说的这些都无法判别。因而近2年来「模型评测」相关岗位,需求呈现了井喷,各大公司都紧锣密鼓地搭建模型评测团队。
然而与此同时,各大公司又在布局另一件事:自动化评测,即用大模型评测大模型
判别模型是否可靠,莫非不应该用人类吗?既然如此,为什么要用模型来评测模型?原因很简单:
当时人类团队的评测产能,开端跟不上评测需求了
这个跟不上需求,主要体现在两个维度:
一是评测进入专项深水区,人类有点跟不上节奏了,比方代码生成等评测使命。对于这些数据,人类评测往往需求投入很多时间成本,而且在不少情况下,评测人员自身也难以准确判别成果的对错;
二是随着模型迭代速度不断加速,评测需求呈指数级增加,现有团队已难以承载;而假如单纯依托扩大人力来解决,不仅效率低,还会带来显著的成本压力。
作为在职的 SFT&模型评测项目经理,本文就从一个 AI 练习从业者的视角,共享从0到1搭建起自动化评测流程的核心思路。
搭建自动化评测流程之前,不妨先从常规评测流程下手,思考常规流程能够怎么用大模型进行改造。
常规的模型评测流程是这样的:
常规评测流程自身现已相当科学,但正如前文所述,它在效率与成本上存在显着瓶颈。那么,怎么使用大模型对其进行改造?一个直观的思路是,将评测团队中部分重复性强、规矩性明确的作业逐步交给模型完成。
例如在规矩撰写环节,曩昔需求人工整理布景与要求,而现在咱们只需向 AI 口述项目布景、评测需求和重点重视的维度,就能快速生成一份初版的评测规矩文档。在此基础上,人类再进行修订和优化,就能够节省很多时间与精力。
需求留意的是,若方针是自动化评测,那么面向 AI 的规矩文档与面向人工评测员的文档会有所差异,这一点咱们会在后文展开。
敲定规矩文档后,咱们需求让 AI 进行试标,看看输出的内容、结构等,是否契合咱们评测的需求?这也是让 AI 接收评测的重要一步,而这一步的关键在于:prompt 的构建。咱们需求根据规矩来撰写一段清晰、明确的prompt,让 AI 能够了解,它应该怎么对每条数据进行评测,而且给出评测成果。完成 prompt 之后,就能够进行小批量的试标了。
AI 试标的过程,本质上是对规矩及 prompt 合理性的查验,AI 试标输出的成果契合需求后,咱们就能够批量把评测数据交给 AI 进行评测,等候 AI 给出的评测成果。
因为目前 AI 仍然存在错觉问题,因而 AI 给出的评测成果,并不能够百分百相信,更不能够直接用于输出评测报告,它们的凭仗成果还需求经过人类团队的验证,因而下一个环节就是:人类检验 AI 评测成果。
假如评测集仅有100~200条数据,直接100%检验即可;但假如评测集的量级较大,如超过500乃至1000条,咱们能够采纳先抽验30%,看看评测成果是否相信,假如准确率达到95%以上,基本能够断定本次 AI 评测的成果是相信的,也就能够输出评测报告了。