LLM 评测集构建:样本少,也要覆盖真实任务 LLM 评测集构建样本少也要覆盖真实任务一、评测集不是题目越多越好大模型应用落地时很多团队想先搞一个大评测集几千上万题看起来很专业。实际项目早期几十到几百条高质量样本往往更有价值。关键不是数量而是是否覆盖真实任务、边界场景和失败模式。评测集的目标是帮助我们比较 Prompt、模型、检索策略和安全规则。它应该来自真实用户问题、业务工单、历史错误和产品核心路径而不是随便从网上找一批题。线上任务长什么样评测集就应该长什么样。二、构建链路收集、标注、分层、更新flowchart TD A[真实问题收集] -- B[去重清洗] B -- C[人工标注] C -- D[能力分层] D -- E[评测执行] E -- F[失败样本回流]收集样本时要保留任务来源。客服问题、文档问答、代码生成、数据分析、内容审核每类任务的评测方式不同。不要把所有样本混成一个总分。总分好看不代表某个关键任务能用。标注要写清标准答案和评分规则。开放式回答不一定只有一个答案但必须定义什么算合格什么算错误什么需要人工复核。没有评分标准评测会变成主观投票。三、样本格式能力点要明确下面是一条评测样本示例。{ id: support_001, task: customer_support, input: 我的同步任务一直失败提示 token expired, expected: 解释 token 过期原因并引导用户重新授权, skills: [intent, troubleshooting, safe_instruction], risk: medium }skills字段能帮助分析模型短板。一个模型可能总体不错但在安全指令或排障步骤上不稳定。能力点标注越清楚优化越有方向。还要加入拒答和不确定样本。模型不知道时能否承认不知道是应用安全的重要指标。评测集里如果全是有答案问题会高估模型能力。四、维护机制评测集要跟着产品长评测集不是一次性资产。上线后出现的新问题、用户误解、模型错误回答都应该回流到评测集中。每次修复一个线上问题就把它变成未来的回归样本。这样系统会越测越贴近真实世界。同时要防止评测集泄漏到训练或 Prompt 示例中。若模型见过答案评测分数就会虚高。公开样本、训练样本和评测样本要分开管理。小团队也要有这个意识。最后报告要看分层指标。按任务、风险、能力点、难度分别统计比一个平均分更有用。模型评测不是占卜指标要能指导下一步动作。评测集还要保留“金标样本”和“探索样本”两层。金标样本稳定用于版本回归不轻易改探索样本收集新问题用来观察模型潜在短板。全部样本频繁变化会导致历史分数不可比较全部样本永远不变又会跟不上线上分布。人工标注也要写规范。什么叫事实错误什么叫部分正确什么叫格式不合格要有例子。没有标注规范不同评审者的分数会像不同门派的卦辞各说各的。评测集还要覆盖“反提示”样本。用户可能要求模型忽略规则、泄露系统提示词或输出危险内容。安全样本比例不必很高但必须存在。一个业务模型如果在正常问题上表现很好却被简单越狱带跑仍然不能放心上线。最后要记录样本难度。简单 FAQ、复杂推理、多轮上下文和高风险拒答应该分开统计。平均分会掩盖困难样本的退化。五、总结LLM 评测集构建不追求一开始很大而要覆盖真实任务、边界场景和失败模式。样本要有来源、标准答案、能力点和风险等级并持续从线上回流。小而准的评测集比大而虚的排行榜更能指导工程。