Prompt与Finetune如何选：基于任务结构强度的工程决策指南-拓冰建站

1. 这不是“选哪个更好”，而是“在什么场景下必须用哪个”

Prompt 和 Finetune，这两个词最近两年在技术社区里被反复咀嚼、对比、甚至神化。但说实话，我带过二十多个企业级大模型落地项目，从电商客服知识库增强，到金融研报自动摘要，再到制造业设备故障日志归因分析，真正让我凌晨三点还在改 config 的，从来不是“该不该用 LLM”，而是——在当前这个具体任务里，Prompt 能不能扛住，扛不住时，Finetune 又该切到哪一层。这不是理论题，是每天要签交付单的实操题。

核心关键词已经很清晰：Prompt、Finetune、LLM 控制、工具选择、任务适配。它们指向一个非常务实的问题：当你要让一个大语言模型按你的意图稳定输出，而不是靠玄学祈祷它“理解”你，你手里的扳手（Prompt）和焊枪（Finetune）该怎么用？用错工具，轻则效果波动大、上线后天天救火；重则投入几十万算力成本，结果模型在关键字段上持续 hallucinate，客户直接终止合同。我见过太多团队把 Prompt 当万能胶水，硬贴所有场景，最后发现胶水干了，接口也裂了；也见过另一些团队一上来就冲 Finetune，训完发现模型在训练集上 F1 达到 92%，一放到真实用户 query 上，连基础格式都保不住——因为没想清楚：你到底是在调教一个“翻译器”，还是在训练一个“新员工”？

这篇文章不讲抽象概念，不画技术演进路线图，也不做“Prompt is dead”这种博眼球的断言。它是我过去三年踩坑、复盘、再验证后整理出的一套决策树+实操手册。你会看到：为什么一个简单的“请用 JSON 格式返回”在医疗问诊场景里会失效；为什么 Finetune 时加 500 条高质量样本，效果可能不如删掉 30 条噪声数据；为什么有些任务，你必须同时用 Prompt + LoRA 微调，缺一不可。所有内容，都来自真实生产环境的日志、A/B 测试报告、以及客户现场录屏里那些让人头皮发麻的失败案例。如果你正面临模型输出不稳定、业务方反复质疑“为什么上次能答对这次就错了”、或者技术负责人在会议上问“我们到底该投资源做 Prompt 工程还是微调”，那这篇就是为你写的。

2. 内容整体设计与思路拆解：从“控制粒度”和“成本结构”两个维度建立决策框架

2.1 为什么传统对比表（Prompt vs Finetune）根本解决不了实际问题？

翻开任何一篇公开资料，你大概率会看到一张对比表：Prompt 是零代码、低成本、快迭代；Finetune 是高成本、长周期、强定制。这没错，但毫无指导意义。就像告诉你“螺丝刀适合拧螺丝，电钻适合打孔”，可没告诉你——当你要在混凝土墙上固定一个承重置物架时，是先用电钻打孔再用螺丝刀拧紧，还是直接用冲击螺丝刀一气呵成？答案取决于墙的材质、螺丝的规格、架子的重量，以及你手边有没有电钻。

真正的决策起点，必须回归到两个不可回避的物理事实：

控制粒度（Control Granularity）：你要求模型服从的指令，是“宏观行为”（比如“扮演资深律师回答问题”），还是“微观结构”（比如“每个回答必须包含‘依据《民法典》第XXX条’，且法条编号必须与知识库中完全一致，不允许任何缩写或口语化表达”）？前者 Prompt 就能覆盖，后者几乎必然需要 Finetune。
成本结构（Cost Structure）：这里的成本不只是钱。它包含三块：人力成本（谁来写、测、维护 Prompt/微调脚本）、时间成本（从需求提出到上线验证的周期）、隐性运维成本（上线后，当业务规则变更、知识库更新、用户反馈出现新错误模式时，修复的难度和速度）。很多团队只盯着 GPU 小时费，却忽略了：一个维护不良的 Prompt 链，每周要花工程师 10 小时 debug 输出格式错误，一年下来人力成本远超一次微调。

所以，我的设计思路不是“二选一”，而是构建一个动态适配的三层控制栈：

L0 层：系统级约束（System-Level Guardrails）
这是所有控制的基础，由模型服务层（如 vLLM、TGI）提供，比如禁用特定 token、设置最大生成长度、强制 top-k 采样。它不依赖 Prompt 或 Finetune，但决定了上层能发挥多大作用。举个例子：如果业务要求“绝对不能输出联系方式”，光靠 Prompt 写“不要输出电话号码”是无效的，必须在 L0 层配置 token ban list。我见过一个教育 SaaS 项目，就是因为没设这一层，模型在用户追问“老师微信多少”时，真的编了一个 11 位数字出来，导致合规事故。
L1 层：Prompt 工程（Prompt Engineering）
这是应对“行为泛化”类需求的主力。它的核心能力是引导注意力、激活特定知识、设定输出范式。典型成功场景：让模型基于给定文档摘要、按指定风格重写文案、在多轮对话中保持角色一致性。它的优势在于可解释性强（你能看到 prompt 文本）、调试快（改一行文本，5 分钟内可见效果）、无训练开销。但它的致命弱点是脆弱性——对输入措辞极其敏感。同一个问题，用户说“帮我写个辞职信”，Prompt 效果很好；但换成“老板太难搞了，我想走人，怎么写”，模型可能就忘了格式要求，开始抒情。
L2 层：参数微调（Parameter Fine-tuning）
这是应对“结构强约束”和“领域深度适配”类需求的终极手段。它通过调整模型内部权重，让模型内化某种模式或知识边界。比如：让模型学会将“小明发烧38.5℃”自动归类为“需转诊”而非“居家观察”；或者让模型在生成 SQL 时，永远优先使用LEFT JOIN而非INNER JOIN，即使 Prompt 里没强调。它的优势是鲁棒性强、泛化好、一旦训好，对输入变化不敏感。代价是：训练数据质量要求极高（垃圾进，垃圾出）、验证周期长（训一次 8 小时，A/B 测试再 2 天）、且存在“灾难性遗忘”风险（微调后，模型在通用能力上明显退化）。

这个三层栈不是线性替代关系，而是叠加增强关系。最健壮的生产系统，往往是 L0 做安全兜底，L1 做日常灵活调度，L2 解决 L1 无法攻克的顽固问题。比如我们给某银行做的智能投顾助手，L0 层禁用所有收益承诺类词汇；L1 层用 Chain-of-Thought Prompt 引导模型分步推理“客户风险测评等级→产品匹配逻辑→免责声明生成”；而 L2 层，则专门用 2000 条真实客户问答微调了模型对“净值型理财”和“预期收益型理财”的术语区分能力——这个点，Prompt 怎么写都绕不过去，因为涉及大量行业黑话和监管话术的精确映射。

2.2 为什么“任务类型”比“模型大小”更能决定工具选择？

很多文章会说：“小模型适合 Finetune，大模型适合 Prompt”。这是严重误导。我拿自己手上的一个真实案例说明：我们用 Qwen-7B 做一个法律文书生成任务（生成起诉状），初始 Prompt 效果极差，模型总把“诉讼请求”写成“希望法院帮忙”，完全不懂法律文书的刚性结构。团队第一反应是“换更大模型”，试了 Qwen-14B，效果反而更糟——参数更多，随机性更强，格式更飘。后来我们没换模型，而是做了两件事：第一，在 Prompt 里嵌入了起诉状的完整 XML Schema，并强制要求输出必须是合法 XML；第二，用 300 条高质量起诉状微调了模型的“结构感知头”（仅微调最后 2 层 transformer block）。结果：Qwen-7B 在格式合规率上从 42% 提升到 98.7%，且推理速度比 Qwen-14B 快 2.3 倍。

关键洞察在于：任务的结构性强度，远大于模型尺寸对工具选择的影响。所谓“结构性强度”，指任务输出是否具有明确、不可妥协的格式、顺序、术语、逻辑链。起诉状、医疗诊断报告、工业设备维修 SOP，都属于高结构性任务。这类任务，Prompt 可以作为“启动器”和“校验器”，但无法作为“主引擎”。而像“根据会议纪要生成待办事项列表”、“对用户评论做情感倾向打分（正面/中性/负面）”，这些是低结构性任务，Prompt 完全可以胜任，且效果稳定。

所以，我的决策流程第一步，永远是画一张任务结构强度评估表，从五个维度打分（1-5 分）：

评估维度	低强度（1-2 分）示例	高强度（4-5 分）示例
格式刚性	“用一句话总结”	“必须输出 JSON，包含 title、summary、action_items 三个 key，action_items 为字符串数组”
术语精确性	“描述一下手机拍照功能”	“使用《医疗器械分类目录》中的标准术语，不得使用‘镜头’‘像素’等消费电子词汇”
逻辑链长度	“判断这句话是否含歧视”	“根据用户症状→推断可能疾病→列出需排除的鉴别诊断→给出首诊建议”
知识更新频率	“介绍牛顿三大定律”（百年不变）	“列出最新版《网络安全法》实施细则中关于APP权限的条款”
错误容忍度	“摘要稍有偏差可接受”	“法条引用错误=法律事故，0 容忍度”

只有当五项总分 ≤ 8 分时，我才默认从 Prompt 开始尝试；总分 ≥ 12 分，则直接进入 Finetune 方案设计阶段。这个表不是玄学，它背后是大量 A/B 测试数据的统计规律：总分每增加 1 分，Prompt 方案的线上 P95 延迟波动率上升 17%，而 Finetune 方案的首次部署成功率下降 9%（因为数据准备更难）。它把模糊的“感觉”转化成了可量化的工程决策依据。

3. 核心细节解析与实操要点：Prompt 的“有效边界”与 Finetune 的“最小可行单元”

3.1 Prompt 不是“写得越长越好”，而是“在模型认知盲区精准投喂锚点”

很多人以为 Prompt 工程就是堆砌指令：“你是一个专业律师，请仔细阅读以下材料，结合中国现行法律，用严谨、客观、中立的语气，分点陈述……”。这就像给一个没学过微积分的人，塞一本《高等数学》让他解微分方程——信息过载，反而掩盖了关键指令。

真正有效的 Prompt，必须遵循三锚点原则：

语义锚点（Semantic Anchor）：用模型在预训练中高频接触的、含义明确的词，激活对应知识域。比如，要让模型处理金融数据，用“KPI”“EBITDA”“资产负债表”比用“公司赚钱能力”“扣掉利息税前利润”有效得多。因为前者是模型在海量财报中见过的实体，后者是模糊描述。我测试过：在同样 Prompt 下，用“EBITDA”触发的财务分析准确率比用“扣非净利润”高 34%。
结构锚点（Structural Anchor）：用模型在训练数据中反复见过的格式模板，强制其模仿。最简单有效的是Few-shot 示例，但关键在于示例的质量。我坚持一个铁律：每个 Few-shot 示例，必须包含“输入→思考链→输出”三段式，且思考链要暴露模型的真实推理路径。例如，不是只给“输入：苹果股价涨了；输出：利好”。而是：
```
输入：苹果公司发布新款iPhone，供应链订单激增30% 思考链：1. 新品发布通常刺激短期销量；2. 订单激增反映渠道备货信心；3. 历史数据显示，类似事件后30天股价平均上涨5.2%；4. 因此，短期视为利好 输出：利好
```
这样做的原理是：模型在预训练时，大量学习了“问题-推理-答案”的序列模式。你提供这个模式，就是在告诉它：“接下来的任务，也请按这个模式走”。实测表明，带思考链的 Few-shot，比纯输入输出对的 Few-shot，在复杂推理任务上准确率提升 28%，且对输入措辞变化的鲁棒性提高 3.6 倍。
约束锚点（Constraint Anchor）：用模型无法忽略的、带语法强制性的指令，封死错误路径。最常用的是格式声明+校验指令。比如，要求 JSON 输出，不能只写“请用 JSON 格式”，而要写：
```
请严格按以下 JSON Schema 输出，不得添加任何额外字段或解释文字： { "summary": "string", "key_points": ["string"], "confidence_score": "number (0.0-1.0)" } 如果输入信息不足以生成某个字段，请填 null，不得留空或省略。
```
这里，“严格按以下 JSON Schema”、“不得添加任何额外字段”、“请填 null，不得留空”都是强约束锚点。它们利用了模型对“schema”“null”“不得”等词的高敏感性。我们做过压力测试：在 1000 条随机干扰输入下，带强约束锚点的 Prompt，JSON 格式错误率是 1.2%；而普通 Prompt 是 23.7%。

提示：别迷信“Role-playing”（角色扮演）。让模型“扮演医生”效果往往不如直接给它一份《临床诊疗指南》的关键条款。因为“医生”是个宽泛社会角色，而指南条款是具体、可执行的知识锚点。我在医疗项目里，把 Prompt 中所有“请扮演资深医生”都删掉，替换成“根据《2023版高血压防治指南》第4.2.1条，收缩压≥140mmHg且舒张压≥90mmHg定义为高血压”，效果立竿见影。

3.2 Finetune 不是“数据越多越好”，而是“在最小必要参数上，注入最纯净的领域信号”

Finetune 最大的陷阱，是把“微调”当成“重训”。看到效果不好，第一反应是“加数据”“加 epoch”“加 learning rate”。结果往往是：模型在训练集上 overfit 到 99%，一上真数据就崩盘，还顺带把通用能力拖垮了。

我的经验是：Finetune 的本质，不是教会模型新知识，而是教会它“如何正确使用已有知识”。因此，核心在于找到那个“最小可行单元”（Minimum Viable Unit, MVU）——即，用最少的数据、最少的参数、最短的训练时间，解决那个最痛的、Prompt 死活搞不定的单一问题。

MVU 的确定，遵循一个反直觉原则：先做减法，再做加法。

第一步：暴力剥离（Brute-force Pruning）
拿到一个看似复杂的任务（比如“生成符合监管要求的基金销售话术”），先强行把它拆成原子子任务。我们当时拆出了 7 个：
1. 识别用户风险测评等级（R1-R5）
2. 匹配基金风险等级（低/中低/中/中高/高）
3. 判断是否匹配（R1 用户不能买 R4 基金）
4. 生成合规提示语（“您测评等级为R2，本产品风险等级为R3，不匹配”）
5. 生成替代推荐（“建议考虑R2等级的XX基金”）
6. 引用监管条文（《证券投资基金销售管理办法》第X条）
7. 使用禁止词汇过滤（“保本”“稳赚”“无风险”）
然后，用 Prompt 单独测试每个子任务。结果发现：1-3、5-7 都能用 Prompt 做到 90%+ 准确率；唯独第4步“生成合规提示语”，Prompt 始终在“不匹配”和“不建议购买”之间摇摆，而监管要求必须是“不匹配”这个唯一表述。这就是我们的 MVU：只针对“生成合规提示语”这一个子任务进行微调。
第二步：数据净化（Data Sanitization）
MVU 确定了，数据量就不是关键，数据纯度才是生命线。我们只收集了 127 条真实合规审核通过的提示语，每一条都经过法务逐字确认。然后做了三重清洗：
- 去风格化：删除所有“温馨提示”“尊敬的客户”等礼貌用语，只保留核心合规判断句（如“您的风险承受能力与产品风险等级不匹配”）。
- 对齐化：确保所有样本的输入（用户等级+产品等级）和输出（提示语）严格一一对应，绝不允许“R3 用户买 R3 基金”和“R2 用户买 R4 基金”共用同一句提示语。
- 对抗化：人工构造了 30 条“边界样本”，比如“R3 用户买 R3 基金”（应提示“匹配”）和“R3 用户买 R2 基金”（应提示“匹配”，但模型易混淆为“不匹配”），专门用来强化模型的判别边界。
第三步：参数精炼（Parameter Refinement）
不微调全模型，只微调最关键的部分。我们采用LoRA（Low-Rank Adaptation），但不是默认的全层 LoRA。通过梯度分析，发现模型在最后一层 FFN（前馈网络）的输出层，对“匹配/不匹配”判别的梯度最大。于是，我们只在这一层注入 LoRA 适配器，秩（rank）设为 8（远低于常用的 16 或 32），alpha 设为 16。训练仅用 1 个 A100 GPU，2 小时完成，显存占用比全参数微调低 76%。

结果：这个只用了 127 条数据、只微调了 0.03% 参数的 LoRA 模块，让“合规提示语”生成准确率从 Prompt 的 72% 提升到 99.4%，且未对其他 6 个子任务产生任何负面影响。这才是 Finetune 的正确打开方式——它不是一个大工程，而是一次精准的外科手术。

注意：Finetune 后必须做“遗忘测试”（Forgetting Test）。方法很简单：随机抽 50 条通用常识题（如“太阳系有几颗行星？”“水的化学式是什么？”），在微调前后分别跑一遍，对比准确率变化。如果通用能力下降超过 5%，说明微调过猛，必须回退并检查数据或超参。我坚持这个测试，因为它能提前预警“灾难性遗忘”，避免上线后模型连基本事实都说错。

4. 实操过程与核心环节实现：从需求分析到上线监控的完整闭环

4.1 需求分析阶段：用“三问法”穿透业务方模糊表述

业务方的需求常常是模糊的：“我们要让模型更懂我们的产品”“回答要更专业”“不能出错”。这种表述毫无操作性。我的标准动作是立刻拿出一张纸，问三个问题，每个问题都要求对方给出可验证的具体例子：

第一问：最不能容忍的错误是什么？
不是问“你希望模型怎样”，而是问“如果模型做了什么，你会立刻叫停上线？”
示例对话：
业务方：“回答要专业。”
我：“假设模型回答‘这个药吃了肯定好’，这算不专业吗？”
业务方：“算！必须说‘可能有效，但需遵医嘱’。”
→ 这就锁定了核心约束：禁止绝对化表述，必须包含不确定性限定词。这是一个典型的 L2 层（Finetune）问题，因为 Prompt 很难 100% 防住所有绝对化变体（“100%有效”“绝无副作用”“保证治愈”）。
第二问：最常被投诉的错误模式是什么？
要求对方提供最近一周的 3 条真实用户投诉截图或录音。
示例发现：
投诉1：“问‘报销需要哪些材料’，它列了10个，但漏了最关键的发票原件。”
投诉2：“问‘异地就医怎么备案’，它说‘去社保局办’，但其实现在全网办。”
→ 这揭示了两个深层问题：关键信息遗漏（结构完整性）和知识时效性错误（知识新鲜度）。前者可通过 Prompt 加强“检查清单”机制解决；后者则必须引入 RAG（检索增强）或定期 Finetune 更新知识。
第三问：成功的标准是什么？
拒绝“提高满意度”这种虚指标。必须定义：
- 量化指标：比如“关键字段（如报销材料清单）完整率 ≥ 95%”；
- 验收方式：是抽样人工审核？还是自动化脚本校验 JSON 字段？
- 基线对比：是和旧版规则引擎比？还是和人工客服平均响应比？
  实操心得：我坚持让业务方在需求文档上亲手写下这三个答案，并签字。这能极大减少后期扯皮。曾有一个项目，业务方签了“关键材料完整率 ≥ 95%”，结果上线后他们拿 100 条边缘 case 来质疑，我就把签字页拍出来：“您签的是‘关键’材料，不是‘所有’材料。这100条里，只有7条涉及关键材料，其中6条达标，达标率85.7%，未达95%，我们认。其余93条，不在此验收范围内。”

4.2 Prompt 工程实操：一个可复用的“四步调试法”

当确定用 Prompt 时，我绝不从零开始写。而是用一套标准化的四步调试流程，每一步都有明确的退出条件：

Step 1：Baseline 构建（耗时 ≤ 15 分钟）
用最简 Prompt：<role>你是一个[领域]专家</role> <input>用户问题</input> <output>。跑 10 条典型输入，记录输出。目标：建立效果基线，看清模型“出厂设置”下的原始能力。常见发现：模型在领域术语上大量 hallucinate，或格式完全混乱。这说明 L0 层（系统级约束）可能缺失。
Step 2：Anchor 注入（耗时 ≤ 30 分钟）
基于 3.1 节的三锚点原则，一次性注入所有锚点：
- 语义锚点：加入 2-3 个领域核心术语（如“ROE”“市盈率”“流动性覆盖率”）；
- 结构锚点：加入 1 个带思考链的 Few-shot 示例；
- 约束锚点：加入强格式声明（如“必须用 Markdown 表格输出，表头为：指标、数值、行业均值、解读”）。
  再跑 10 条输入，对比 Baseline。如果关键指标（如格式合规率、术语准确率）提升 < 15%，说明锚点选错了，退回 Step 1 重新分析。
Step 3：Robustness 压测（耗时 ≤ 1 小时）
构造 20 条“变异输入”，专门攻击 Prompt 的脆弱点：
- 同义替换：“怎么查余额” → “我的钱还有多少”；
- 添加干扰：“顺便问下，今天天气怎么样？”；
- 缩写/错字：“ROE是多少” → “roe是啥”；
- 多轮上下文：“上条说的基金，它的管理费呢？”
  目标：格式合规率 ≥ 85%，关键信息召回率 ≥ 80%。如果失败，说明结构锚点或约束锚点不够强，需加强 Few-shot 覆盖面或约束指令。
Step 4：Production 封装（耗时 ≤ 30 分钟）
将最终 Prompt 拆解为可配置模块：
```
PROMPT_TEMPLATE = """ {system_prompt} {few_shot_examples} {user_input} {output_constraints} """ # system_prompt, few_shot_examples, output_constraints 均为独立变量 # 便于后续 A/B 测试不同组合
```
并编写自动化校验脚本，每次上线前，自动运行 100 条测试用例，生成报告：
指标当前值基线值变化
JSON 格式错误率 0.8% 22.1% ↓96.4%
关键术语准确率 94.3% 67.5% ↑26.8%
平均响应延迟 1.2s 0.9s ↑33.3%
实操心得：永远把 Prompt 当作代码来管理。我用 Git 版本控制所有 Prompt 变体，每次修改都写 commit message，如“fix: 加入‘不得使用缩写’约束，解决‘EBITDA’被输出为‘EBIT’问题”。这样，当线上出问题时，可以秒级回滚到上一个稳定版本，而不是在生产环境手忙脚乱改文本。

指标	当前值	基线值	变化
JSON 格式错误率	0.8%	22.1%	↓96.4%
关键术语准确率	94.3%	67.5%	↑26.8%
平均响应延迟	1.2s	0.9s	↑33.3%

4.3 Finetune 实操：从数据准备到效果验证的“七日工作流”

Finetune 的周期，我严格控制在 7 个工作日内，否则项目容易失控。以下是我在多个项目中验证过的标准流程：

Day 1：MVU 确认与数据初筛
完成 4.1 节的“三问法”，锁定 MVU。然后，从历史数据池中，用关键词（如“不匹配”“风险等级”“合规提示”）粗筛 500 条候选数据。人工快速过一遍，剔除明显错误、重复、模糊的样本，剩下约 200 条。
Day 2：数据净化与标注
执行 3.2 节的三重清洗（去风格化、对齐化、对抗化）。关键动作：邀请一位业务方专家，用半天时间，对这 200 条做“黄金标注”——即，逐条确认输入-输出对是否 100% 符合监管/业务要求。最终得到 127 条“黄金数据”。同时，准备 50 条“遗忘测试”用的通用常识题。
Day 3：环境搭建与基线测试
搭建训练环境（我用 Hugging Face Transformers + PEFT），加载基础模型（如 Qwen-7B）。先不做任何训练，直接用这 127 条数据做 zero-shot 推理，记录准确率（Baseline）。这一步至关重要：如果 Baseline 就有 85%+，说明问题可能不在模型能力，而在 Prompt 或数据接入逻辑。
Day 4：LoRA 微调
配置 LoRA：target_modules=["o_proj", "up_proj"]（只微调 attention 输出和 FFN 上投影层），r=8, lora_alpha=16, lora_dropout=0.1。训练 3 epochs，batch_size=4，梯度累积 4 步。全程监控 loss 曲线，确保平滑下降，无剧烈震荡。训练完成后，保存 adapter 权重。
Day 5：效果验证
- MVU 验证：在 127 条黄金数据上测试，准确率必须 ≥ 98%；
- 泛化验证：用 50 条未见过的、同分布的测试数据（由业务方提供），准确率 ≥ 95%；
- 遗忘测试：在 50 条通用常识题上测试，准确率下降 ≤ 3%；
- 压力测试：用 1000 条随机输入（含大量干扰、错字、长文本），格式错误率 ≤ 1.5%。
  任一指标不达标，立即分析原因（数据？超参？模型？），不进入下一步。
Day 6：集成与 A/B 测试
将 LoRA adapter 集成到线上服务（vLLM 支持 LoRA hot-swap）。开启 A/B 测试：50% 流量走原 Prompt 模型，50% 走新 Finetune 模型。监控核心业务指标（如“合规提示语点击率”“用户二次提问率”），连续跑 24 小时。
Day 7：上线决策与文档归档
基于 A/B 数据，做出上线决策。无论是否上线，都归档完整文档：
- MVU 定义与依据；
- 黄金数据集（脱敏）；
- LoRA 配置与训练日志；
- A/B 测试报告（含所有监控图表）；
- 回滚方案（如何一键切回旧模型）。
  这份文档，就是项目的“出生证明”，也是未来迭代的基石。

5. 常见问题与排查技巧实录：来自生产环境的 12 个真实故障与根因分析

5.1 Prompt 类问题：为什么“明明写了，它就是不听”？

问题现象	典型场景	根因分析	排查与解决技巧
格式反复失效	要求 JSON 输出，测试时正常，上线后大量返回纯文本	L0 层缺失：服务端未配置`response_format={"type": "json_object"}`，或模型不支持该参数（如老版 LLaMA-2）	第一步，curl 直接调用模型 API，看 raw response 是否含非法字符；第二步，检查服务框架（vLLM/TGI）文档，确认是否启用 JSON mode；第三步，若不支持，改用强约束锚点 + 后处理正则校验。
术语持续 hallucinate	Prompt 里写了“用《医疗器械分类目录》术语”，但模型仍说“摄像头”“屏幕”	语义锚点失效：模型在预训练中，“摄像头”出现频次远高于“医用内窥镜成像系统”，导致其优先激活高频词	解决：在 Few-shot 示例中，强制展示“摄像头 → 医用内窥镜成像系统”的映射；并在 system prompt 中加入：“你必须严格使用《医疗器械分类目录》中的标准名称，禁止使用任何消费电子领域俗称。”
多轮对话丢失上下文	用户问“上条说的基金，它的费率呢？”，模型答“不知道”	结构锚点不足：Few-shot 示例未覆盖多轮指代场景，模型未学会“上条”指代逻辑	解决：新增 Few-shot 示例，明确展示指代链：“Q1: 这只基金的风险等级？A1: R3。Q2: 它的管理费率？A2: 1.5%。” 并在 system prompt 中加：“请始终将‘上条’‘这个’‘它’等代词，关联到最近一次用户提问中的核心实体。”
响应延迟忽高忽低	同一 Prompt，有时 0.5s 返回，有时 3s 以上	约束锚点冲突：强格式声明（如“必须用表格”）与模型自身生成策略冲突，导致反复重试	解决：移除“必须”类绝对指令，改为“请优先使用表格格式”；或增加`temperature=0.3`降低随机性；终极方案：在 L0 层设置`max_new_tokens=512`，防止单次生成过长。

5.2 Finetune 类问题：为什么“训完了，效果反而更差”？

问题现象	典型场景	根因分析	排查与解决技巧
训练 loss 下降，但验证准确率不上升	loss 从 2.1 降到 0.3，验证集准确率卡在 75% 不动	数据泄露：验证集样本混入了训练集，或数据清洗时未彻底去重	解决：用`simhash`对所有样本计算指纹，强制去重；验证集必须 100% 独立，且来自与训练集不同的时间段/来源。
微调后，通用能力大幅下降	“太阳系有几颗行星？”答错成“8颗（冥王星不算）”	灾难性遗忘：LoRA rank 过大或 learning rate 过高，覆盖了通用知识权重	解决：立即做遗忘测试；降低 lora_alpha 至 8；若仍不行，改用 QLoRA（4-bit 量化 LoRA），其内在的量化噪声反而有正则化效果。
上线后，效果不如本地测试	本地验证 99%，线上只有 82%	数据漂移（Data Drift）：线上真实用户输入，与训练数据分布差异巨大（如大量方言、错别字、口语化表达）	解决：上线前，用线上最近 7 天的 1000 条真实 query 做 final test；若差距 > 10%，必须补充这些“长尾样本”到训练集，再微调 1 epoch。
**模型输出