深度拆解Agent Harness｜为什么大模型必须搭配运行时框架？-拓冰建站

文章目录开场白大模型是个嘴炮王者第一章Harness 到底是个啥️ 第二章三层架构——大脑、躯干、手脚第一层模型层——那个只会动嘴的大脑第二层Harness 控制层——那个真正干活的躯干第三层工具/环境层——那双能搬砖的手脚第三章执行循环——模型的思考-行动-观察三板斧第四章五大核心模块——Harness 的五脏六腑模块一动态提示词组装——给模型喂定制套餐模块二执行循环引擎——那个不停转圈的调度员模块三工具调度与解析——模型的翻译官模块四上下文状态管理——模型的记忆宫殿模块五安全沙箱与护栏——模型的紧箍咒第五章实战演练——Claude Code 是怎么干活的第六章Harness 的四大核心价值谢幕Harness 不是可选项是必选项P.S. 无意间发现了一个巨牛的人工智能教程非常通俗易懂对AI感兴趣的朋友强烈推荐去看看传送门https://blog.csdn.net/HHX_01 开场白大模型是个嘴炮王者各位观众朋友们今天咱们聊一个特别有意思的话题。你知道现在的大模型像什么吗像一个智商180、但是动手能力为零的嘴炮王者。你让它写个代码它能在脑子里把整个架构图给你画出来逻辑缜密、思路清晰、引经据典说得头头是道。但你让它真正去执行——去改个文件、跑个命令、查个日志——它就傻眼了。就像你让爱因斯坦去搬砖。脑子是顶级的手是废的。第一章Harness 到底是个啥好咱们先把概念整明白。Harness英文直译叫挽具就是套在马身上那个东西。马负责跑Harness负责控制方向、速度、别让它撞树。在 Agent 的世界里Harness 就是大模型的挽具——一个运行时控制框架包裹在大模型外面负责把模型的想法翻译成行动。所以记住一个公式这个公式比 Emc² 还重要Agent 大模型 Harness 工具集缺了 Harness你的 Agent 就是个思想上的巨人行动上的矮子。缺了大模型你的 Harness 就是个没有灵魂的自动化脚本跟 cron 定时任务没什么区别。只有两者合体才能召唤出一个真正能干活的智能体。️ 第二章三层架构——大脑、躯干、手脚一个完整的 Agent 系统其实就三层。别被那些花里胡哨的架构图吓到本质特别简单。第一层模型层——那个只会动嘴的大脑这一层就是大模型本身Claude、GPT、Gemini 这些。它的核心能力就三个理解你说啥、推理该咋办、输出决策文本。但注意它只输出文本决策不执行任何真实操作。就像你老板只发微信语音安排任务但从不自己动手。第二层Harness 控制层——那个真正干活的躯干这一层是核心中的核心。它负责循环调度让模型一轮一轮地思考-行动-观察提示词组装给模型喂合适的上下文工具执行把模型的指令翻译成真实操作状态维护记住之前干了啥、现在在哪安全管控防止模型手滑把生产环境删了Harness 是模型和真实世界之间的桥梁。没有它模型就是个关在玻璃房里的哲学家只能想不能做。第三层工具/环境层——那双能搬砖的手脚这一层就是具体的执行能力文件系统、终端、IDE、搜索引擎、外部 API。模型说读一下 config.jsHarness 调用文件读取工具。模型说跑一下测试Harness 调用命令执行工具。第三章执行循环——模型的思考-行动-观察三板斧Harness 的核心逻辑其实就是一个循环。这个循环有个高大上的名字叫 ReAct 范式说白了就是三个步骤思考Reasoning模型分析当前情况决定下一步干啥行动ActingHarness 执行模型决定的行动观察Observing把执行结果反馈给模型让它继续思考这三步循环往复直到任务完成或者出了幺蛾子。为了防止这个循环变成死循环Harness 内置了三重保护机制最大执行步数限制最多跑 N 轮防止模型陷入再试一次的无限循环单步/总超时控制某个工具卡死了总时间太长了直接掐断异常自动重试网络抖了一下接口超时了自动重试带指数退避第四章五大核心模块——Harness 的五脏六腑Harness 不是铁板一块它由五个核心模块组成。咱们一个一个聊。模块一动态提示词组装——给模型喂定制套餐很多人以为提示词就是一段固定的系统提示写好就完事了。错大错特错Harness 里的提示词是分层动态组装的就像你去海底捞锅底是固定的但配菜是根据你口味现调的。静态层身份定位、核心准则、安全边界——全程不变像你的身份证号半动态层可用工具列表、输出格式规范——按场景加载像菜单全动态层当前文件内容、执行结果、环境状态——每轮更新像实时路况[静态身份层] 你是资深全栈工程师擅长软件工程与代码重构。 [半动态工具层] 你可以使用以下工具 1. read_file读取文件 2. write_file写入文件 3. run_command执行命令 [全动态环境层] 工作目录/project 当前文件src/app.js Git状态2个文件未提交上次执行npm run build 失败错误xxx模块二执行循环引擎——那个不停转圈的调度员这是 Harness 的心脏。它负责驱动整个多轮执行流程像个不知疲倦的调度员。每轮循环做四件事组装当前轮次的完整上下文调用大模型获取输出解析输出是最终答案还是工具调用如果是工具调用执行后把结果塞回上下文继续下一轮max_steps20forstepinrange(max_steps):# 组装上下文调用模型responsellm.responses.create(context)foriteminresponse.output_items:ifitem.typereasoning:context.add_reasoning(item.content)elifitem.typetool_call:# 路由到工具执行器校验权限resulttool_router.execute(item.tool,item.params)context.add_observation(result)elifitem.typefinal_answer:returnitem.content模块三工具调度与解析——模型的翻译官模型输出的工具调用指令本质上就是一段文本。Harness 需要把它翻译成真实的函数调用。这个过程分四步格式解析从模型输出的 XML/JSON 标签里提取工具名和参数参数校验类型对不对路径合不合法有没有注入攻击权限分级读文件可以自动执行删文件必须用户确认执行封装调用真实工具格式化结果塞回上下文模块四上下文状态管理——模型的记忆宫殿Agent 执行任务往往很长跨文件重构、复杂问题排查动辄几十轮对话。上下文窗口就那么大怎么管理Harness 的策略是差异化保留永久保留系统规则、工具定义、核心目标——这些是你的宪法永远不能忘优先保留最近3-5轮的工具调用和结果——短期记忆像你的手机备忘录可压缩更早的历史、大段文件内容——做摘要压缩像你把1000字的文章缩成50字的摘要实时更新环境状态、文件快照——每轮同步最新值像股票行情模块五安全沙箱与护栏——模型的紧箍咒这是最重要的模块没有之一。因为模型真的会犯错而且犯错的方式往往出乎你的意料。安全防护分三层前置校验参数合法吗路径越界了吗有危险指令吗环境隔离代码在沙箱里跑限制文件访问范围和网络权限事后审计所有操作全量日志出事了能追溯、能回滚第五章实战演练——Claude Code 是怎么干活的光说不练假把式。咱们来看一个真实的例子用 Claude Code 重构项目代码。整个流程是这样的Step 1用户说帮我重构这个项目的错误处理逻辑Harness 开始干活组装上下文——身份规则工具说明项目结构用户需求打包送给模型→ 模型收到后开始分析Step 2模型输出“我需要先看看 src/utils/error-handler.js”Harness 解析指令 → 校验路径权限 → 调用 read_file 工具 → 读取文件内容→ 把文件内容格式化后塞回上下文再次调用模型Step 3模型输出“我需要修改第45行把 try-catch 改成更优雅的写法”Harness 生成 diff 预览 → 判断是否需要用户确认 → 用户确认后执行修改→ 把修改结果回传模型Step 4模型判断“还需要检查其他引用这个函数的地方”Harness 调用搜索工具 → 找到所有引用 → 回传模型 → 模型继续分析→ 循环往复…Step 5模型说搞定了这是总结Harness 终止循环 → 输出最终结果 → 收工第六章Harness 的四大核心价值说了这么多Harness 到底带来了什么好处四个字稳定性约束模型的输出格式和执行流程降低随机性。模型不会再像抽风一样这轮输出 JSON下轮输出 Markdown再下轮直接给你写首诗。安全性所有外部操作经过统一权限校验和沙箱隔离。模型想删你根目录门儿都没有。可维护性规则、工具、逻辑都在 Harness 层管理。想加新工具改 Harness 就行不用重新训练模型。可扩展性新增能力只需在 Harness 层接入。就像给手机装 App不需要换手机。谢幕Harness 不是可选项是必选项好了今天的内容到这儿就差不多了。咱们回顾一下核心观点单次工具调用 ≠ Agent真正的 Agent 需要多轮迭代、状态留存、环境交互Harness 是 Agent 的运行时控制容器是模型大脑和真实世界之间的桥梁Agent 大模型 Harness 工具集缺一不可Harness 的核心是状态机执行闭环驱动模型思考-行动-观察的循环五大模块动态提示词组装、执行循环引擎、工具调度解析、上下文状态管理、安全沙箱护栏P.S. 无意间发现了一个巨牛的人工智能教程非常通俗易懂对AI感兴趣的朋友强烈推荐去看看传送门https://blog.csdn.net/HHX_01

深度拆解Agent Harness｜为什么大模型必须搭配运行时框架？

相关新闻

Windows窗口管理终极指南：FancyZones免费重塑你的多任务工作流

GTA5线上小助手：终极个性化游戏体验指南

CPU / DSP / FPGA / 主控处理器是什么？——维修视角快速看懂

最新新闻

制造业领域期刊汇总

从RAG到智能体：构建生产级可信AI Agent的工程化实践

十阶段干预完整流程

生成式多模态大模型：从微调推理到业务应用

AI技术趋势解析：从Scaling Law到Agent应用，开发者如何把握机遇

UEFI+GPT 双系统安装：3个关键分区方案对比与 1 个 EFI 分区避坑点

日新闻

中文大模型选型不是比参数，而是做工程化决策

STM32与LENA-R8构建全球定位与通信嵌入式系统

含金量高的EMBA｜2026国内及境外中英双语EMBA综合实力TOP5榜单

周新闻

3步彻底解决Windows右键菜单混乱问题：ContextMenuManager使用全攻略

GXDE OS下Wayland兼容性实战：从deepin-mutter原理到VMware Tools修复

企业AI落地困境与AgenticOps实践指南

月新闻

[C++]内存管理：串顺序存储的内存回收

移动端游戏功耗测试实战：电流、功率、亮度和场景对比

足球口袋教练 HarmonyOS 离线应用实战（03/20）：ArkUI 首页仪表盘搭建