Agent 上了岗，然后呢？四个被忽视的问题与一种构建思路-拓冰建站

Agent 上了岗，然后呢？四个被忽视的问题与一种构建思路

一家金融科技公司最近在月度 AI 复盘会上发现了一笔糊涂账：上线三个月的 Agent 集群，账面消耗的 Token 是预算的 2.4 倍；若按"单位任务成本"核算，实际比预算高出近八倍。问题在于"任务完成"这个口径太粗——很多 Agent 表面交付了结果，背后却经历了七八轮工具调用失败与上下文重写，会后默默归档为"已完成"。

这不是个别现象。2026 年 7 月初，InfoQ 刊发了关于张江「Harness 时代的硅基团队治理」专场的深度报道（作者王玮）。报道汇集了一线实践者的现场判断：Agent 进入企业生产流程后，真正暴露的不是模型能力不足，而是一整套围绕记忆、协作与责任的地基性缺口。本文想把这些问题拆开，再把一种产品化的解决思路——Agent Skill Warehouse（mcp.smartmoves.com.cn）——摆到对应的位置上。

一、四个被忽视的问题

第一个问题：账单告诉你的是模型成本，但真实成本藏在成功率里。一旦 Agent 进入长任务、多次工具调用、上下文反复重写，Token 单价就失去了与"有效产出"的对应关系。一次跑通的任务和跑了八轮才成功的任务，在账单上可能只差不到 20%，但对资源的真实占用差了一个数量级。

第二个问题：智能体不只是"会思考"，更是"会记住"。模型决定 Agent 当下能做什么，记忆决定它能否在一次次任务中持续进化。但企业的"记忆"是分散的——数据库、知识库、会话系统、SOP、邮件、PDF、表格甚至音视频。当 Agent 试图综合调用时，冲突检测、时间一致性、跨会话语义对齐就成了绕不开的工程问题。没有工程化的记忆基础设施，Agent 越努力，越容易把错误经验沉淀进组织流程。

第三个问题：个人 Agent 很强，团队却不一定更强。同一个工具，50 个工程师用，可能变成 50 种用法——Prompt 不同、上下文组装方式不同、对"完成"的定义也不同。AI 天然具有反协作特性：人与 AI 的对话高度个人化，围坐写同一份需求的两个人拿到的产出可能完全不同。组织无法把"个人提效"自动转译成"团队交付能力"。

第四个问题：贡献、复用、责任，三件事说不清。Agent 持续运转时，经验沉淀速度远超传统文档体系。低质量经验、个人偏见、偶然成功的路径，都可能被默默写入共享上下文。一旦进入组织"集体记忆"，再想追溯来源几乎不可能。优秀的实践需要沉淀，低质量的尝试需要隔离——这两件事同样紧迫，但几乎没有企业同时在做。

二、一种构建思路：把"经验"封装成可治理的资产

把这四个问题当作一份需求清单，Agent Skill Warehouse（mcp.smartmoves.com.cn）的设计思路可以一一对应。它没有试图解决所有问题，而是选择了其中一个支点：把"经验"从 Prompt 里抽出来，封装成可版本、可评测、可追溯的工程资产——Skill。

对应第一个问题：把"任务成功率"从账单口径里拽出来，变成 Skill 的属性。每个 Skill 发布前要经过四层验证（指令层、知识层、执行层、评测层），评测层给出的通过率就是这个 Skill 的质量分数。账单背后的真实成本，第一次有了可观测的对照系。

对应第二个问题：ASW 提供三类核心能力——记忆蒸馏、记忆计算、记忆堆叠。蒸馏把分散在文档、表格、音视频里的经验提炼为结构化记忆条目；计算处理冲突、遗忘、合并、演进、时间一致性；堆叠解决"沉淀什么、隔离什么"的治理问题。三层叠在一起，让 Agent 拥有工程化管理的长期记忆，而不是每次从零开始的瞬时智能。

对应第三个问题：把"Prompt"从个人表达变成团队共同语言。一个 Skill 一旦发布，行为边界就是固定的——任何人在相同上下文里调用同一 Skill，产出是一致的。Skill 充当了团队的"标准操作程序"，让交付物在合并时不必从零对齐。

对应第四个问题：让贡献、复用、责任都有明确归属。每个 Skill 有版本号、变更日志、兼容性声明，谁贡献、谁修改、谁复用、在哪个项目里被调用，全部可追溯。这与报道中提到的 Workspace、Actor、Project 组织级框架在思路上相通：读取可以跨项目发生，但写入必须落到明确的主体之下。

三、回到那个问题：Harness 的本质是什么？

报道结尾给出了一个值得深思的判断：Harness 的本质，是把 Agent 放进真实的生产关系。生产关系里需要被显式管理的，是数据、记忆、流程、权限、质量与责任。Agent Skill Warehouse 选择的支点，是把其中"经验"那一环变成可治理的工程资产——它不是 Harness 的全部，但它是 Harness 落地时最容易被忽视、却最容易决定成败的那一环。

Agent 已经上了岗。接下来的竞争，不会停留在"谁能让 Agent 跑起来"，而是悄悄转向"谁能让 Agent 在真实生产关系里持续产出、持续可控、持续被信任"。那条分水岭，不会写在任何一份模型白皮书里——它会写在每一个被沉淀、被评测、被版本化、被追溯的 Skill 里。

参考资料：