我用 Rust 写了个 AI 媒体管家:Gliding Horse 赋能 media_agent,目标是让 ComfyUI 工作流彻底自动化 我用 Rust 写了个 AI 媒体管家Gliding Horse 赋能 media_agent让 ComfyUI 工作流彻底自动化摘要本文深入介绍如何用 Rust 构建 AI Agent 操作系统 Gliding Horse并将其能力注入 ComfyUI 图片生成领域打造出 media_agent 自动化工作流系统。文章详细解析了动态 PDCA 编排、JSON‑LD 语义总线、33 自定义节点、13 种模型架构支持等核心技术并通过与传统 ComfyUI 的对比展示 Agent 驱动的图片/视频生成如何从“手工作坊”进化为“自动化流水线”。适合对 Stable Diffusion、AI Agent、Rust 系统开发感兴趣的读者。关键词Rust, AI Agent, ComfyUI, Gliding Horse, media_agent, Stable Diffusion, PDCA, 工作流自动化, 图片生成, 视频生成, JSON-LD, 模型管理玩过 Stable Diffusion 的朋友都知道搭工作流是个体力活。文生图、图生图、ControlNet、LoRA 叠加……光是把节点连对就能耗掉一个下午。更别提视频生成、模型管理这些高级需求一旦流程复杂起来ComfyUI 那满屏的蜘蛛网简直让人头皮发麻。我就想能不能让 AI 自己来搭工作流于是我把自己之前写的Gliding Horse流马——一个完整的 AI Agent 操作系统——的能力注入到了图片生成领域做出了media_agent。它是一个用 Rust 从零写的 ComfyUI Agent不仅能跑图还能自己规划、执行、检查生成任务把 PDCA 循环和 JSON‑LD 语义工作流带到了图像生成场景。一、Gliding Horse给 Agent 配上一套“操作系统”先简单介绍下 Gliding Horse。它是一个用 Rust 构建的 AI Agent 操作系统核心思想是把 LLM 当成 CPU给它配上缓存、内存、文件系统和权限管理。它最大的特色是动态 PDCA 编排和JSON‑LD 语义总线动态 PDCASA调度器根据任务的 5W2H 自动决定执行拓扑——简单任务直接交给 DA 执行复杂任务自动拆解为计划、执行、检查、决策的循环甚至并行调度多个 Agent。JSON‑LD DAG所有的任务步骤、技能依赖、中间产物都用 JSON‑LD 表达通过 SPARQL 查询实时编译成可执行的有向无环图Agent 不再依赖预设的静态流程。传统 ComfyUI 工作流是一个静态的 JSON 文件节点之间的连接是死的。而 Gliding Horse 让工作流活起来Agent 可以根据用户意图自动选择合适的模型、采样器、后处理步骤并动态组装出执行图。二、media_agent把 Agent 能力注入 ComfyUImedia_agent 就是基于 Gliding Horse 内核开发的增强智能图片/视频生成工作流系统。它完全用 Rust 编写在底层集成了stable-diffusion.cpp和llama.cpp作为推理引擎支持 13 种模型类型、33 自定义节点以及 29 个预置工作流模板。整个系统的架构长这样API 层HTTP Server (Axum)WebSocket 实时推送模型管理器自动扫描索引双层 LRU 缓存(VRAM RAM)推理后端stable-diffusion.cppGPU 推理llama.cppLLM 文本编码本地处理器VAE 编解码工作流引擎PDCA 模式 (默认)JSON-LD DAG 模式 (复杂任务)节点并行执行器Agent 编排层 (来自 Gliding Horse)SA 调度器PDCA 动态编排JSON-LD DAG 编译器工作流图编译上下文管理引擎IRI 索引 / Token 控制你可以看到media_agent 在普通的推理引擎之上架设了一层Agent 编排层这正是 Gliding Horse 的核心价值它让图片/视频生成不再只是“按图索骥”地执行一个固定 JSON而是变成了一个可决策、可纠错、可复用的认知流程。三、PDCA 如何让出图更靠谱举个实际的例子用户输入“把这张照片变成吉卜力风格分辨率 2K”。传统做法是手动选择图生图节点调整 ControlNet 和 LoRA 权重一遍遍抽卡。而 media_agent 的处理流程是PlanPA计划 Agent解析需求识别出需要“图像加载→风格迁移→超分”三个步骤并从技能图谱里找到最适合的 ControlNet 模型control_v11p_sd15_softedge和风格 LoRAghibli_style_offset.safetensors。DoDA执行 Agent调用对应的节点执行实时通过 WebSocket 推送预览图。CheckCA检查 Agent拿生成结果和用户需求比对如果色彩偏差太大或细节丢失自动标记为不合格。ActAA决策 Agent根据检查结果决定是否调整参数重试或者将合格的图片存入知识图谱。整个过程都是 Agent 自动驱动的用户只需要说一句话。对于更复杂的任务media_agent 还可以启用JSON‑LD DAG 模式。工作流被编译成有向无环图利用 Gliding Horse 的 SPARQL 查询引擎在运行时动态加载模型依赖实现真正的“工作流即数据”。四、富的节点与模型生态media_agent 目前内置了33 自定义节点覆盖了模型加载Checkpoint、UNET、CLIP、VAE、LoRA、ControlNet 等 8 种加载器采样器KSampler、高级采样器、自定义采样器、噪声注入图片处理缩放、超分、混合、裁剪、旋转、翻转、色彩调整、滤镜视频处理SVD 图转视频、帧插值、AnimateDiff 动画支持13 种模型架构从经典的 SD1.5 到最新的 SD3.5、Flux、SVD、CogVideo 全部覆盖。模型管理器会自动扫描指定目录建立索引并提供双层 LRU 缓存VRAM 优先RAM 兜底大幅降低重复加载开销。实时预览通过 WebSocket 推送每隔几步采样就发一张中间结果让你在浏览器里就能看到出图过程不用死等。五、与传统 ComfyUI 的对比特性ComfyUImedia_agent工作流定义手动拖拽节点 JSON自然语言 Agent 自动编排流程适应性静态改需求要重搭PDCA 动态调整自动纠错模型管理依赖路径配置自动发现索引 LRU 缓存后端扩展Python 插件Rust 多后端池GPU 推理高效工作流复用导出 JSONJSON‑LD 语义图可查询、可推导实时交互WebSocket 预览同支持且 Agent 可实时响应反馈media_agent 不是在重复造轮子而是在 ComfyUI 成熟的节点思想之上增加了一个“大脑”。这个大脑由 Gliding Horse 提供让图片生成从“手工作坊”进化到了“自动化流水线”。六、开源与未来media_agent 和 Gliding Horse 都已经在 GitHub 开源media_agenthttps://github.com/doiito/media_agentGliding Horsehttps://github.com/doiito/gliding_horsemedia_agent 目前已经完成了 188 个单元测试覆盖模型管理、多后端、节点系统、工作流引擎等核心模块。如果你既对 Stable Diffusion 感兴趣又想探索 AI Agent 的落地实践这两个项目绝对值得一看。未来我计划为 media_agent 增加 WebUI 前端、分布式推理支持以及更多视频生成模型的集成。但更让我兴奋的是Agent OS 的思路正在从一个抽象概念变成可以跑图、可以写代码、可以管工作流的实际工具。这或许就是 AI 工程化的下一站。欢迎 star欢迎提 issue更欢迎一起把 Agent 从“玩具”变成“生产力”。