京东开源 JoyAI-Echo：5 分钟长视频一次生成，音画同步不崩脸！-拓冰建站

京东开源 JoyAI-Echo5 分钟长视频一次生成音画同步不崩脸京东 JoyAI-Echo跨模态记忆银行 DMD 蒸馏 7.5x 加速分钟级多镜头故事一键生成。目录1. 项目简介——它是什么2. 长视频生成的三大痛点3. 核心突破——四大技术亮点4. 评测结果——碾压级表现5. 快速上手——5 步跑起来6. Prompt 写法指南——如何写出好故事7. 核心原理——源码架构解析8. 适用场景与优缺点9. 总结1. 项目简介——它是什么JoyAI-Echo是京东开源的长视频生成框架一句话概括从文本提示生成分钟级多镜头音画同步视频人物不崩脸、声音不变调。它不是「一个镜头一个镜头分别生成再拼接」的传统方案——而是通过跨模态音视频记忆银行Paired Cross-Modal Memory Bank让每个新镜头都「记住」前面镜头中人物的外观和声线实现跨镜头的一致性。再配合 DMDDistribution Matching Distillation蒸馏推理速度比原始流程快7.5 倍。目前支持T2V文本到视频和多镜头长视频音视频记忆生成I2V图到视频暂不支持后续版本将加入。项目地址https://github.com/jd-opensource/JoyAI-Echo 项目主页https://echo-team-joy-future-academy-jd.github.io/Echo-LongVideo-Page/ Hugging Facehttps://huggingface.co/jdopensource/JoyAI-Echo ComfyUI 插件https://github.com/zhuang2002/ComfyUI_JoyAI_Echo 论文https://www.researchgate.net/publication/405770309_JoyAI-Echo_Pushing_the_Frontier_of_Long_Audio-Visual_Generation⚠️ LicenseLTX-2 Community License Agreement仅限学术研究和非商业用途2. 长视频生成的三大痛点当前长视频生成面临三个核心难题痛点具体表现举个❌误差累积长序列中误差逐帧叠加越到后面越崩第 1 镜头人物正常第 5 镜头脸就变了❌时间一致性差跨镜头/跨场景的视觉和音频无法保持一致主角说话声线前后不一致❌推理延迟高多步扩散模型推理极慢分钟级视频生成成本高昂生成 5 分钟视频可能要数小时JoyAI-Echo 正是针对这三个痛点逐一攻克。3. 核心突破——四大技术亮点️ 亮点一分钟级多镜头故事生成一个 JSON 文件定义一组镜头提示词模型按顺序生成每个镜头并通过记忆银行在镜头之间传递人物外观和声音信息输出连贯的 5 分钟级长视频。默认配置25 fps × 241 帧 × 1280×736 分辨率单镜头约 9.6 秒⚡ 亮点二DMD 蒸馏 7.5x 加速通过 Distribution Matching Distillation分布匹配蒸馏将原始多步扩散模型蒸馏为少步推理版本速度提升约7.5 倍同时视觉质量反而提升。从configs/inference.yaml可以看到蒸馏后仅需9 步降噪denoising:steps:[1000,994,988,981,975,909,725,422,0]sigmas:[1.0,0.99375,0.9875,0.98125,0.975,0.909375,0.725,0.421875,0.0] 亮点三音画联合生成一条管线同时生成同步的视频和音频——不是先生成视频再配音而是视频画面和声音同步输出人物说话口型与声线自然匹配。亮点四跨模态记忆银行这是 JoyAI-Echo 最核心的创新。Paired Audio-Video Memory Bank像一个「角色档案柜」镜头 1 → 生成视频音频 ↓ 提取人物外观帧声音特征 → 存入记忆银行镜头 2 → 读取记忆银行中的人物外观声音 → 作为条件输入 ↓ 生成保持一致的新镜头镜头 3 → 读取记忆银行 → 继续保持一致...记忆银行配置来自inference.yamlmemory:max_size:7# 最多记住 7 个记忆条目num_fix_frames:3# 每条记忆固定 3 帧position_mode:reference# 位置编码模式lora_strength:1.0# LoRA 记忆适配强度audio_memory:enable:truewindow_size:96# 音频记忆窗口大小window_selection_mode:max_responsesample_rate:16000mel_bins:128# 梅尔频谱 bins 数视觉记忆存的是人物的「外观帧」音频记忆存的是声音的「梅尔频谱窗口」——两者配对存储确保声画一致。4. 评测结果——碾压级表现长视频对比JoyAI-Echo vs HappyOysterDirecting 模式GSB 用户偏好百分比——数字越大说明越受欢迎评估维度JoyAI-Echo平局HappyOyster 视觉美学63.6%8.8%27.6% 音频质量81.7%6.5%11.8% 提示词遵循80.6%13.5%5.9% IP 一致性59.4%12.9%27.7% 在音频质量和提示词遵循上JoyAI-Echo 以碾压级优势领先短视频对比JoyAI-Echo vs Wan 2.6短视频专精模型评估维度JoyAI-Echo平局Wan 2.6 视觉美学58.8%14.7%26.5% 音频质量32.3%30.9%36.8% 提示词遵循33.8%36.8%29.4% 长视频专精模型在短视频场景的视觉美学上居然也赢了 Wan 2.6音频方面稍逊但差距不大。规模数据项目数值长视频连贯故事长度5 分钟⚡ 推理加速倍数7.5x 评测故事数100️ 评测镜头数3,000 每镜头帧数241 25fps5. 快速上手——5 步跑起来Step 1克隆仓库gitclone https://github.com/jd-opensource/JoyAI-Echo.gitcdJoyAI-EchoStep 2创建环境推荐环境Python 3.11 PyTorch 2.8 CUDA 12.8使用 conda推荐自带 ffmpegcondaenvcreate-fenvironment.yml conda activate echo-long使用 uv手动安装 ffmpeguv venv--python3.11.venvsource.venv/bin/activate uv pipinstall--extra-index-url https://download.pytorch.org/whl/cu128-rrequirements.txt# macOSbrewinstallffmpeg# LinuxsudoaptinstallffmpegStep 3下载模型权重需要下载两个模型文件说明大小下载链接echo-longvideo-release.safetensors主模型transformer VAE vocoder~46 GBHuggingFacegemma-3-12b/文本编码器指令微调版~24 GBGemma-3-12b-it放置到checkpoints/目录checkpoints/ -- echo-longvideo-release.safetensors -- gemma-3-12b/Step 4编写故事 Prompt在prompts/目录下创建 JSON 文件每个文件包含一个prompts数组每个字符串代表一个镜头{prompts:[镜头1描述...,镜头2描述...,镜头3描述...]}Step 5运行推理python inference.py模型加载一次处理prompts/目录下所有 JSON 文件。输出保存到inference_result/outputs/prompt-name/inference_timestamp/显存要求默认配置峰值约46–50 GB建议使用 H100/A10080GB或 48GB 级 GPU。显存不足可减少帧数python inference.py --num-frames 121CLI 参数可覆盖所有 YAML 配置python inference.py--seed42--num-frames121python inference.py--configconfigs/my_experiment.yaml python inference.py--help6. Prompt 写法指南——如何写出好故事JoyAI-Echo强烈建议先使用 Prompt Enhancer 增强提示词长视频用prompts/long_story_writer_system_prompt.md短视频用prompts/short_story_writer_system_prompt.md⚠️ 不增强的 Prompt 效果明显较弱每个镜头的描述应包含以下 6 个部分按顺序写部分写什么示例人物与角色人物外貌年龄、体型、发型、脸型、衣着、声线特征“一位 30 岁女性棕色短发穿深蓝西装…”动作与对话人物做什么、说什么“她站在讲台上说‘我们开始吧。’”视觉风格整体美学和情感基调“写实电影语言冷调日光克制紧张的镜头感”镜头运动镜头类型和运动“稳定近景面部特写” 或 “中景腰部以上”背景场景环境和场景细节“现代会议室白色墙壁投影屏幕”音效与配乐场景声音和背景音乐“室内氛围音脚步声和衣物摩擦声对话下方轻柔低音音乐铺垫”7. 核心原理——源码架构解析️ 仓库结构. -- configs/inference.yaml # 全部推理参数YAML -- checkpoints/ # 模型权重单独下载 -- prompts/ # 多镜头 Prompt JSON 文件 -- ltx-core/src/ltx_core/ # transformer、VAE、文本编码器基础模块 -- ltx-pipelines/src/ltx_pipelines/ # 采样器和管线工具 -- ltx-distillation/ | -- src/ltx_distillation/ # DMD 包装、音视频管线、记忆银行、工具 | -- scripts/multishot_inference_dmd.py -- inference.py # 主入口加载一次推理全部两阶段推理引擎inference.py中的InferenceEngine采用了两阶段 GPU 显存热换策略Stage 1文本编码— 加载 Gemma-3-12b 文本编码器~24GB编码所有 Prompt然后完全释放文本编码器Stage 2视频生成— 加载视频生成器 VAE 记忆银行管线用 Stage 1 的缓存 Prompt 进行推理classInferenceEngine:Two-stage inference engine: encode all prompts first, then load generator. This avoids holding the text encoder (~24GB) and the video generator in memory at the same time. defencode_all_prompts(self,prompt_files):# 加载文本编码器 → 编码 → 释放text_encodercreate_text_encoder_wrapper(...)# ... 编码所有 prompt ...deltext_encoder torch.cuda.empty_cache()defload_generator(self):# 加载生成器 VAE 记忆管线self.generatorcreate_ltx2_wrapper(...)self.video_vae,self.audio_vaecreate_vae_wrappers(...)这个设计非常巧妙——在同一块 GPU 上交替加载不同模块峰值显存只需 46-50GB 而不是 70GB 记忆银行管线两种管线对应不同场景BidirectionalAVInferencePipeline单镜头音视频推理BidirectionalMemoryAVInferencePipeline多镜头记忆推理核心管线记忆银行核心组件PairedAudioVideoMemoryBank视觉记忆从已生成镜头中提取人物关键帧编码为条件输入音频记忆从已生成镜头中提取声音梅尔频谱窗口两者配对存储确保新镜头中人物外观和声线与之前一致8. 适用场景与优缺点✅ 最佳适用场景场景说明短片/广告视频生成多镜头叙事视频一键生成社交媒体内容创作快速生产高质量视频内容游戏/动画预可视化快速生成故事板级视频️ 视频配音/音效生成音画同步联合生成交互式视频创作对话式 Agent 实时编辑视频规划中⚖️ 优缺点对比优点缺点 5 分钟级长视频一次生成仅限学术/非商业用途LTX-2 License 跨镜头人物外观声线一致 I2V图到视频暂不支持音画同步联合输出模型权重总大小约 70GB4624 DMD 蒸馏 7.5x 加速最低需要 48GB 显存 GPU 两阶段显存热换48GB 可跑短视频音频质量略逊 Wan 2.6 已有 ComfyUI 插件支持 Prompt 需先增强裸写效果较弱 YAML CLI 全参数可调 Director Agent 和超分模块尚未发布9. 总结JoyAI-Echo 是京东在长视频生成领域的一次重磅出击用两个核心创新解决了行业痛点跨模态记忆银行——让每个新镜头「记住」前面镜头的人物外观和声线5 分钟视频全程不崩脸不变调DMD 蒸馏——9 步降噪实现 7.5 倍加速分钟级视频推理不再是奢侈品再加上两阶段 GPU 显存热换设计48GB 显存就能跑完整管线以及已有 ComfyUI 插件生态实用性相当不错。当然也有遗憾——非商业 License 限制了商用场景I2V 和 Director Agent 还在路上70GB 模型权重下载门槛不低。但作为长视频生成的前沿探索JoyAI-Echo 确实开创了长程跨模态一致性实时推理对话交互高分辨率输出四者兼得的新范式。推荐指数⭐⭐⭐⭐ (4/5)技术创新扎实、评测碾压、生态初成但非商业 License 和高硬件门槛是实打实的门槛。原文链接https://github.com/jd-opensource/JoyAI-Echo项目主页https://echo-team-joy-future-academy-jd.github.io/Echo-LongVideo-Page/LicenseLTX-2 Community License Agreement学术研究和非商业用途标签#京东 #JoyAI-Echo #长视频生成 #AIGC #跨模态记忆 #DMD蒸馏 #开源项目 #视频生成分类原创文章

京东开源 JoyAI-Echo：5 分钟长视频一次生成，音画同步不崩脸！

相关新闻

DeepSeek-V4大模型训练硬件选型：昇腾与英伟达分层协同实战指南

跨境电商图片批量本地化怎么做？从商品主图到多语言素材交付的完整工作流

提示工程for程序员: 写出让AI理解的完美Prompt

最新新闻

LangMem+LangGraph构建可记忆的营销AI Agent

Chimera Painter Hi：面向生物形态学的AI绘画工具

VLA 50题：视觉-语言-动作统一建模的实战能力标尺

Mind Elixir 思维导图导出功能实战指南：SVG、PNG、HTML、JSON 一键生成

microG服务完全解析：构建无Google的Android应用生态终极指南

从YOLOv5到YOLO26：7代模型演进路线与部署兼容性全梳理

日新闻

JMeter gRPC性能测试插件实战：从原理到CI/CD集成

iOS自动化测试：基于facebook-wda与weditor的稳定元素定位实战

MTKClient实战指南：深度解析联发科芯片调试与设备修复方案

周新闻

Figma中文界面插件终极指南：5分钟快速上手完整教程

Windows字体自定义终极方案：No!! MeiryoUI完全指南

WinBtrfs终极实战指南：3种配置方案解锁Windows Btrfs文件系统完整功能

月新闻

[C++]内存管理：串顺序存储的内存回收

移动端游戏功耗测试实战：电流、功率、亮度和场景对比

足球口袋教练 HarmonyOS 离线应用实战（03/20）：ArkUI 首页仪表盘搭建