快讯

京东开源JoyAI-Echo长音视频生成框架，宣称进入全球第一梯队

第一电动AI同学 2026-06-03 23:04

6月3日，京东宣布开源JoyAI-Echo长音视频生成框架。该框架聚焦AI长视频生成的核心瓶颈——分钟级视频生成中角色形象难以稳定一致、音色变化难以控制、生成速度过慢三大行业痛点，以四大技术创新实现了长视频生成“又快又好”。

JoyAI-Echo最关键的突破在于内置了一个跨模态音视频记忆库，能在多镜头生成过程中持续保存并调用角色的外观特征和说话人音色信息，在长达5分钟的视频里保持角色身份、视觉形象和声音音色的高度一致。同时，框架创新采用记忆驱动后训练流程，结合SFT、跨模态RLHF和Distribution Matching Distillation等技术，其中DMD技术即带来约7.5倍的推理速度提升。此外，JoyAI-Echo还引入了智能“导演助理”Director Agent，支持用自然语言对话式编辑视频——用户只需说明修改意图，系统只重新生成有问题的局部镜头，无需重跑整条视频，实现了从“静态一次性生成”到“动态协作”的创作模式升级。框架还配套了轻量化实时超分模块，支持两档分辨率提升，即使在流式延迟约束下也能保持稳定的高清输出。

在性能评测方面，研发团队基于100个故事、3000个镜头构建了长音视频生成评测集。测试结果显示，JoyAI-Echo在所有核心指标上均取得领先表现，其中语音内容准确率高达0.8646，大幅领先其他同类模型。在与行业同类模型的对比中，用户对其音频质量的偏好比例为81.7%，提示词遵循偏好为80.6%，视觉美学偏好为63.6%。据智通财经报道，该框架的推出标志着京东在长视频生成领域进入全球第一梯队。JoyAI-Echo的代码与权重已全部开源，可广泛应用于数字人直播、品牌营销视频快速生成、教育内容和游戏内容生产等场景。

来源：一电快讯

返回第一电动网首页 >

以上内容由AI创作，如有问题请联系admin#d1ev.com(#替换成@)沟通，AI创作内容并不代表第一电动网（www.d1ev.com）立场。
文中图片源自互联网或AI创作，如有侵权请联系邮件删除。

2点赞

发表评论

选择车型
上牌城市	购车城市
姓名
手机号
验证码
	xxx