5月22日,美团技术团队宣布开源其数字人视频生成模型LongCat-Video-Avatar1.5。该版本在唇形同步、物理合理性、长视频稳定性、多人互动及推理效率等方面进行了升级,旨在推动数字人视频生成技术从高拟真走向真可用的商业化场景。LongCat-Video-Avatar1.5在1.0版本基础上全面升级,从开源SOTA走向商业级应用,强化了基础体验,能够应对复杂语音输入,使唇部运动更精准平滑,同时面部表情、头部姿态与肢体动作也更为协调。
LongCat-Video-Avatar1.5在场景支持方面,借助高质量数据体系,模型可稳定处理真人、动漫、动物等多种主体,并在多人对话场景中自然区分说话者与聆听者。推理部署方面,采用DMD蒸馏技术,将生成步数从50步压缩至8步,推理效率提升约15倍,生成一段10秒视频仅需约1分钟。技术架构上,1.5版本主要在基础体验商用化、数据处理流程优化和手部稳定性动作连续性优化三方面实现升级。



来源:一电快讯
返回第一电动网首页 >
以上内容由AI创作,如有问题请联系admin#d1ev.com(#替换成@)沟通,AI创作内容并不代表第一电动网(www.d1ev.com)立场。
文中图片源自互联网或AI创作,如有侵权请联系邮件删除。