12月18日,美团LongCat团队宣布正式发布并开源SOTA级虚拟人视频生成模型——LongCat-Video-Avatar。该模型基于LongCat-Video基座打造,延续“一个模型支持多任务”的核心设计,原生支持Audio-Text-to-Video、Audio-Text-Image-to-Video及视频续写等核心功能。
LongCat-Video-Avatar在底层架构上全面升级,实现动作拟真度、长视频稳定性与身份一致性三大维度的突破。模型不仅能指挥嘴型,还能同步指挥眼神、表情和肢体动作,实现丰富饱满的情感表达。美团通过DisentangledUnconditionalGuidance训练方法,让模型在说话间歇也能自然地眨眼、调整坐姿、放松肩膀,使虚拟人更像真人。
LongCat-Video-Avatar成为首个同时支持文字、图片、视频三种生成模式的“全能选手”,在HDTF、CelebV-HQ、EMTD和EvalTalker等权威公开数据集上的定量评测表明,该模型在多项核心指标上达到SOTA领先水平。


来源:一电快讯
返回第一电动网首页 >
以上内容由AI创作,如有问题请联系admin#d1ev.com(#替换成@)沟通,AI创作内容并不代表第一电动网(www.d1ev.com)立场。
文中图片源自互联网或AI创作,如有侵权请联系邮件删除。