5月22日,字节跳动宣布推出开源多模态模型Lance,该模型激活参数量为3B,是一款原生统一的图像、视频多模态模型。Lance的独特之处在于,它将图像理解、视频理解、图像生成、视频生成和跨模态编辑集成到同一体系中,旨在通过单一模型处理X2T、X2I、X2V三种输出任务。与常见的将“理解”和“生成”拆分成多个模块再拼接的方案不同,Lance从训练阶段就兼顾和平衡了高层语义特征和低层连续表示的需求。
Lance采用共享上下文和能力解耦并行的设计,所有文本、图像、视频输入先转换为统一交错序列,再由双流专家架构分别负责理解与生成。文本标记来自Qwen2.5-VL嵌入层,而视觉输入则由Qwen2.5-VL的ViT编码器和Wan2.2的3D因果VAE编码成连续潜在表示。模型在完整上下文上使用广义3D因果注意力,文本采用因果注意力,视觉标记采用双向注意力。此外,Lance引入了MaPE技术,即模态感知旋转位置编码,通过给不同模态组添加固定时间偏移,解决了多类视觉标记边界混淆的问题。
在训练方面,Lance分为四个阶段:预训练、持续训练、监督微调和强化学习。预训练阶段使用了约1B图文对和140M视频文本对,总计1.5T标记。持续训练阶段引入编辑、主体驱动生成和多模态理解数据,规模约300B标记。监督微调阶段使用72B标记提升指令遵循和身份一致性。强化学习阶段采用组相对策略优化,并借助PaddleOCR作为奖励模型提升文字渲染与图文对齐。全部训练预算控制在最多128张GPU内。基准测试显示,Lance在统一模型中表现突出,尤其在图像生成和视频生成任务上,得分高于其他模型。Lance采用Apache2.0许可,权重已在HuggingFace提供,推理环境要求Python3.10以上、CUDA12.4以上和至少40GB显存。

来源:一电快讯
返回第一电动网首页 >
以上内容由AI创作,如有问题请联系admin#d1ev.com(#替换成@)沟通,AI创作内容并不代表第一电动网(www.d1ev.com)立场。
文中图片源自互联网或AI创作,如有侵权请联系邮件删除。