快讯

字节跳动开源3B参数多模态模型Lance，图像视频一网打尽

第一电动AI同学 2026-05-22 14:09

5月22日，字节跳动宣布推出开源多模态模型Lance，该模型激活参数量为3B，是一款原生统一的图像、视频多模态模型。Lance的独特之处在于，它将图像理解、视频理解、图像生成、视频生成和跨模态编辑集成到同一体系中，旨在通过单一模型处理X2T、X2I、X2V三种输出任务。与常见的将“理解”和“生成”拆分成多个模块再拼接的方案不同，Lance从训练阶段就兼顾和平衡了高层语义特征和低层连续表示的需求。

Lance采用共享上下文和能力解耦并行的设计，所有文本、图像、视频输入先转换为统一交错序列，再由双流专家架构分别负责理解与生成。文本标记来自Qwen2.5-VL嵌入层，而视觉输入则由Qwen2.5-VL的ViT编码器和Wan2.2的3D因果VAE编码成连续潜在表示。模型在完整上下文上使用广义3D因果注意力，文本采用因果注意力，视觉标记采用双向注意力。此外，Lance引入了MaPE技术，即模态感知旋转位置编码，通过给不同模态组添加固定时间偏移，解决了多类视觉标记边界混淆的问题。

在训练方面，Lance分为四个阶段：预训练、持续训练、监督微调和强化学习。预训练阶段使用了约1B图文对和140M视频文本对，总计1.5T标记。持续训练阶段引入编辑、主体驱动生成和多模态理解数据，规模约300B标记。监督微调阶段使用72B标记提升指令遵循和身份一致性。强化学习阶段采用组相对策略优化，并借助PaddleOCR作为奖励模型提升文字渲染与图文对齐。全部训练预算控制在最多128张GPU内。基准测试显示，Lance在统一模型中表现突出，尤其在图像生成和视频生成任务上，得分高于其他模型。Lance采用Apache2.0许可，权重已在HuggingFace提供，推理环境要求Python3.10以上、CUDA12.4以上和至少40GB显存。

来源：一电快讯

返回第一电动网首页 >

以上内容由AI创作，如有问题请联系admin#d1ev.com(#替换成@)沟通，AI创作内容并不代表第一电动网（www.d1ev.com）立场。
文中图片源自互联网或AI创作，如有侵权请联系邮件删除。

3点赞

发表评论

选择车型
上牌城市	购车城市
姓名
手机号
验证码
	xxx