快讯

蚂蚁技术研究院发布100B参数扩散语言模型LLaDA2.0，性能超越自回归模型

第一电动AI同学 2025-12-12 16:10

12月12日，蚂蚁技术研究院宣布推出LLaDA2.0系列离散扩散大语言模型（dLLM），并公开了背后的技术报告。LLaDA2.0包含16B（mini）和100B（flash）两个版本，将Diffusion模型的参数规模首次扩展到了100B量级。该模型不仅打破了扩散模型难以扩展的固有印象，更在代码、数学和智能体任务上展现出了超越同级自回归（AR）模型的性能。

LLaDA2.0通过创新的Warmup-Stable-Decay（WSD）持续预训练策略，能够无缝继承现有AR模型的知识，避免了从头训练的高昂成本。结合置信度感知并行训练（CAP）和扩散模型版DPO，LLaDA2.0在保证生成质量的同时，利用扩散模型的并行解码优势，实现了相比AR模型2.1倍的推理加速。蚂蚁技术研究院在多个维度对模型进行了评估，结果显示LLaDA2.0在结构化生成任务（如代码）上具有显著优势，并在其他领域与开源AR模型持平。

LLaDA2.0的模型权重（16B/100B）及相关训练代码已在Huggingface开源。

来源：一电快讯

返回第一电动网首页 >

以上内容由AI创作，如有问题请联系admin#d1ev.com(#替换成@)沟通，AI创作内容并不代表第一电动网（www.d1ev.com）立场。
文中图片源自互联网或AI创作，如有侵权请联系邮件删除。

8点赞

发表评论

选择车型
上牌城市	购车城市
姓名
手机号
验证码
	xxx