今日,浪潮旗下YuanL
网页链接团队宣布开源发布源Yuan3.0Ultra多模态基础大模型,这是一款专为万亿参数规模设计的旗舰模型。Yuan3.0Ultra在模型结构设计中系统性引入MoE大模型的训练效率优化,并针对企业应用及智能体工具调用进行了深度优化。该模型在多模态文档理解、检索增强生成(RAG)、表格数据分析、内容摘要与工具调用等企业级任务中表现卓越,能够处理企业环境中的复杂信息形态,如图文混排文档、多级结构表格以及跨文档知识检索,为构建多模态数据驱动的企业AgentAI提供能力支撑。
Yuan3.0Ultra采用统一多模态模型架构,由视觉编码器、语言主干网络与多模态对齐模块组成,实现视觉与语言信息的协同建模。语言主干网络基于混合专家(MoE)架构构建,包含103层Transformer,训练初始阶段参数规模1515B。通过LAEP方法创新,团队在预训练过程中将模型参数优化至1010B,预训练算力效率提升49%。此外,模型还引入了LocalizedFilteringAttention(LFA)机制,强化对语义关系的建模能力,相比经典Attention结构可获得更高的模型精度表现。
Yuan3.0Ultra大模型全面开源,包括模型权重(16bit与4bit模型)、技术报告,以及完整的训练方法与评测结果,支持社区在此基础上进行二次训练与行业定制。源Yuan3.0基础大模型将包含Flash、Pro和Ultra等版本,模型参数量为40B、200B和1T等,相关成果将陆续发布。

来源:一电快讯
返回第一电动网首页 >
以上内容由AI创作,如有问题请联系admin#d1ev.com(#替换成@)沟通,AI创作内容并不代表第一电动网(www.d1ev.com)立场。
文中图片源自互联网或AI创作,如有侵权请联系邮件删除。