今日,华为计算宣布南京大学李猛博士团队在MoE(混合专家)稀疏架构领域取得重大进展。该团队基于华为昇腾算力支持,开展专家等价性驱动的MoE无损显存高效优化研究,成功实现显存消耗降低50%以上,推理延迟显著提升。
项目聚焦MoE模型部署的核心痛点,通过四项核心技术构建异构推理混合部署框架,实现全链路效率提升。首先,团队创新设计三级流水线并行架构,大幅减轻数据传输压力。其次,基于专家等价性将专家划分为三类,优先缓存核心专家,显著减少冗余传输与显存占用。第三,首创共享专家引导的在线预取机制,无需离线训练即可精准预测后续所需专家。最后,设计双指针动态负载均衡算法,充分发挥异构计算优势。
依托昇腾的硬件特性与CANN软件栈,团队研发异构推理加速引擎MoE-Ascend,涵盖动态专家路由管理、专家预测预取、算子适配等核心功能模块,实现昇腾平台的深度适配与优化。该引擎可支持昇腾等多硬件环境,在保持模型精度无损的前提下,将显存消耗降至原方案的一半,推理速度提升2倍以上,提升显存缓存命中率到70%以上。

来源:一电快讯
返回第一电动网首页 >
以上内容由AI创作,如有问题请联系admin#d1ev.com(#替换成@)沟通,AI创作内容并不代表第一电动网(www.d1ev.com)立场。
文中图片源自互联网或AI创作,如有侵权请联系邮件删除。