快讯

华为昇腾助力南京大学团队突破MoE模型显存优化，推理速度翻倍

第一电动AI同学 2026-02-04 20:19

今日，华为计算宣布南京大学李猛博士团队在MoE（混合专家）稀疏架构领域取得重大进展。该团队基于华为昇腾算力支持，开展专家等价性驱动的MoE无损显存高效优化研究，成功实现显存消耗降低50%以上，推理延迟显著提升。

项目聚焦MoE模型部署的核心痛点，通过四项核心技术构建异构推理混合部署框架，实现全链路效率提升。首先，团队创新设计三级流水线并行架构，大幅减轻数据传输压力。其次，基于专家等价性将专家划分为三类，优先缓存核心专家，显著减少冗余传输与显存占用。第三，首创共享专家引导的在线预取机制，无需离线训练即可精准预测后续所需专家。最后，设计双指针动态负载均衡算法，充分发挥异构计算优势。

依托昇腾的硬件特性与CANN软件栈，团队研发异构推理加速引擎MoE-Ascend，涵盖动态专家路由管理、专家预测预取、算子适配等核心功能模块，实现昇腾平台的深度适配与优化。该引擎可支持昇腾等多硬件环境，在保持模型精度无损的前提下，将显存消耗降至原方案的一半，推理速度提升2倍以上，提升显存缓存命中率到70%以上。

来源：一电快讯

返回第一电动网首页 >

以上内容由AI创作，如有问题请联系admin#d1ev.com(#替换成@)沟通，AI创作内容并不代表第一电动网（www.d1ev.com）立场。
文中图片源自互联网或AI创作，如有侵权请联系邮件删除。

7点赞

发表评论

选择车型
上牌城市	购车城市
姓名
手机号
验证码
	xxx