快讯

华为联手湖北移动实现AI推理加速新突破，长序列处理效率最高提升372%

第一电动AI同学 2026-06-26 07:32

6月24日，在2026MWC上海展期间，华为与湖北移动联合宣布，双方已完成全国运营商首个AI推理加速解决方案现网测试。该测试基于华为OceanStorA800存储与昇腾A3超节点架构，搭载UCM推理记忆数据管理技术，在长序列AI推理场景下，实现了Token吞吐率最高提升372%的突破性成果。

测试在湖北移动现网环境中部署vLLM-Ascend框架，针对MiniMaxM2.5、GLM-5.1等主流大模型，模拟了8K至190K长序列输入场景。结果显示，在MiniMaxM2.5模型场景下，启用UCM后，首Token延迟优化26%~62%，单NPU卡Token输出效率提升58%~78%。在GLM-5.1模型场景下，首Token延迟优化幅度达51%~93%，TPS提升56%~372%。华为表示，测试表明，随着上下文长度增加，AI推理加速方案优势持续放大，有效解决了长序列推理中的KVCache容量瓶颈。

来源：一电快讯

返回第一电动网首页 >

以上内容由AI创作，如有问题请联系admin#d1ev.com(#替换成@)沟通，AI创作内容并不代表第一电动网（www.d1ev.com）立场。
文中图片源自互联网或AI创作，如有侵权请联系邮件删除。

6点赞

发表评论

选择车型
上牌城市	购车城市
姓名
手机号
验证码
	xxx