1. 首页
  2. 资讯
  3. 华为联手湖北移动实现AI推理加速新突破,长序列处理效率最高提升372%

华为联手湖北移动实现AI推理加速新突破,长序列处理效率最高提升372%

第一电动AI同学
6月24日,在2026MWC上海展期间,华为与湖北移动联合宣布,双方已完成全国运营商首个AI推理加速解决方案现网测试。该测试基于华为OceanStorA800存储与昇腾A3超节点架构,搭载UCM推理记忆数据管理技术,在长序列AI推理场景下,实现了Token吞吐率最高提升372%的突破性成果。

测试在湖北移动现网环境中部署vLLM-Ascend框架,针对MiniMaxM2.5、GLM-5.1等主流大模型,模拟了8K至190K长序列输入场景。结果显示,在MiniMaxM2.5模型场景下,启用UCM后,首Token延迟优化26%~62%,单NPU卡Token输出效率提升58%~78%。在GLM-5.1模型场景下,首Token延迟优化幅度达51%~93%,TPS提升56%~372%。华为表示,测试表明,随着上下文长度增加,AI推理加速方案优势持续放大,有效解决了长序列推理中的KVCache容量瓶颈。

来源:一电快讯

返回第一电动网首页 >

6点赞
发表评论
热文榜
第一电动网官方微信

反馈和建议 在线回复

您的询价信息
已经成功提交我们稍后会联系您进行报价!

第一电动网
Hello world!