6月24日,在2026MWC上海展期间,华为与湖北移动联合宣布,双方已完成全国运营商首个AI推理加速解决方案现网测试。该测试基于华为OceanStorA800存储与昇腾A3超节点架构,搭载UCM推理记忆数据管理技术,在长序列AI推理场景下,实现了Token吞吐率最高提升372%的突破性成果。
测试在湖北移动现网环境中部署vLLM-Ascend框架,针对MiniMaxM2.5、GLM-5.1等主流大模型,模拟了8K至190K长序列输入场景。结果显示,在MiniMaxM2.5模型场景下,启用UCM后,首Token延迟优化26%~62%,单NPU卡Token输出效率提升58%~78%。在GLM-5.1模型场景下,首Token延迟优化幅度达51%~93%,TPS提升56%~372%。华为表示,测试表明,随着上下文长度增加,AI推理加速方案优势持续放大,有效解决了长序列推理中的KVCache容量瓶颈。
来源:一电快讯
返回第一电动网首页 >
以上内容由AI创作,如有问题请联系admin#d1ev.com(#替换成@)沟通,AI创作内容并不代表第一电动网(www.d1ev.com)立场。
文中图片源自互联网或AI创作,如有侵权请联系邮件删除。