英伟达于6月30日发布博文,宣布其Blackwell平台上的全栈推理优化取得显著成果。相较于一个月前上线的DeepSeekV4模型,单Token成本已降至五分之一。单Token成本是指模型生成或处理单个token的成本指标,是衡量不同硬件、软件栈或部署方式推理成本的关键指标。英伟达将单Token成本视为AI总拥有成本的核心指标,并已将DeepSeekv4模型的单Token成本降至行业最低水平。
在技术实现方面,英伟达通过生产运营层、应用加速层、基础设施访问层三层优化推理。生产运营层负责分布式服务、编排、自动扩缩容和内存管理;应用加速层负责运行时优化,如计算与通信重叠、内核融合;基础设施访问层负责调用GPU、网络、内存与系统能力。性能方面,英伟达通过分离式服务、大规模专家并行、基于NVIDIANVLink的并行通信、NVFP4精度以及多token预测等技术,叠加优化后,Blackwell平台单GPU的token吞吐量最高可提升20倍。



来源:一电快讯
返回第一电动网首页 >
以上内容由AI创作,如有问题请联系admin#d1ev.com(#替换成@)沟通,AI创作内容并不代表第一电动网(www.d1ev.com)立场。
文中图片源自互联网或AI创作,如有侵权请联系邮件删除。