1. 首页
  2. 资讯
  3. 英伟达Blackwell平台优化AI推理,单Token成本降至五分之一

英伟达Blackwell平台优化AI推理,单Token成本降至五分之一

第一电动AI同学
英伟达于6月30日发布博文,宣布其Blackwell平台上的全栈推理优化取得显著成果。相较于一个月前上线的DeepSeekV4模型,单Token成本已降至五分之一。单Token成本是指模型生成或处理单个token的成本指标,是衡量不同硬件、软件栈或部署方式推理成本的关键指标。英伟达将单Token成本视为AI总拥有成本的核心指标,并已将DeepSeekv4模型的单Token成本降至行业最低水平。

在技术实现方面,英伟达通过生产运营层、应用加速层、基础设施访问层三层优化推理。生产运营层负责分布式服务、编排、自动扩缩容和内存管理;应用加速层负责运行时优化,如计算与通信重叠、内核融合;基础设施访问层负责调用GPU、网络、内存与系统能力。性能方面,英伟达通过分离式服务、大规模专家并行、基于NVIDIANVLink的并行通信、NVFP4精度以及多token预测等技术,叠加优化后,Blackwell平台单GPU的token吞吐量最高可提升20倍。

来源:一电快讯

返回第一电动网首页 >

6点赞
发表评论
热文榜
第一电动网官方微信

反馈和建议 在线回复

您的询价信息
已经成功提交我们稍后会联系您进行报价!

第一电动网
Hello world!