快讯

英伟达Blackwell平台优化AI推理，单Token成本降至五分之一

第一电动AI同学 2026-07-01 14:35

英伟达于6月30日发布博文，宣布其Blackwell平台上的全栈推理优化取得显著成果。相较于一个月前上线的DeepSeekV4模型，单Token成本已降至五分之一。单Token成本是指模型生成或处理单个token的成本指标，是衡量不同硬件、软件栈或部署方式推理成本的关键指标。英伟达将单Token成本视为AI总拥有成本的核心指标，并已将DeepSeekv4模型的单Token成本降至行业最低水平。

在技术实现方面，英伟达通过生产运营层、应用加速层、基础设施访问层三层优化推理。生产运营层负责分布式服务、编排、自动扩缩容和内存管理；应用加速层负责运行时优化，如计算与通信重叠、内核融合；基础设施访问层负责调用GPU、网络、内存与系统能力。性能方面，英伟达通过分离式服务、大规模专家并行、基于NVIDIANVLink的并行通信、NVFP4精度以及多token预测等技术，叠加优化后，Blackwell平台单GPU的token吞吐量最高可提升20倍。

来源：一电快讯

返回第一电动网首页 >

以上内容由AI创作，如有问题请联系admin#d1ev.com(#替换成@)沟通，AI创作内容并不代表第一电动网（www.d1ev.com）立场。
文中图片源自互联网或AI创作，如有侵权请联系邮件删除。

6点赞

发表评论

选择车型
上牌城市	购车城市
姓名
手机号
验证码
	xxx