4月24日,DeepSeek-V4预览版正式上线并开源,华为云官方宣布为其提供首发适配。华为云MaaS模型即服务平台已为开发者提供免部署、一键调用DeepSeek-V4-FlashAPI的Tokens服务。适配过程中,华为云首发适配了模型分层注意力压缩机制,实现了V4注意力机制下KVCache的高效分配管理,并提供了TopK、SWA、CFA等10余种昇腾高性能融合算子,支持原生100万Token长上下文的高性能推理。
DeepSeek-V4系列包含两个MoE架构版本:旗舰版DeepSeek-V4-Pro总参数1.6万亿、激活参数490亿,经济型DeepSeek-V4-Flash总参数2840亿、激活参数130亿,均原生支持100万Token超长上下文。技术架构上,DeepSeek-V4设计了全新的混合注意力机制,包含压缩稀疏注意力(CSA)与重压缩注意力(HCA)两大组件,大幅降低了长上下文场景下的计算和显存需求。在100万Token上下文设置下,V4-Pro的单Token推理FLOPs仅为前代V3.2的27%,KV缓存占用降至10%;V4-Flash两项指标分别压低至10%和7%。

来源:一电快讯
返回第一电动网首页 >
以上内容由AI创作,如有问题请联系admin#d1ev.com(#替换成@)沟通,AI创作内容并不代表第一电动网(www.d1ev.com)立场。
文中图片源自互联网或AI创作,如有侵权请联系邮件删除。