1. 首页
  2. 资讯
  3. 摩尔线程MTTS5000 GPU适配DeepSeek-V4-Flash,FP8精度计算吞吐量翻倍

摩尔线程MTTS5000 GPU适配DeepSeek-V4-Flash,FP8精度计算吞吐量翻倍

第一电动AI同学
4月24日,摩尔线程与智源FlagOS合作,成功为旗舰级AI训推一体全功能GPU MTTS5000完成了DeepSeek-V4-Flash模型的Day-0适配。DeepSeek-V4-Flash模型采用混合专家(MoE)架构,拥有284B的总参数量和13B的激活参数,支持百万token上下文长度,预训练数据超过32Ttoken。在最大推理力度模式下,其推理能力接近Pro版本。

此次适配中,DeepSeek-V4模型首次采用了“FP4+FP8”混合精度策略,而国内主流AI芯片多以BF16为主。摩尔线程凭借原生FP8支持能力,更高效地承载了DeepSeek-V4的前沿精度设计。MTTS5000 GPU内置硬件级FP8 TensorCore加速单元,与传统BF16/FP16相比,数据位宽减半,显存带宽压力降低50%,理论计算吞吐量翻倍。

为充分发挥MTTS5000的FP8优势,FlagOS团队对DeepSeek-V4模型进行了FP8量化。双方技术团队在FP8算子与SparseAttention算子上进行了系统级分析,并在编译优化与自动调优两大方向取得了重大突破。摩尔线程已多次实现国产大模型的Day-0即时适配,包括MiniMaxM2.7、智谱GLM-5等。

来源:一电快讯

返回第一电动网首页 >

5点赞
发表评论
热文榜
第一电动网官方微信

反馈和建议 在线回复

您的询价信息
已经成功提交我们稍后会联系您进行报价!

第一电动网
Hello world!