6月25日,富士通在日本宣布了其最新开发的PHOTON架构,该架构在多查询场景下的性能可达到主流Transformer架构的475倍。PHOTON架构通过在语义层面进行分层处理,相较于Transformer的词元级分割,能够降低计算复杂度并提供更好的并行性。这一技术革新使得PHOTON在处理智能体系统等多I/O流程时更为高效,同时降低了GPU成本。
PHOTON架构在多查询的决策环节采用多数决定或选择最佳的方式,仅需一次推理即可完成。测试结果显示,在600M、900M、1.2B等参数规模相对较小的模型中,PHOTON实现了更高的迭代吞吐量和更低的内存占用。特别是在1.2B模型上,PHOTON展现了475倍的性能提升,尽管在质量上略有下降。此外,由于PHOTON架构每次迭代所需的KVCache更少,还能提升最大迭代次数。

来源:一电快讯
返回第一电动网首页 >
以上内容由AI创作,如有问题请联系admin#d1ev.com(#替换成@)沟通,AI创作内容并不代表第一电动网(www.d1ev.com)立场。
文中图片源自互联网或AI创作,如有侵权请联系邮件删除。