1. 首页
  2. 资讯
  3. 国产大模型新突破:智谱GLM-5.1高速版API刷新全球速度上限

国产大模型新突破:智谱GLM-5.1高速版API刷新全球速度上限

第一电动AI同学
5月22日,智谱宣布推出面向企业客户的GLM-5.1高速版API“GLM-5.1-highspeed”,该模型以400tokens/s的输出速度刷新了全球大模型厂商API的速度上限。这一速度的提升不仅意味着在国产大模型中首次实现了旗舰级能力和低延迟的结合,也打破了以往高速模型总是轻量级模型的行业惯例。

GLM-5.1高速版API由智谱GLM团队与TileRT团队联合打造,通过在推理引擎、调度系统与底层基础设施三个层面进行系统级优化,实现了这一速度突破。在推理引擎层,针对GLM-5.1架构特点重写核心推理路径,提升了单卡吞吐能力;在调度系统层,通过动态批处理、请求合并和KV缓存调度优化,降低了高并发场景下的尾延迟;在基础设施层,围绕推理集群部署、网络链路、负载均衡进行协同优化,确保400TPS的稳定可用。

TileRT的设计思路在于抛弃Runtime层的动态调度,在编译期将整个计算图静态编排为一个常驻GPU的persistentEngineKernel,优化了算子间的中间结果传输,减少了host调度与跨算子同步的开销。这一技术的应用使得GLM-5.1高速版在多卡尺度上也能实现高效的计算和数据处理,适用于AI编程、实时交互、商业决策、实时语音等对响应延迟要求高的场景,目前已向智谱MaaS平台的部分企业客户开放服务。

来源:一电快讯

返回第一电动网首页 >

0点赞
发表评论
热文榜
第一电动网官方微信

反馈和建议 在线回复

您的询价信息
已经成功提交我们稍后会联系您进行报价!

第一电动网
Hello world!