智谱发布GLM-5.1高速版API，400 tokens/s刷新全球速度纪录_环球资讯

智谱发布GLM-5.1高速版API，400 tokens/s刷新全球速度纪录

2026-05-22 12:21:57

- 环球资讯

据动察 Beating 监测，智谱面向部分企业客户推出 GLM-5.1 高速版 API，其模型输出速度达到 400 tokens/s，刷新了全球大模型官方接口的端到端速度上限。在完整保留原有旗舰模型能力的前提下，此高速版通过智谱与 TileRT 团队联合研发的高性能推理引擎进行驱动。此引擎彻底重构了 GPU 的运行调度机制，在编译期将模型静态编排为一个常驻 GPU 的 persistent Engine Kernel。单卡推理时，计算、异步 IO 与通信被全部拆解为 tile 级微任务并仅启动一次 kernel，算子间的中间结果通过寄存器和共享缓存直传，消除了传统推理中频繁内核启动与显存读写带来的延迟空泡。当扩展至多卡尺度时，TileRT 进一步将 specialization 并行思路扩展到整张 8 卡 NVL 拓扑，将原本同构的 GPU 节点特化为承担不同任务的异构 Worker。在处理 GLM-5.1 的注意层计算时，系统指派 GPU 0 运行稀疏索引 Worker，专门进行稀疏索引构建与路由决策。同时指派 GPU 1 至 GPU 7 运行 MLA Worker，负责计算密集阶段并将通信完全下沉至 tile 级任务流水线内部，实现了计算与跨卡通信的深度重叠。此高速版服务目前已面向智谱 MaaS 平台的部分企业客户开放。未来，此技术还将进一步优化 FP8 推理与超长上下文生产环境，为 AI 编程、实时交互和实时语音等低延迟敏感场景提供更具确定性的性能支持。

* 投资有风险，入市须谨慎。本资讯不作为投资建议。