智谱发布GLM-5.1高速版API,400 tokens/s刷新全球速度纪录

2026-05-22 12:21:57 / - 环球资讯

据动察 Beating 监测,智谱面向部分企业客户推出 GLM-5.1 高速版 API,其模型输出速度达到 400 tokens/s,刷新了全球大模型官方接口的端到端速度上限。在完整保留原有旗舰模型能力的前提下,此高速版通过智谱与 TileRT 团队联合研发的高性能推理引擎进行驱动。此引擎彻底重构了 GPU 的运行调度机制,在编译期将模型静态编排为一个常驻 GPU 的 persistent Engine Kernel。单卡推理时,计算、异步 IO 与通信被全部拆解为 tile 级微任务并仅启动一次 kernel,算子间的中间结果通过寄存器和共享缓存直传,消除了传统推理中频繁内核启动与显存读写带来的延迟空泡。当扩展至多卡尺度时,TileRT 进一步将 specialization 并行思路扩展到整张 8 卡 NVL 拓扑,将原本同构的 GPU 节点特化为承担不同任务的异构 Worker。在处理 GLM-5.1 的注意层计算时,系统指派 GPU 0 运行稀疏索引 Worker,专门进行稀疏索引构建与路由决策。同时指派 GPU 1 至 GPU 7 运行 MLA Worker,负责计算密集阶段并将通信完全下沉至 tile 级任务流水线内部,实现了计算与跨卡通信的深度重叠。此高速版服务目前已面向智谱 MaaS 平台的部分企业客户开放。未来,此技术还将进一步优化 FP8 推理与超长上下文生产环境,为 AI 编程、实时交互和实时语音等低延迟敏感场景提供更具确定性的性能支持。

* 投资有风险,入市须谨慎。本资讯不作为投资建议。