GLM-5.2本地推理提速
社区用户跟进 GLM-5.2 NVFP4 在四台 DGX Spark 上的运行测试,称已解决 MTP 接受率异常问题,使 128K 上下文下 decode 从约 15 tok/s 提升到约 24 tok/s。该进展体现了长上下文推理与多设备部署调优价值。
事件进展(1 篇报道)
-
2026-07-03 14:33
社区用户跟进 GLM-5.2 NVFP4 在四台 DGX Spark 上的运行测试,称已解决 MTP 接受率异常问题,使 128K 上下文下 decode 从约 15 tok/s 提升到约 24 tok/s。该进展体现了长上下文推理与多设备部署调优价值。