TRL引入增量权重同步
Hugging Face TRL 合入 Delta Weight Sync,用稀疏 safetensors 只同步相邻 RL 训练步中变化的权重,并通过 Hub Bucket 供 vLLM 拉取。该方法在 Qwen3-0.6B 上将单步传输量从 1.2GB 降至 20-35MB,面向大模型异步 RL 训练降本提效。
事件进展(1 篇报道)
-
2026-05-27 08:00
Hugging Face TRL 合入 Delta Weight Sync,用稀疏 safetensors 只同步相邻 RL 训练步中变化的权重,并通过 Hub Bucket 供 vLLM 拉取。该方法在 Qwen3-0.6B 上将单步传输量从 1.2GB 降至 20-35MB,面向大模型异步 RL 训练降本提效。