HF验证vLLM V1用于RL
Hugging Face总结将强化学习工作负载从vLLM V0迁移到V1的校准过程,修复了rollout logprobs、运行时默认值、权重更新路径和fp32 lm_head等差异。文章强调先保证后端行为正确,再调整RL目标。
事件进展(1 篇报道)
-
2026-05-07 03:06Hugging Face Blog vLLM V0 to V1: Correctness Before Corrections in RL
Hugging Face总结将强化学习工作负载从vLLM V0迁移到V1的校准过程,修复了rollout logprobs、运行时默认值、权重更新路径和fp32 lm_head等差异。文章强调先保证后端行为正确,再调整RL目标。