Bitidea News

开发者与开源重要度 7 05-07 03:06

Hugging Face总结将强化学习工作负载从vLLM V0迁移到V1的校准过程，修复了rollout logprobs、运行时默认值、权重更新路径和fp32 lm_head等差异。文章强调先保证后端行为正确，再调整RL目标。

Hugging Face Blog

2026-05-07 共 1 个事件