Ecom-RLVE训练电商对话Agent
Hugging Face 介绍 Ecom-RLVE,将可验证环境从单轮推理扩展到多轮、工具增强的电商对话任务。项目提供 8 类环境、程序化生成、难度课程和可验证奖励,并用 Qwen 3 8B 进行 DAPO 训练展示早期结果。
事件进展(1 篇报道)
-
2026-04-16 08:00
Hugging Face 介绍 Ecom-RLVE,将可验证环境从单轮推理扩展到多轮、工具增强的电商对话任务。项目提供 8 类环境、程序化生成、难度课程和可验证奖励,并用 Qwen 3 8B 进行 DAPO 训练展示早期结果。