AI 前沿 重要度 7

Ecom-RLVE训练电商对话Agent

Hugging Face 介绍 Ecom-RLVE,将可验证环境从单轮推理扩展到多轮、工具增强的电商对话任务。项目提供 8 类环境、程序化生成、难度课程和可验证奖励,并用 Qwen 3 8B 进行 DAPO 训练展示早期结果。

事件进展(1 篇报道)

  1. 2026-04-16 08:00

← 返回首页