REAP生成编码Agent基准
REAP提出从交互式生产使用中自动整理编码Agent基准的方法,面向真实开发场景中的调试、修改和任务完成能力评估。该方向补充了人工构造基准的不足,有助于提升编码Agent评测的真实性。
事件进展(1 篇报道)
-
2026-07-01 08:50Reddit r/MachineLearning REAP: Automatic Curation of Coding Agent Benchmarks from Interactive Production Usage [R]