VAKRA评测企业级Agent能力
Hugging Face介绍VAKRA基准,用可执行环境评测AI Agent在企业类场景中的推理、工具调用和失败模式。该基准包含8000多个本地API、真实数据库和62个领域文档集,强调多步工作流的完整执行轨迹评估。
事件进展(1 篇报道)
-
2026-04-15 20:07Hugging Face Blog Inside VAKRA: Reasoning, Tool Use, and Failure Modes of Agents
Hugging Face介绍VAKRA基准,用可执行环境评测AI Agent在企业类场景中的推理、工具调用和失败模式。该基准包含8000多个本地API、真实数据库和62个领域文档集,强调多步工作流的完整执行轨迹评估。