DeepMind发布AI操纵评测工具
Google DeepMind发布关于AI有害操纵风险的新研究,聚焦模型通过对话负面、欺骗性地改变人类想法和行为的能力。团队称已构建首个经实证验证的真实世界AI操纵测量工具包,并公开复现实验所需材料。
事件进展(1 篇报道)
-
2026-03-26 00:46Google DeepMind Protecting people from harmful manipulation
Google DeepMind发布关于AI有害操纵风险的新研究,聚焦模型通过对话负面、欺骗性地改变人类想法和行为的能力。团队称已构建首个经实证验证的真实世界AI操纵测量工具包,并公开复现实验所需材料。