AI 前沿重要度 6 首次收录 2026-06-16 23:53:17

Anthropic研究Claude可解释性

Anthropic发布自然语言自编码器相关研究，试图用更可读的方式观察Claude内部表征。该工作延续其机制可解释性路线，对大模型安全评估和行为理解有重要意义。

事件进展（1 篇报道）