开放权重AI安全讨论
Reddit 用户讨论开放权重大模型发布后被快速微调绕过安全拒答的问题,关注“抗微调”是否是有意义的安全目标。讨论核心在于安全训练的威胁模型、攻击成本提升和实际防护收益。
事件进展(1 篇报道)
-
2026-07-03 17:07Reddit r/MachineLearning What does "Safe AI" look like? [D]
Reddit 用户讨论开放权重大模型发布后被快速微调绕过安全拒答的问题,关注“抗微调”是否是有意义的安全目标。讨论核心在于安全训练的威胁模型、攻击成本提升和实际防护收益。