社区热议 重要度 3

开放权重AI安全讨论

Reddit 用户讨论开放权重大模型发布后被快速微调绕过安全拒答的问题,关注“抗微调”是否是有意义的安全目标。讨论核心在于安全训练的威胁模型、攻击成本提升和实际防护收益。

事件进展(1 篇报道)

  1. 2026-07-03 17:07
    Reddit r/MachineLearning What does "Safe AI" look like? [D]

← 返回首页