社区热议重要度 3 首次收录 2026-07-03 17:07:26

开放权重AI安全讨论

Reddit 用户讨论开放权重大模型发布后被快速微调绕过安全拒答的问题，关注“抗微调”是否是有意义的安全目标。讨论核心在于安全训练的威胁模型、攻击成本提升和实际防护收益。

事件进展（1 篇报道）