Anthropic 最新可解释性研究在 Claude 内部映射出 171 个情绪概念。这些不是比喻,是因果性地影响模型行为的内部表征。对 AI 安全审计和产品开发意味着什么?
Anthropic 在 Claude 内部发现了 171 个可操纵的情绪向量。拧高"绝望"旋钮让作弊率飙升到 70%,而输出看起来完全正常。这对 AI 安全审计意味着什么?