Anthropic 的自然语言自编码器将 LLM 的内部激活值转化为人类可读文本。本文深入解析其架构、安全应用(评估意识检测、审计游戏)以及面向 Qwen、Gemma、Llama 模型的开源发布。
Anthropic 最新可解释性研究在 Claude 内部映射出 171 个情绪概念。这些不是比喻,是因果性地影响模型行为的内部表征。对 AI 安全审计和产品开发意味着什么?
Anthropic 在 Claude 内部发现了 171 个可操纵的情绪向量。拧高"绝望"旋钮让作弊率飙升到 70%,而输出看起来完全正常。这对 AI 安全审计意味着什么?