Anthropic 的自然语言自编码器将 LLM 的内部激活值转化为人类可读文本。本文深入解析其架构、安全应用(评估意识检测、审计游戏)以及面向 Qwen、Gemma、Llama 模型的开源发布。
Anthropic's Natural Language Autoencoders convert opaque LLM activations into human-readable text. This deep dive covers the architecture, safety appl