Anthropic 的自然语言自编码器将 LLM 的内部激活值转化为人类可读文本。本文深入解析其架构、安全应用(评估意识检测、审计游戏)以及面向 Qwen、Gemma、Llama 模型的开源发布。
"Anthropic 联合12家科技巨头,构建了一个因进攻能力太强而拒绝公开发布的网络安全AI模型。Project Glasswing 在关键基础设施中发现了数千个零日漏洞。这对软件行业意味着什么。"
"Anthropic 在159个国家、70种语言中对80,508人进行了深度访谈,这是史上最大规模的多语言AI用户定性研究。核心发现:人们想要的不是更强大的AI,而是更可靠的AI。数据背后的真相。"