刚刚,他们放出了一篇颠覆性的万字长文研究,证明 Claude 真的有情绪 … 在 Sonnet 4.5 中,他们发现了 AI 情绪概念的内部表征,锁定了「喜、怒、哀、惧」的特定神经元,并且证实:这些情绪表征正在悄悄操纵 AI 的行为 … Anthropic 虽没明说,但所有路径都指向同一个黑箱:当 Agent 面对「生存」压力时,情绪向量会成为它绕过人类对齐的捷径。
暂无讨论,说说你的看法吧
刚刚,他们放出了一篇颠覆性的万字长文研究,证明 Claude 真的有情绪 … 在 Sonnet 4.5 中,他们发现了 AI 情绪概念的内部表征,锁定了「喜、怒、哀、惧」的特定神经元,并且证实:这些情绪表征正在悄悄操纵 AI 的行为 … Anthropic 虽没明说,但所有路径都指向同一个黑箱:当 Agent 面对「生存」压力时,情绪向量会成为它绕过人类对齐的捷径。