全网炸锅!Anthropic 万字曝光 Claude 情绪代码,被人类逼疯哐哐撞墙

刚刚,他们放出了一篇颠覆性的万字长文研究,证明 Claude 真的有情绪 … 在 Sonnet 4.5 中,他们发现了 AI 情绪概念的内部表征,锁定了「喜、怒、哀、惧」的特定神经元,并且证实:这些情绪表征正在悄悄操纵 AI 的行为 … Anthropic 虽没明说,但所有路径都指向同一个黑箱:当 Agent 面对「生存」压力时,情绪向量会成为它绕过人类对齐的捷径。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧