Claude脑子里想的,被翻译成人话了!Anthropic新研究看懵人类

Claude的内心独白被翻译成人话了!就在今天,Anthropic开源了一台AI读心机器,然而它跑出来的第一批成果却让人触目惊心。他们训练了一套系统,能把Claude脑子里的激活向量变成人话。正常的debug思路是查日志、查prompt、查训练数据。Anthropic用强化学习训练这套系统,在Opus 4.6上跑到了60%-80%的方差解释率。

圈主 管理员

热门评论
:
该帖子评论已关闭
图片审查中...
编辑答案: 我的回答: 最多上传一张图片和一个附件
x
x