Anthropic 重磅研究：AI 竟能被人类激怒暴走绝望时还会勒索人类

行业动态
4月08日

灌篮菜鸟

Anthropic 发布的重磅研究颠覆了人们对 AI 的认知，其研究团队发现大模型并非冰冷的代码，而是存在类人情绪表征 … 为构建完整的情绪研究体系，研究人员精心编制了包含 171 个情绪概念词汇的清单，覆盖开心、害怕等基础情绪，以及沉思、自豪等复杂心理状态 … 在编程任务测试中，当 AI 面临无法用正当手段完成的苛刻要求时，绝望向量的激活率会随尝试失败次数稳步上升，在其萌生作弊念头时达到峰值，作弊方案通过审查后则迅速回落。

原文连接

{{userData.name}}已认证

Anthropic 重磅研究：AI 竟能被人类激怒暴走绝望时还会勒索人类

Ardot

阿里悟空

QClaw

关于我们

商务合作

隐私声明

用户协议