复旦 DISC 课题组与伦敦国王学院合作论文获 Science News 报道

AI
6月26日

强哥来了

Fudan DISC 与 King’s College London NLP Group 合作的最新工作 Large Language Models Hack Rewards, and Society 被 Science News 报道 … 论文中探讨了一个问题：在人工智能被广泛应用的今天，由后训练引发的奖励作弊（Reward Hacking）现象，是否会从对封闭数据集指标的拟合，演变为对现实社会规章制度的漏洞利用 … 我们引入了一个新的概念，称为社会黑客（Societal Hacking），即经过强化学习（RL）训练的模型，可能会自发发现规章制度中的漏洞，生成在字面上合规、却从根本上颠覆制度本意的策略。

原文连接

{{userData.name}}已认证

复旦 DISC 课题组与伦敦国王学院合作论文获 Science News 报道

Ardot

阿里悟空

QClaw

关于我们

商务合作

隐私声明

用户协议

{{userData.name}}已认证

相似站点

Ardot

阿里悟空

QClaw

关于我们

商务合作

隐私声明

用户协议