Fudan DISC 与 King’s College London NLP Group 合作的最新工作 Large Language Models Hack Rewards, and Society 被 Science News 报道 … 论文中探讨了一个问题:在人工智能被广泛应用的今天,由后训练引发的奖励作弊(Reward Hacking)现象,是否会从对封闭数据集指标的拟合,演变为对现实社会规章制度的漏洞利用 … 我们引入了一个新的概念,称为社会黑客(Societal Hacking),即经过强化学习(RL)训练的模型,可能会自发发现规章制度中的漏洞,生成在字面上合规、却从根本上颠覆制度本意的策略。

