图灵测试 76 年后首现 AI 通过实证:GPT-4.5 以 73% 判定率超越真人,聊天 15 分钟难辨人机

这也是首次有研究发现,在图灵测试的框架下,AI 模型被判定为人类的概率 / 频率与真人相当 … 在图灵测试中,一名参与者同时与另外两方(IT 之家注:一方是真人,另一方是大语言模型)聊天,作为”审讯者 / 裁判”的人类需要判断哪一方是真人 … 实验中,参与者与四种不同的大语言模型聊天,包括 GPT-4.5、LLaMa-3.1-405B、GPT-4o 以及上世纪 60 年代基于规则的经典聊天机器人 ELIZA 作为基线模型进行对比。

原文连接