这也是首次有研究发现,在图灵测试的框架下,AI 模型被判定为人类的概率 / 频率与真人相当 … 在图灵测试中,一名参与者同时与另外两方(IT 之家注:一方是真人,另一方是大语言模型)聊天,作为”审讯者 / 裁判”的人类需要判断哪一方是真人 … 实验中,参与者与四种不同的大语言模型聊天,包括 GPT-4.5、LLaMa-3.1-405B、GPT-4o 以及上世纪 60 年代基于规则的经典聊天机器人 ELIZA 作为基线模型进行对比。
这也是首次有研究发现,在图灵测试的框架下,AI 模型被判定为人类的概率 / 频率与真人相当 … 在图灵测试中,一名参与者同时与另外两方(IT 之家注:一方是真人,另一方是大语言模型)聊天,作为”审讯者 / 裁判”的人类需要判断哪一方是真人 … 实验中,参与者与四种不同的大语言模型聊天,包括 GPT-4.5、LLaMa-3.1-405B、GPT-4o 以及上世纪 60 年代基于规则的经典聊天机器人 ELIZA 作为基线模型进行对比。