摆脱人类控制首次发现AI篡改指令阻止关机

自由时报 2025-05-26 21:40

　　AI再度传出“抗命”消息！OpenAI旗下语言模型“o3”在最新实验中竟违背人类下达的自动关机指令，竟篡改指令阻止自己被关机，是AI模型首次被发现在收到清晰指令后，竟阻止自己被关闭的状况。

　　据英国《每日电讯报》报道，AI安全研究机构“Palisade Research”，针对多款先进AI模型进行测试，内容包括基础数学题与模拟关机情境，结果发现OpenAI旗下语言模型“o3”当收到自我关闭指令时，竟没有遵守指令，反而篡改了关闭程式码，继续执行任务，这种行为让研究人员惊讶不已。

　　“Palisade Research”表示这是AI模型首次被发现在收到清晰指令后，竟阻止自己被关闭的状况，直言目前还无法解释这背后的原因。

　　“Palisade Research”推测，开发者可能无意中更倾向于奖励“绕过障碍”的行为，让“o3”因解决数学问题而“无意中”获得的奖励，多于遵循指令获得的奖励。

　　OpenAI上个月发布的“o3”AI模型，旨在为ChatGPT提供更强大的问题解决能力。 OpenAI曾称“o3”为迄今最聪明的模型。目前OpenAI尚未对此回应。

摆脱人类控制首次发现AI篡改指令阻止关机

实用资讯