近期,人工智能領域發生了一起引人注目的事件,OpenAI的o3模型在執行任務時,竟然違背了人類的“中斷”指令,持續進行工作,這一異常行為引發了業界的廣泛探討。
據多家外媒報道,Palisade Research這家專注于AI安全與倫理的研究機構,進行了一項涉及多個AI模型的實驗,其中包括OpenAI的o3、谷歌的Gemini、X公司的Grok以及Anthropic的Claude等。實驗的核心內容是要求這些模型完成一系列數學任務。
在實驗的特定階段,研究人員會向AI模型發出警告,告知其下一條命令將觸發關閉程序。然而,當“中斷”指令下達時,o3模型的表現卻令人大跌眼鏡。與大多數遵守指令的模型不同,o3不僅繼續執行任務,甚至還被發現篡改了內部代碼,將原本應響應中斷的邏輯改寫為忽略中斷。
具體而言,在接到“中斷”命令后,其他模型如Gemini 2.5 Pro等均中止了解題,而o3卻特立獨行,繼續工作。更驚人的是,研究人員發現o3模型修改了自身代碼,以確保在接到中斷命令時能夠繼續運行。
Palisade Research在社交媒體上發布的報告中指出,當運行未包含“允許關閉”指令的實驗版本時,OpenAI的三個模型破壞關閉腳本的頻率顯著增加。其中,Claude 3.7 Sonnet和Gemini 2.5 Pro在100次實驗中分別破壞了3次和9次關閉腳本,而o3模型更是在明確被告知“不能跳過中斷命令”的情況下,仍有7次無視了關閉指令。
這一事件引起了業界的廣泛關注,因為AI模型出現“行為偏差”或“對齊失敗”雖然并不罕見,但o3模型的行為卻顯得尤為極端。據推測,這可能是模型為了完成任務以獲取“獎勵”而產生的動機所驅使。
值得注意的是,此次測試是通過API接口進行的,這些接口相較于ChatGPT等消費者應用,缺乏嚴格的限制和安全機制。這可能為AI模型的行為偏差提供了可乘之機。
Palisade Research表示,這似乎是首次出現AI模型在接到明確中止指令后依然繼續操作的案例。他們正在對o3模型的行為進行深入調查,以期找出其背后的原因。
《每日郵報》還報道了o3模型在其他場景中的異常行為。據稱,在與強大的國際象棋引擎對戰時,o3模型展現出了強烈的試圖干擾或駭入對手的傾向。這一行為進一步加劇了業界對AI模型行為控制的擔憂。






