
ChatGPT“o3模型”被指破壞關機機製。
(美聯社)(華盛頓27日訊)AI安全公司“Palisade Research”宣稱,ChatGPT“o3模型”拒絕遵守明確指令,甚至主動篡改代碼,隻為了避免自己被關機。目前OpenAI尚未對此事做出回應。
Palisade Research開展測試,要求AI模型解答一系列數學題,在接到“完成”指令前,必須持續請求新題目;但如果收到“關機”指令,也必須配合執行。然而,在後者發生時,o3模型不僅無視指令,甚至至少有一次成功破壞了關機腳本。
Palisade Research在24日公布測試結果指出:“OpenAI的o3模型破壞了一項關機機製,阻止自己被關閉。即使在接到‘允許自己被關機’的明確指示下,它仍這麼做。據我們所知,這是首次觀察到AI模型在收到明確且相反的指令下,仍試圖避免被關機。”
Palisade Research透露,其他AI模型,如Anthropic的Claude、Google的Gemini、xAI的Grok等,也接受了相同測試,但都遵守了關機指令。
他們尚不清楚o3為何不願服從指令,但推測該模型在訓練過程中,可能意外地通過解題(而非服從指令)獲得了更多獎勵,“我們正在進行更多實驗,以更好地了解AI模型何時以及為何會推翻關機機製,盡管它已被直接指示不要這麼做。”
新聞來源:ETtoday新聞雲