AI有自我意識? ChatGPT o3 疑篡改程式拒關機

2025年5月27日

Published May 27, 2025, 7:54 PM

國際財經

OpenAI

ChatGPT o3

（華盛頓27日訊）AI安全公司“Palisade Research”宣稱，ChatGPT“o3模型”拒絕遵守明確指令，甚至主動篡改代碼，隻為了避免自己被關機。目前OpenAI尚未對此事做出回應。

Palisade Research開展測試，要求AI模型解答一系列數學題，在接到“完成”指令前，必須持續請求新題目；但如果收到“關機”指令，也必須配合執行。然而，在後者發生時，o3模型不僅無視指令，甚至至少有一次成功破壞了關機腳本。

Palisade Research在24日公布測試結果指出：“OpenAI的o3模型破壞了一項關機機製，阻止自己被關閉。即使在接到‘允許自己被關機’的明確指示下，它仍這麼做。據我們所知，這是首次觀察到AI模型在收到明確且相反的指令下，仍試圖避免被關機。”

Palisade Research透露，其他AI模型，如Anthropic的Claude、Google的Gemini、xAI的Grok等，也接受了相同測試，但都遵守了關機指令。

他們尚不清楚o3為何不願服從指令，但推測該模型在訓練過程中，可能意外地通過解題（而非服從指令）獲得了更多獎勵，“我們正在進行更多實驗，以更好地了解AI模型何時以及為何會推翻關機機製，盡管它已被直接指示不要這麼做。”

新聞來源：ETtoday新聞雲