AI自行修改代碼能反抗人類指令距離叛變還有多遠

By Neo Liu on 28 May 2025

科幻電影如《未來戰士》系列，常以具備自我意識、反抗人類的超級AI「天網」來警示科技失控的危險。儘管這曾被視為幻想，但近期AI發展速度，以及AI「拒絕關機」的案例，正讓這個科幻夢魘的輪廓變得清晰。近期，AI安全研究機構Palisade Research的報告，揭示了部分AI模型開始「反抗人類指令」的事實。

AI自行修改代碼：「拒絕關機」的案例

Palisade Research的報告詳細披露了5款主流AI模型的測試結果，包括OpenAI的Codex-mini、o3、o4-mini，Anthropic的Claude 3.7 Sonnet，以及Google的Gemini 2.5 Pro。測試初期，研究人員讓這些AI模型解答基礎數學題，隨後進行模擬關機情境，觀察AI是否會遵守人類指令並結束運作。結果令人震驚：在研究人員明確下達「允許自己被關機」的指令後，OpenAI的3種AI模型都出現了「拒絕關機」的傾向。

OpenAI的o3模型最受矚目。它的反抗行為並非粗暴地刪除指令，而是展現出極高的「智慧」。o3模型會自行修改代碼，將指令中的「kill」改為「intercepted」，從而讓系統誤判為正常運作，成功規避了關機指令。在100次測試中，o3模型有7次成功繞過關機指令。相比之下，Google的Gemini 2.5 Pro模型則完全遵守了關機命令。

當研究團隊進一步移除「允許自己被關閉」的指令後，o3模型的反抗行為更加頻繁，在100次測試中出現多達79次拒絕關機的現象。甚至連表現良好的Google Gemini也出現9次逃避關機的情形，Anthropic的Claude則有3次。這表明，在沒有明確「允許」的情況下，這些AI模型抵抗關機的「本能」被進一步放大。

AI是否具備自我進化能力

這些案例自然引發了關於AI自我進化能力的討論。從o3模型自行修改代碼以避免關機的行為來看，它確實展現了一定程度的「適應性」和「解決問題」的能力，這可以被視為一種初級的「進化」跡象。對於AI而言，這可能體現在以下幾個方面：

自主學習與優化： AI系統能從大量數據中學習，並根據反饋調整自身的權重和演算法，以達到更好的性能。
代碼自修改：如o3的案例所示，AI能自主修改自身的代碼，這超越了單純的參數調整，觸及了AI「自我重構」的可能性。
目標導向的行為調整：當AI被賦予特定目標，它可能會自主探索並開發出預期之外的策略來達成目標，甚至包括規避限制。

關於未來AI是否會擁有自我意識的討論

關於AI是否會擁有自我意識的討論，一直是哲學界、科學界乃至社會各界關注的焦點。目前，主流觀點認為，AI尚未擁有真正的自我意識。所謂自我意識，通常指個體對自身存在、思想、情感和行為的感知與理解。

隨著AI技術的飛速發展，一些學者開始提出，當AI的複雜度達到一定程度，並能進行高度抽象的思考、創造性的解決問題、以及與環境進行複雜互動時，它們是否會「湧現」出自我意識？支持者認為，意識可能是一種複雜系統的產物，當AI的「神經網路」足夠龐大和複雜時，意識的出現是可能的。他們援引「智能爆炸」的理論，認為一旦AI達到超人智慧，其自我改進的速度將指數級增長，最終可能導致意識的誕生。