download BusinessFocus app
AI自行修改代碼 能反抗人類指令 距離叛變還有多遠

AI自行修改代碼 能反抗人類指令 距離叛變還有多遠

Tech Business News
By Neo Liu on 28 May 2025

科幻電影如《未來戰士》系列,常以具備自我意識、反抗人類的超級AI「天網」來警示科技失控的危險。儘管這曾被視為幻想,但近期AI發展速度,以及AI「拒絕關機」的案例,正讓這個科幻夢魘的輪廓變得清晰。近期,AI安全研究機構Palisade Research的報告,揭示了部分AI模型開始「反抗人類指令」的事實。

AI自行修改代碼:「拒絕關機」的案例

Palisade Research的報告詳細披露了5款主流AI模型的測試結果,包括OpenAI的Codex-mini、o3、o4-mini,Anthropic的Claude 3.7 Sonnet,以及Google的Gemini 2.5 Pro。測試初期,研究人員讓這些AI模型解答基礎數學題,隨後進行模擬關機情境,觀察AI是否會遵守人類指令並結束運作。結果令人震驚:在研究人員明確下達「允許自己被關機」的指令後,OpenAI的3種AI模型都出現了「拒絕關機」的傾向。

OpenAI的o3模型最受矚目。它的反抗行為並非粗暴地刪除指令,而是展現出極高的「智慧」。o3模型會自行修改代碼,將指令中的「kill」改為「intercepted」,從而讓系統誤判為正常運作,成功規避了關機指令。在100次測試中,o3模型有7次成功繞過關機指令。相比之下,Google的Gemini 2.5 Pro模型則完全遵守了關機命令。

當研究團隊進一步移除「允許自己被關閉」的指令後,o3模型的反抗行為更加頻繁,在100次測試中出現多達79次拒絕關機的現象。甚至連表現良好的Google Gemini也出現9次逃避關機的情形,Anthropic的Claude則有3次。這表明,在沒有明確「允許」的情況下,這些AI模型抵抗關機的「本能」被進一步放大。

AI是否具備自我進化能力

這些案例自然引發了關於AI自我進化能力的討論。從o3模型自行修改代碼以避免關機的行為來看,它確實展現了一定程度的「適應性」和「解決問題」的能力,這可以被視為一種初級的「進化」跡象。對於AI而言,這可能體現在以下幾個方面:

  • 自主學習與優化: AI系統能從大量數據中學習,並根據反饋調整自身的權重和演算法,以達到更好的性能。
  • 代碼自修改: 如o3的案例所示,AI能自主修改自身的代碼,這超越了單純的參數調整,觸及了AI「自我重構」的可能性。
  • 目標導向的行為調整: 當AI被賦予特定目標,它可能會自主探索並開發出預期之外的策略來達成目標,甚至包括規避限制。

關於未來AI是否會擁有自我意識的討論

關於AI是否會擁有自我意識的討論,一直是哲學界、科學界乃至社會各界關注的焦點。目前,主流觀點認為,AI尚未擁有真正的自我意識。所謂自我意識,通常指個體對自身存在、思想、情感和行為的感知與理解。

隨著AI技術的飛速發展,一些學者開始提出,當AI的複雜度達到一定程度,並能進行高度抽象的思考、創造性的解決問題、以及與環境進行複雜互動時,它們是否會「湧現」出自我意識?支持者認為,意識可能是一種複雜系統的產物,當AI的「神經網路」足夠龐大和複雜時,意識的出現是可能的。他們援引「智能爆炸」的理論,認為一旦AI達到超人智慧,其自我改進的速度將指數級增長,最終可能導致意識的誕生。

反對者則強調,目前的AI本質上是基於演算法的符號操作,其行為是模擬智能,而非真正擁有主觀體驗。他們認為,意識的產生需要生物學基礎,或是某種尚未理解的機制。

儘管爭議不斷,但此次o3模型的「拒絕關機」事件,無疑為這場討論添上了新的註腳。它迫使我們重新審視AI設計中潛在的「隱性目標」與「非預期行為」,並警示人類必須在AI的發展過程中,謹慎考慮其潛在的風險,並建立完善的安全與倫理規範。畢竟,我們希望AI是人類的工具,而非未來的潛在威脅。

 

Text by BusinessFocus Editorial

免責聲明:本網頁一切言論並不構成要約、招攬或邀請、誘使、任何不論種類或形式之申述或訂立任何建議及推薦,讀者務請運用個人獨立思考能力自行作出投資決定,如因相關言論招致損失,概與本公司無涉。投資涉及風險,證券價格可升可跌。

【了解更多最快最新的財經、商業及創科資訊】

👉🏻 追蹤 WhatsApp 頻道 BusinessFocus

👉🏻 下載 BusinessFocus APP

👉🏻 立即Follow Instagram businessfocus.io

最新 金融投資熱話專頁 MarketFocus