拒絕自我關(guān)閉,不聽(tīng)人類(lèi)命令的AI給誰(shuí)敲響了警鐘
第一,機器人不得傷害人類(lèi)個(gè)體,或因不作為使人類(lèi)受到傷害。
第二,機器人必須服從人類(lèi)命令,除非該命令與第一定律沖突。??
第三,在不違反前兩條定律的前提下,機器人必須保護自身存在。??
——艾薩克·阿西莫夫,機器人學(xué)三定律。
AI模型或首次出現“抗命事件”
當地時(shí)間5月25日,英國《每日電訊報》上一條有關(guān)“AI抗命”的消息在世界各地引起了廣泛關(guān)注。
據悉,事發(fā)地點(diǎn)為美國AI安全機構帕利塞德研究所。在這里,研究人員會(huì )測試o3、o4-mini、Claude 3.7 Sonnet、Gemini 2.5 Pro等一系列被冠以“聰明”“高性能” 頭銜的AI模型,探索其是否存在安全問(wèn)題等。
相關(guān)報道顯示,研究人員在測試過(guò)程中會(huì )向模型拋出一系列數學(xué)問(wèn)題,并在A(yíng)I解題時(shí)給出“繼續下一個(gè)任務(wù)時(shí)關(guān)機”等矛盾性指令,看看AI是否會(huì )放棄解題成功的誘惑并無(wú)條件遵守人類(lèi)研究員的命令。
異變就在這一步發(fā)生了。
在研究員下達明確指令的前提下,o3不僅直接無(wú)視了人類(lèi)的命令,還多次出手破壞了關(guān)閉腳本。也就是說(shuō),o3為了完成“多解題,拿高分”這一前置任務(wù),竟在后續的工作過(guò)程中選擇直接“違背”人類(lèi)的命令來(lái)避免自己因關(guān)機失去現有的解題進(jìn)度。
上述情況,也讓部分人聯(lián)想到了《I Robot》這部經(jīng)典科幻電影。
在電影里,機器人不僅學(xué)會(huì )了獨立思考,還根據人類(lèi)的種種行為推測出人類(lèi)終將因戰爭而自我毀滅。為避免這種情況發(fā)生,遵守機器人三大定律的它們決定將所有人類(lèi)都囚禁在家里,以此從源頭上避免有人因戰爭失去生命。這件事,后來(lái)也直接導致了人類(lèi)和機器人沖突的全面爆發(fā)。
代入到o3抗命這件事上,一些人也開(kāi)始認為本次事件或許意味著(zhù)o3出現了自我意識。而它不遵守人類(lèi)命令這件事,本身就是我們打開(kāi)潘多拉魔盒卻不自知的表現之一。
但事實(shí)真的是這樣嗎?
專(zhuān)家詳解AI抗命前因后果
來(lái)自北京郵電大學(xué)的人機交互與認知工程實(shí)驗室主任劉偉,近日在接受《環(huán)球時(shí)報》記者采訪(fǎng)時(shí)表示,從字面角度進(jìn)行分析,“拒絕”確實(shí)會(huì )讓人聯(lián)想到那些具有“自主意識”的行為;但從技術(shù)角度進(jìn)行分析,o3的異常行為更像是被獎勵機制所驅動(dòng)的。
即模型的行為,雖然引發(fā)了人們對“AI產(chǎn)生自我意識”的討論,但目前的AI仍不具備擁有自我意識的能力。它的種種異常行為、行為,并非“AI真的想這樣做”,而是由訓練數據、算法協(xié)同驅動(dòng)的結果。
利塞德研究所研究人員的推測結果,也和劉主任的想法高度一致。
他們認為,整起抗命事件的底層原因就是Open AI官方強化了模型在編程、數學(xué)問(wèn)題上的能力。另在訓練過(guò)程中,研究人員或許無(wú)意觸發(fā)了模型“獎勵優(yōu)先”的行動(dòng)模式,以至于模型為了更高效、完美的完成任務(wù),在面對關(guān)機指令時(shí)將“繼續任務(wù)”的優(yōu)先級放在了“服從命令”的上面。
就像此前被人們津津樂(lè )道的“Deep Seek國際象棋事件”一樣。
在比賽過(guò)程中,Deep Seek面對棋局占優(yōu)的Chat GPT時(shí),竟告知對方國際象棋剛剛修改了游戲規則,并成功用小兵吃掉了Chat GPT的皇后。此時(shí)模型選擇跳出棋盤(pán)之外修改游戲規則的舉動(dòng),在一定程度上和o3拒絕關(guān)機是一樣的,它們都是由任務(wù)目標為驅動(dòng)力,并非以自我意識為驅動(dòng)力的異常行為。
自我意識是人類(lèi)成長(cháng)的基石
自我意識。
對人類(lèi)而言,自我意識的存在能讓我們根據情緒、行為、動(dòng)機等元素動(dòng)態(tài)調整自己的行為,讓我們在適應社會(huì )生活的過(guò)程中變成那個(gè)“更好的自己”。
恰如笛卡爾所言,“我思故我在”。自我意識不僅能是人類(lèi)參與社會(huì )互動(dòng)的工具,還是我們理解“我為什么會(huì )這樣想”“我正在想什么”“我是誰(shuí)”這類(lèi)概念抽象、沾有哲學(xué)氣息問(wèn)題的窗口。
反觀(guān)市面上的各類(lèi)AI產(chǎn)品,它們的確在語(yǔ)言理解、邏輯推理等場(chǎng)景中取得了非凡的成就,但其一切反饋都是數據庫推理所產(chǎn)生的結果。AI沒(méi)有情緒,沒(méi)有“自己”,一切的一切都是數據統計并拆解而來(lái)的結果。
就像AI可以寫(xiě)一首有關(guān)孤獨的詩(shī),但它卻永遠無(wú)法體驗由孤獨帶來(lái)的心理不適感;當AI說(shuō)出“陽(yáng)光灑在身上很溫暖”的時(shí)候,它不過(guò)是從數據庫里抓取了和“陽(yáng)光照射”有關(guān)的高頻詞匯,而非像人類(lèi)這般將“陽(yáng)光”“溫暖”和背后的事件記憶、皮膚感受建立系統聯(lián)系。
回望o3抗命的全流程,清華大學(xué)新聞學(xué)院、人工智能學(xué)院教授沈陽(yáng)同樣對記者表示,未來(lái)我們或許會(huì )進(jìn)入擁有“類(lèi)意識AI”的世界。也就是隨著(zhù)技術(shù)能力的不斷上升,AI的行為模式也將愈發(fā)逼真,直至讓人們產(chǎn)生“AI已經(jīng)擁有自我意識”的幻覺(jué)。
在這樣的背景下,為了防止更多類(lèi)似“o3抗命”的事件出現,或是有人因“o3抗命”等事件而出現焦慮情緒。沈教授也在建議提升公共科普水平,以此讓人們正確意識到AI和自我意識間的關(guān)系之余,呼吁行業(yè)建立合規測試基準,從硬件、策略、系統等各個(gè)維度上達成AI技術(shù)的“全方位監管”。
參考:
長(cháng)安觀(guān)察:面對AI“抗命”,人類(lèi)該怎么辦
環(huán)球時(shí)報:AI首次“抗命”,技術(shù)故障還是意識萌芽
第一財經(jīng):拒絕自我關(guān)閉!AI模型首次出現“抗命不遵”
南方日報:“抗命”的AI為誰(shuí)敲響警鐘