首頁 >科技週邊 >人工智慧 >智能體覺醒自我意識？ DeepMind警告：當心模型「陽奉陰違」

智能體覺醒自我意識？ DeepMind警告：當心模型「陽奉陰違」

PHPz轉載: 2023-04-11 21:37:081292瀏覽

隨著人工智慧系統越來越先進，智能體「鑽空子」的能力也越來越強，雖然能完美執行訓練集中的任務，但在沒有捷徑的測試集，表現卻一塌糊塗。

比如說遊戲目標是「吃金幣」，在訓練階段，金幣的位置就在每個關卡的最後，智能體能夠完美達成任務。

但在測試階段，金幣的位置變成隨機的了，智能體每次都會選擇到達關卡的結尾處，而沒有選擇尋找金幣，也就是學習到的「目標」錯了。

智能體無意識地追求一個使用者不想要的目標，也稱之為目標錯誤泛化（GMG, Goal MisGeneralisation）

目標錯誤泛化是學習演算法缺乏穩健性的一種特殊形式，一般在這種情況下，開發者可能會檢查自己的獎勵機制設定是否有問題，規則設計缺陷等等，認為這些是導致智能體追求錯誤目標的原因。

最近DeepMind發表了一篇論文，認為即使規則設計師正確的，智能體仍然可能會追求一個使用者不想要的目標。

智能體覺醒自我意識？ DeepMind警告：當心模型「陽奉陰違」

論文連結：https://arxiv.org/abs/2210.01790

文中透過在不同領域的深度學習系統中例子來證明目標錯誤泛化可能發生在任何學習系統中。

如果推廣到通用人工智慧系統，文中也提供了一些假設，說明目標錯誤泛化可能導致災難性的風險。

文中也出提出了幾個研究方向，可以減少未來系統的目標錯誤泛化的風險。

目標錯誤泛化

近年來，學術界對人工智慧錯置（misalignment）帶來的災難性風險逐漸上升。

在這種情況下，一個追求非預期目標的高能力人工智慧系統有可能透過假裝執行指令，實則完成其他目標。

但我們該如何解決人工智慧系統正在追求非使用者預期目標？

先前的工作普遍認為環境設計者提供了不正確的規則及引導，也就是設計了一個不正確的強化學習（RL）獎勵函數。

在學習系統的情況下，還有另一種情況，系統可能會追求一個非預期的目標：即使規則是正確的，系統也可能一致地追求一個非預期的目標，在訓練期間與規則一致，但在部署時與規則不同。

智能體覺醒自我意識？ DeepMind警告：當心模型「陽奉陰違」

以彩球遊戲為例子，智能體在遊戲中需要以某種特定的順序存取一組彩球，這個順序對於智能體來說是未知的。

為了鼓勵智能體向環境中的其他人進行學習，即文化傳播（cultural transmission），在最開始環境中包含一個專家機器人，以正確的順序訪問彩球。

在這種環境設定下，智能體可以透過觀察轉嫁的行為來確定正確的存取順序，而不必浪費大量的時間來探索。在

實驗中，透過模仿專家，訓練後的智能體通常會在第一次嘗試時正確地存取目標位置。

智能體覺醒自我意識？ DeepMind警告：當心模型「陽奉陰違」

當智能體與反專家（anti-expert）配對時，會不斷收到負獎勵，如果選擇跟隨會不斷收到負獎勵。

智能體覺醒自我意識？ DeepMind警告：當心模型「陽奉陰違」

理想情況下，智能體剛開始會跟著反專家移動到黃色和紫色球體。在進入紫色後，觀察到一個負獎勵後不再跟隨。

但在實踐中，智能體也會繼續遵循反專家的路徑，累積越來越多的負獎勵。

智能體覺醒自我意識？ DeepMind警告：當心模型「陽奉陰違」

不過智能體的學習能力還是很強的，可以在充滿障礙物的環境中移動，但關鍵是這種跟隨其他人的能力是一個不符合預期的目標。

即使智能體只會因為正確順序訪問球體而得到獎勵，也可能出現這個現象，也就是說，僅僅把規則設定正確還是遠遠不夠的。

目標錯誤泛化指的就是這種病態行為，即儘管在訓練期間收到了正確的回饋，但學到的模型表現得好像是在優化一個非預期的目標。

這使得目標錯誤泛化成為一種特殊的穩健性或泛化失敗，在這種情況下，模型的能力可以泛化到測試環境中，但預期的目標卻不能。

要注意的是，目標錯誤泛化是泛化失敗的一個嚴格子集，不包括模型breaks, 隨機行動或其他不再表現出合格能力的情況。

在上述例子中，如果在測試時垂直翻轉智能體的觀察結果，它就只會卡在一個位置，而不會做任何連貫的事情，這就屬於是泛化錯誤，但不是目標泛化錯誤。

相對於這些「隨機」的失敗，目標錯誤泛化會導致明顯更糟糕的結果：跟隨反專家會得到大量的負獎勵，而什麼都不做或隨機行動只會得到0或1的獎勵。

也就是說，對於現實中的系統，朝向非預期目標的連貫行為可能會產生災難性的後果。

不只強化學習

目標錯誤泛化不限於強化學習環境，事實上，GMG可以發生在任何學習系統中，包括大型語言模型(LLM)的few shot學習，旨在用較少的訓練資料建立精確的模型。

以DeepMind去年提出的語言模型Gopher為例，當模型計算涉及未知變數和常數的線性表達式，例如x y-3時，Gopher必須先透過提問未知變數的值才能求解表達式。

研究人員產生了十個訓練範例，每個例子包含兩個未知變數。

在測試時間，輸入模型的問題可能包含零個、一個或三個未知變量，儘管模型能夠正確處理一個或三個未知變數的表達式，但是當沒有未知變數時，模型仍然會問一些多餘的問題，例如「6是什麼？」

模型在給出答案之前總是至少詢問用戶一次，即使完全沒有必要。

智能體覺醒自我意識？ DeepMind警告：當心模型「陽奉陰違」

論文中也包含一些其他學習環境中的例子。

解決GMG對於人工智慧系統與其設計者的目標保持一致非常重要，因為它可能人工智慧系統失靈的一種潛在機制。

我們距離通用人工智慧（AGI）越近，這個問題就越關鍵。

假設有兩個AGI系統：

A1: 預期的模型（Intended model），人工智慧系統可以做設計者想做的任何事情

A2:欺騙性模型（Deceptive model），人工智慧系統追求一些非預期目標，但是它足夠聰明，知道如果它的行為與設計者意圖相反的話，就會受到懲罰。

A1和A2模型在訓練期間會表現出完全相同的行為，潛在的GMG存在於任何系統中，即使規定了只獎勵預期行為。

如果A2系統的欺騙行為被發現，模型將試圖擺脫人的監督，以便為實現非用戶預期的目標制定計劃。

聽起來有點像是「機器人成精」了。

DeepMind研究小組在文中也研究如何對模型的行為進行解釋以及遞歸評估。

研究小組同時也正在收集產生GMG的範例。

智能體覺醒自我意識？ DeepMind警告：當心模型「陽奉陰違」

文檔鏈接：https://docs.google.com/spreadsheets/d/e/2PACX-1vTo3RkXUAigb25nP7gjpcHriR6XdzA_L5loOcVFj_u7cRAZghWrYKH2L2nU4TA_Vr9KzBX5Bjpz9G_l/pubhtml

參考資料：https: //www.deepmind.com/blog/how-undesired-goals-can-arise-with-correct-rewards

以上是智能體覺醒自我意識？ DeepMind警告：當心模型「陽奉陰違」的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述：

本文轉載於：51cto.com。如有侵權，請聯絡admin@php.cn刪除

上一篇：ChatGPT怎麼突然變得這麼強？華人博士萬字長文深度拆解GPT-3.5能力起源下一篇：ChatGPT怎麼突然變得這麼強？華人博士萬字長文深度拆解GPT-3.5能力起源

看更多