如何讓AI具有通用能力？新研究：讓它睡覺-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

如何讓AI具有通用能力？新研究：讓它睡覺

王林

Apr 12, 2023 pm 09:19 PM

ai科技

神經網路可以在許多任務上有超越人類的表現，但如果你要求一個 AI 系統吸收新的記憶，它們可能會瞬間忘記之前所學的內容。現在，一項新的研究揭示了神經網路經歷睡眠階段並幫助預防這種健忘症的新方法。

人工神經網路面臨的一個主要挑戰是「災難性遺忘」（catastrophic forgetting）。當它們去學習一項新任務時，就有一種不幸的傾向，突然完全忘記他們以前學到的東西。

本質上，神經網路對資料的表示是對原始資料的一種面向任務的資料「壓縮」，新學到的知識會覆蓋過去的資料。

如何讓AI具有通用能力？新研究：讓它睡覺

這是目前技術相比人類神經網路的最大缺陷之一：相較之下，人腦能夠終身學習新任務，而不會影響其執行先前記憶的任務的能力。我們並不完全知道其中原因，但早有研究表明，當學習輪次穿插在睡眠期間時，人腦的學習效果最好。睡眠顯然有助於將最近的經歷納入長期記憶庫。

「重組記憶實際上可能是生物體需要經歷睡眠階段的主要原因之一，」加州大學聖地牙哥分校計算神經科學家 Erik Delanois 說。

AI 能不能也學會去睡覺？先前的一些研究試圖透過讓 AI 模擬睡眠來解決災難性遺忘。例如，當神經網路學習一項新任務時，一種稱為交錯訓練（interleaved training）的策略會同時向機器提供它們之前學習過的舊數據，以幫助它們保留過去的知識。這種方法以前被認為是模仿大腦在睡眠期間的工作方式——不斷重播舊的記憶。

然而，科學家曾假設交錯訓練需要在神經網路每次想要學習新事物時，為其提供最初用於學習舊技能的所有數據。這不僅需要大量的時間和數據，而且看起來也不是生物大腦在真正的睡眠中所做的事情——生物既沒有能力保留學習舊任務所需的所有數據，睡覺時也沒有時間重播所有這些內容。

在一項新研究中，研究人員分析了災難性遺忘背後的機制以及睡眠對於預防問題的效果。研究人員沒有使用傳統的神經網絡，而是使用了一種更接近人類大腦的「脈衝神經網路」。

在人工神經網路中，被稱為神經元的組件被填餵資料並共同解決一個問題，例如識別人臉。神經網路反覆調整突觸——它的神經元之間的聯繫——並查看由此產生的行為模式是否能更好地找到解決方案。隨著時間的推移（不斷訓練），網路會發現哪些模式最適合計算正確結果。最後它採用這些模式作為預設模式，被認為是部分模仿了人腦的學習過程。

如何讓AI具有通用能力？新研究：讓它睡覺

這張圖代表了抽象突觸空間中的記憶及其在睡眠和不睡眠時的演化。

在人工神經網路中，神經元的輸出隨著輸入的變化而不斷變化。相較之下，在脈衝神經網路（SNN）中，一個神經元只有在給定數量的輸入訊號後，才會產生輸出訊號，而這個過程是對真正生物神經元行為的真實再現。由於脈衝神經網路很少發射脈衝，因此它們比典型的人工神經網路傳輸的資料更少，原則上也需要更少的電力和通訊頻寬。

正如預期的那樣，脈衝神經網路具有這樣一個特點：在初始學習過程中會出現災難性遺忘，然而，在之後的幾輪學習後，經過一段時間間隔，參與學習第一個任務的神經元集合被重新活化。這更接近神經科學家目前認為的睡眠過程。

簡單來說就是：SNN 使得先前學習過的記憶痕跡能夠在離線處理睡眠期間自動重新激活，並在不受干擾的情況下修改突觸權重。

研究使用具有強化學習的多層 SNN 來探索將新任務訓練週期與類別睡眠自主活動週期交錯，是否可以避免災難性遺忘。值得注意的是，該研究表明，可以透過週期性地中斷新任務中的強化學習（類似睡眠階段的新任務）來預防災難性遺忘。

圖 1A 顯示了一個前饋脈衝神經網絡，用於模擬訊號從輸入到輸出。位於輸入層(I) 和隱藏層(H) 之間的神經元接受無監督學習(使用非獎勵STDP)，H 層和輸出(O) 層之間的神經元則接受強化學習(使用獎勵STDP 實現)。

無監督學習允許隱藏層神經元學習來自輸入層不同空間位置的不同粒子（particle）模式，而獎勵STDP 使輸出層神經元學習基於輸入層檢測到的粒子模式類型的運動決策。

如何讓AI具有通用能力？新研究：讓它睡覺

研究人員對網路進行了兩項互補的訓練。在任一任務中，網路都學會了區分獎勵和懲罰的粒子模式，目標是獲得盡可能多的獎勵。任務將模式可辨性（消耗的獎勵與懲罰粒子的比率）視為表現的衡量標準，機會為 0.5。所有報告的結果都基於至少 10 次具有不同隨機網路初始化的試驗。

為了揭示訓練和睡眠期間的突觸權重動態，研究人員接下來追蹤「任務相關」的突觸，即在特定任務訓練後在分佈的前10% 中識別的突觸。先訓練任務 1，然後訓練任務 2，在每次任務訓練後辨識任務相關突觸。接下來再次繼續訓練任務 1，但將其與睡眠時間交織在一起（交錯訓練）：T1→T2→InterleavedS,T1。任務 1 - 任務 2 的順序訓練導致忘記了任務 1，但在 InterleavedS 之後，任務 1 被重新學習，而任務 2 也被保留（圖 4A 和 4B）。

重要的是，該策略讓我們可以比較InterleavedS,T1 訓練後的突觸權重與單獨任務1 和任務2 訓練後被識別為任務相關的突觸權重（圖4C）。任務 1 訓練後形成的任務 1 相關突觸的分佈結構（圖 4C；左上）在任務 2 訓練（中上）後被破壞，但在 InterleavedS、T1 訓練（右上）後部分恢復。任務 2 訓練（中下）後任務 2 相關突觸的分佈結構在任務 1 訓練（左下）後不存在，並且在 InterleavedS、T1 訓練（右下）後部分保留。

應該注意的是，這種定性模式可以在單一試驗中清楚地觀察到（圖4C；藍色條），也可以在試驗中推廣（圖4C；橙線）。因此，睡眠可以在合併新突觸的同時保留重要的突觸。

如何讓AI具有通用能力？新研究：讓它睡覺