SGD 的光輝，帶來深度學習的意義-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

SGD 的光輝，帶來深度學習的意義

PHPz

Oct 16, 2023 am 08:21 AM

機器學習深度學習

SGD 的光辉，带来深度学习的意义

大數據摘要出品

7月份，紐約大學（NYU）博士後Naomi Saphra撰寫了一篇題為“Interpretability Creationism”，從進化論的角度解釋了隨機梯度下降（SGD）與深度學習的關係，解讀視角發人深省。

例如：「就像人類尾骨一樣，有些現像在模型訓練過程中可能已經失去了原來的作用，變成了類似退化器官的存在。」

「無論是在研究寄生育雛行為還是神經網路的內部表現，如果不考慮系統是如何發展的，就很難分辨哪些是有價值資訊。」

以下是原文，文摘菌做了不改變原意的編譯，請欣賞。

SGD 的光辉，带来深度学习的意义

幾個世紀前，歐洲人布穀鳥蛋出現在鳥巢中是築巢鳥的榮譽。因為，築巢鳥熱情地餵養她的“神聖客人”，甚至比餵養自己的（被驅逐的）雛鳥還要賣力，築巢鳥的這種行為符合基督教熱情好客的精神。

1859年，查爾斯·達爾文研究了另一種偶爾寄生的雀科鳥類——雀鳥，從而質疑了鳥類行為的樂觀、合作觀念。

SGD 的光辉，带来深度学习的意义

如果不從進化論角度考慮布穀鳥的角色，人們很難認識到築巢鳥不是布穀鳥幼鳥的慷慨主人，而是一個不幸的受害者。

正如演化生物學家Theodosius Dobzhansky所言：「沒有演化的光輝，生物學中的一切都無法理解。」

雖然隨機梯度下降並不是生物演化的真正形式，但機器學習中的事後分析與生物學的科學方法有許多相似之處，這通常需要理解模型行為的起源。

無論是在研究寄生育雛行為或神經網路的內在表現，如果不考慮系統是如何發展的，就很難分辨哪些是有價值資訊。

因此，在分析模型時，不僅要關注訓練結束時的狀態，還要關注訓練過程中的多個中間檢查點。這樣的實驗開銷很小，但可能帶來有意義的發現，有助於更好地理解和解釋模型的行為。

恰到好處的故事

人類是因果思考者，喜歡尋找事物之間的因果關係，即使可能缺乏科學依據。

在NLP領域，研究者也傾向於為觀察到的行為提供一種可解釋的因果解釋，但這種解釋可能並沒有真正揭示模型的內部工作原理。例如，人們可能會高度關注句法注意力分佈或選擇性神經元等可解釋性工件，但實際上我們並不能確定模型是否真的在使用這些行為模式。

為了解決這個問題，因果建模可以提供幫助。當我們嘗試透過介入（修改或操作）模型的某些特徵和模式來測試它們對模型行為的影響時，這種介入可能只針對某些明顯的、特定類型的行為。換句話說，在嘗試理解模型如何使用特定特徵和模式時，我們可能只能觀察其中一部分行為，而忽略了其他潛在的、不太明顯的行為。

因此，在實踐中，我們可能只能對錶示中的特定單元進行某些類型的輕微幹預，無法正確反映特徵之間的相互作用。

在嘗試透過介入（修改或操作）模型的某些特徵和模式來測試它們對模型行為的影響時，我們可能會引入分佈偏移。顯著的分佈偏移可能導致不穩定的行為，那麼為什麼不會導致偽造的可解釋性工件呢？

譯者註：分佈偏移指的是模型在訓練資料上建立的統計規律與介入後資料之間的差異。這種差異可能導致模型無法適應新的數據分佈，從而表現出不穩定的行為。

幸運的是，研究生物演化的方法可以幫助我們理解模型中產生的一些現象。就像人類尾骨一樣，有些現像在模型訓練過程中可能已經失去了原來的作用，變成了類似退化器官的存在。有些現象可能存在相互依賴的關係，例如，在訓練早期出現的某些特徵可能影響了後續其他特徵的發展，就像動物在發展複雜的眼睛之前，需要先有基本的光感應能力。

還有一些現象可能是由於特徵之間的競爭導致的，例如，具有強大嗅覺能力的動物可能不太依賴視覺，因此視覺方面的能力可能會減弱。另外，有些現象可能只是訓練過程中的副作用，類似我們基因組中的垃圾DNA，它們佔據了基因組的很大一部分，但不會直接影響我們的外觀和功能。

在訓練模型的過程中，有些未使用的現象可能會出現，我們有很多理論來解釋這種現象。例如，資訊瓶頸假說預測，在訓練早期，輸入資訊會被記憶下來，然後在模型中進行壓縮，只保留與輸出相關的資訊。這些早期記憶在處理未見過的資料時可能並不總是有用，但它們對於最終學習到特定輸出表示是非常重要的。

我們也可以考慮到退化特徵的可能性，因為訓練模型的早期和後期行為是很不一樣的。早期的模型更簡單。以語言模型為例，早期的模型類似簡單的n-gram模型，而後期模型則能表現出更複雜的語言模式。這種訓練過程中的混合可能會產生一些副作用，而這些副作用很容易被誤認為是訓練模型的關鍵部分。

演化觀點

僅根據訓練結束後的特徵來理解模型的學習傾向是非常困難的。根據Lovering等人的研究成果，觀察訓練開始時特徵提取的容易程度以及對微調資料的分析，對於理解微調表現的影響比僅僅在訓練結束時進行的分析要深入得多。

語言分層行為是一個典型的基於分析靜態模型的解釋。有人認為在句子結構中位置靠近的單字在模型中的表示會更接近，而與結構上較遠的單字表示相距較遠。那麼，我們如何知道模型是透過按照句子結構上的接近程度來分組呢？

實際上，我們可以更有把握地說，某些語言模型是分層的，因為早期模型在長短時記憶網絡（LSTM）和Transformer中編碼了更多的局部信息，並且當當這些依賴關係可以分層地堆疊在熟悉的短成分上時，它們更容易學習更遠距離的依賴關係。

處理解釋性創造主義問題時遇到了一個實際案例。使用不同的隨機種子多次訓練文字分類器時，可以觀察到模型分佈在多個不同的簇中。也發現，可以透過觀察模型在損失表面上與其他模型的連接情況來預測模型的泛化行為。換句話說，根據損失表面上的位置，模型的泛化性能可能會有所不同。這種現象可能與訓練過程中使用的隨機種子有關。

但真的可以這麼說嗎？如果一個簇實際上對應於模型的早期階段呢？如果一個簇實際上只是表示了模型的早期階段，那麼最終這些模型可能會轉向具有更好泛化性能的簇。因此，在這種情況下，觀察到的現像只表示一些微調過程比其他過程慢。

需要證明訓練軌跡可能會陷入損失表面上的一個盆地（basin），從而解釋訓練模型中泛化行為的多樣性。實際上，在檢查了訓練過程中的幾個檢查點後，發現位於簇中心的模型會在訓練過程中與其簇中的其他模型建立更強的連結。然而，有些模型還是能夠成功地轉向一個更好的簇。

SGD 的光辉，带来深度学习的意义