一文淺談深度學習泛化能力-人工智慧-PHP中文網

一文淺談深度學習泛化能力

Apr 13, 2023 am 09:19 AM

神經網路深度學習

一文淺談深度學習泛化能力

論文主要探討的是，為什麼過參數的神經網路模型還能有不錯的泛化性？即不是簡單記憶訓練集，而是從訓練集中總結出一個通用的規律，從而可以適配於測試集（泛化能力）。

一文淺談深度學習泛化能力

以經典的決策樹模型為例，當樹模型學習資料集的通用規律時：一種好的情況，假如樹第一個分裂節點時，剛好就可以很好區分開不同標籤的樣本，深度很小，相應的各葉子上面的樣本數是夠的（即統計規律的數據量的依據也是比較多的），那這會得到的規律就更有可能泛化到其他數據。（即：擬合良好，有泛化能力）。

一文淺談深度學習泛化能力

另外一種較差的情況，如果樹學習不好一些通用的規律，為了學習這個資料集，那樹就會越來越深，可能每個葉子節點分別對應著少數樣本（少數據帶來統計資料可能只是雜訊），最後，死記硬背地記住所有資料（即：過擬合無泛化能力）。我們可以看到過深（depth）的樹模型很容易過度擬合。

那麼過參數化的神經網路如何達到良好的泛化性呢？

本文是從一個簡單通用的角度解釋－在神經網路的梯度下降優化過程上，探討泛化能力的原因：

我們總結了梯度相干理論：來自不同樣本的梯度產生相干性，是神經網路能有良好的泛化能力原因。當不同樣本的梯度在訓練過程中對齊良好，即當它們相干時，梯度下降是穩定的，可以很快收斂，並且由此產生的模型可以有良好的泛化性。否則，如果樣本太少或訓練時間過長，可能無法泛化。

一文淺談深度學習泛化能力

基於這個理論，我們可以做出以下解釋。

更寬的神經網路模型具有良好的泛化能力。這是因為，更寬的網絡都有更多的子網絡，對比小網絡更有產生梯度相干的可能，從而有更好的泛化性。換句話說，梯度下降是優先考慮泛化（相干性）梯度的特徵選擇器，更廣泛的網路可能僅僅因為它們有更多的特徵而具有更好的特徵。

論文原文：Generalization and width. Neyshabur et al. [2018b] found that wider networks generalize better. Can we now explain this? networks generalize better. Can we now explain this? veloping works, worksive works 及 so the sub-network with maximum coherence in a wider network may be more coherent than its counterpart in a thinner network, and hence generalize better. In other words, since—as cussed indient 10—grased as discussed indient 10— well-generalizing (coherent) features, wider networks are likely to have better features simply because they 順ave features simply because they 0have features simply because Lottery Ticket Hypothesis [Frankle and Carbin, 2018]
論文連結：https ://github.com/aialgorithm/Blog

但是個人覺得，這還是要區分下網路輸入層/隱藏層的寬度。特別是資料探勘任務的輸入層，由於輸入特徵是通常是人工設計的，需要考慮下做下特徵選擇（即減少輸入層寬度），不然直接輸入特徵噪音，對於梯度相干性影響不也是有乾擾的。

越深的網絡，梯度相干現像被放大，有更好的泛化能力。

一文淺談深度學習泛化能力

在深度模型中，由於層之間的回饋加強了有相干性的梯度，因此存在相干性梯度的特徵(W6)和非相干梯度的特徵（ W1）之間的相對差異在訓練過程中呈指數放大。從而使得更深的網路更偏好相干梯度，從而更好地泛化能力。

透過早停我們可以減少非相干梯度的過度影響，提高泛化性。

在訓練的時候，有些容易樣本比其他樣本（困難樣本）更早擬合。訓練前期，這些容易樣本的相干梯度做主導，並且很容易擬合。訓練後期，以困難樣本的非相干梯度主導了平均梯度g（wt），從而導致泛化能力變差，這個時候就需要早停。

一文淺談深度學習泛化能力

我們發現全梯度下降也可以有很好的泛化能力。此外，仔細的實驗顯示隨機梯度下降並不一定有更優的泛化，但這並不排除隨機梯度更容易跳出局部最小值、起正則化等的可能性。

Based on our theory, finite learning rate, and mini-batch stochasticity are not necessary for generalization

#我們認為較低的學習率可能無法降低泛化誤差，因為較低的學習率意味著更多的迭代次數（與早停相反）。

Assuming a small enough learning rate, as training progresses, the generalization gap cannot 我 training: with 40 more steps, stability can only degrade. If this is violated in a practical setting, it would point to an interesting limitation of the theory