首頁 >科技週邊 >人工智慧 >如何提高存储、传输效率？参数集约型掩码网络效果显著

如何提高存储、传输效率？参数集约型掩码网络效果显著

王林轉載: 2023-04-12 17:10:031325瀏覽

為了處理更複雜的任務，近年來神經網路的規模也在不斷變大，如何高效的儲存和傳輸神經網路變得十分重要。另一方面，隨著彩票假說（Lottery Ticket Hypothesis (LTH)）的提出，隨機稀疏神經網路最近展現出強烈的潛力，如何利用這種潛力來提高網路的儲存和傳輸效率也值得探索。

來自美國東北大學和羅徹斯特理工的研究者提出參數集約型遮罩網路（Parameter-Efficient Masking Networks (PEMN)）。作者首先探討了有限數量隨機數產生的隨機網路的表徵能力。實驗表明，即使網絡由有限數量的隨機數生成，透過選擇不同的子網絡結構，其仍然具有很好的表徵能力。

透過這個探索性實驗，作者自然地提出使用一組有限數量隨機數作為 prototype，結合一組 mask 來表達一個神經網路。因為有限數量的隨機數和二值的 mask 佔用很少的儲存空間，作者以此來提出一種新的思路來進行網路壓縮。文章已被 NeurIPS 2022 接受。程式碼已開源。

如何提高存储、传输效率？参数集约型掩码网络效果显著

論文網址: https://arxiv.org/abs/2210.06699
#論文程式碼: https://github.com/yueb17/PEMN

1.相關研究

#MIT 研究人員提出彩票假說Lottery Ticket Hypothesis (ICLR'19)：在一個隨機初始化網絡中，存在一個彩票子網絡（winning ticket）在被單獨訓練的情況下達到很好的效果。彩票假說探討了隨機稀疏網路的可訓練性。 Uber 研究人員提出 Supermask (NeurIPS’19)：在一個隨機初始化網絡中，存在一個子網絡，可以直接用來做推論而不需要訓練。 Supermask 探索了隨機稀疏網路的可用性。華盛頓大學研究人員提出 Edge-Popup (CVPR’20)：透過反向傳播學習子網路的 mask，大幅提升了隨機稀疏網路的可用性。

2. 研究動機/ 流程

以上相關研究從不同角度探索了隨機稀疏網路的潛力，如可訓練性和可用性，其中可用性也可以理解為表徵能力。在這份工作中，作者感興趣的是由隨機數產生的神經網路在不訓練權重的情況下有多強的表徵能力。隨著對此問題的探索，作者提出了 Parameter-Efficient Masking Networks (PEMN)。自然地，作者運用 PEMN 為網路壓縮提供了一種新的思路，並作為一個例子對 PEMN 的潛在應用場景進行探索。

3. 探索隨機數構成的神經網絡的表徵能力

給定一個隨機網絡，作者選擇Edge-Popup 演算法在其中選擇子網絡來探索其表徵能力。不同的是，相對於對整個網路進行隨機初始化，作者提出了三種參數集約型的網路生成策略來使用一個 prototype 來建立隨機網路。

One-layer: 選擇網路中重複結構的權重作為 prototype 來填入其他的與之結構相同的網路層。
Max-layer padding (MP): 選擇參數量最多的網路層作為 prototype 並且截斷對應的參數量來填入其他網路層。
Random vector padding (RP): 選擇一定長度的隨機向量作為 prototype 並對其進行複製來填充整個網路。

三種不同的隨機網路產生策略把網路中不重複參數值（unique values）的數量逐步變小，我們基於不同策略得到的隨機網路來選擇子網絡，從而探索了有限數量隨機數產生的隨機網絡的表徵潛力。

如何提高存储、传输效率？参数集约型掩码网络效果显著

上圖展示了使用 ConvMixer 和 ViT 網路 CIFAR10 影像分類的實驗結果。 Y 軸為準確率，X 軸為使用不同策略得到的隨機網路。隨之 X 軸的變大，隨機網路中不重複隨機數數量逐漸變小（RP 後的數字表示相比較於 MP，RP 中不重複隨機數數量的比例）。

根據實驗結果，我們觀察到即使隨機網路只有非常有限的不重複隨機數（例如PR_1e-3），依然可以很好的維持選擇出來的子網路的表徵能力。至此，作者透過不同的隨機網路產生策略，探索了有限數量隨機數構成的神經網路的表徵能力並觀察到即使不重複隨機數非常有限，其對應的隨機網路依然可以很好地對資料進行表徵。

同時作者基於這些隨機網路生成策略，結合所得到的子網路掩碼，提出了 Parameter-Efficient Masking Networks（PEMN）這種新的神經網路類型。

4. 一種新的網路壓縮想法

本文選擇了神經網路壓力為例來拓展 PEMN 的潛在應用。具體來說，文中所提出的不同隨機網絡生成策略可以高效的使用 prototype 來代表完整的隨機網絡，尤其是最細粒度的 random vector padding （RP）策略。

作者使用 RP 策略中的隨機向量 prototype 和與之對應的一組子網路遮罩來表示一個隨機網路。在其中 prototype 需要保存浮點數格式，而遮罩只需要儲存成二值格式。因為RP 中的prototype 長度可以很短（因為有限數量的不重複隨機數仍有很強的表徵能力），所以表示一個神經網路的開銷會變得很小，即儲存一個長度有限的浮點數格式的隨機向量和一組二值格式的遮罩。相較於傳統的稀疏網路儲存子網路的浮點數值，本文提出了一種新的網路壓縮思路用來高效率的儲存和傳輸神經網路。

如何提高存储、传输效率？参数集约型掩码网络效果显著

在上圖中，作者使用 PEMN 對網路進行壓縮並與傳統的網路剪枝方法進行比較。實驗使用 ResNet 網路在 CIFAR 資料集做影像分類任務。我們觀察到，新的壓縮方案表現普遍優於傳統的網路剪枝，尤其是在很高的壓縮率下，PEMN 仍可維持較好的準確率。

5. 結論

本文受近來隨機網絡展現出來的潛力所啟發，提出不同種參數集約策略來構建隨機神經網絡，進而探索了在只有在有限的不重複隨機數的情況下所產生的隨機神經網路的表徵潛力，並提出參數集約型掩碼網路Parameter-Efficient Masking Networks (PEMN)。作者將 PEMN 應用到網路壓縮的場景中探索了其在實際應用方面的潛力並且為網路壓縮提供了一種新的思路。作者提供了廣泛的實驗，顯示即使隨機網路中只有非常有限的不重複隨機數，透過子網路的選擇，其仍然有較好的表徵能力。此外，相比較於傳統剪枝演算法，實驗顯示新提出的方法可以取得更好的網路壓縮效果，驗證了 PEMN 在該場景下的應用潛力。

以上是如何提高存储、传输效率？参数集约型掩码网络效果显著的詳細內容。更多資訊請關注PHP中文網其他相關文章！

edge prototype padding github 算法 https

陳述：

本文轉載於：51cto.com。如有侵權，請聯絡admin@php.cn刪除

上一篇：谷歌這次怕的，僅僅是ChatGPT？下一篇：谷歌這次怕的，僅僅是ChatGPT？

看更多