首頁  >  文章  >  科技週邊  >  神經網路超體?新國立LV lab提出全新網路複製技術

神經網路超體?新國立LV lab提出全新網路複製技術

WBOY
WBOY轉載
2023-05-20 10:44:171018瀏覽

在電影中,隨著女主角Lucy 腦力的逐漸開發,她獲得了以下能力:

  • 10%:能夠控制身體的自主神經系統,提高身體協調能力和反應速度。
  • 30%:能夠預測未來並預測人們的行動,提高洞察力和判斷力。
  • 50%:能夠透過感知周圍環境的微小變化來預測未來的變化。
  • 70%:能夠控制身體和物體的運動,擁有超凡的運動和戰鬥技能。
  • 90%:能夠與宇宙和時間相連,擁有靈感和直覺的力量。
  • 100%:能夠實現超自然的力量,超越了人類的認知極限。

在電影的結尾,女主角逐漸消失並變成了一種純粹的能量形態,最終消失在宇宙中,與宇宙和時間融為一體。人類超體的實現即為連通外界,以獲得無限值的能力。將此想法遷移到神經網路域,若能建立與整個網路的連通,即也可實現網路超體, 理論上將獲得無邊界的預測能力#。

即實體化的網路必然會限制網路效能的成長,而將目標網路與Model Zoo 進行連通,此時網路不再具備實體,而是一種建立起網絡之間的連通超體形態。

神经网络超体?新国立LV lab提出全新网络克隆技术

圖上:超體網路和實體網路的差異。超體網絡無實體,是一種網絡之間的連通形式

#該網絡超體的思想在本文分享CVPR 2023論文《Partial Network Cloning》,中得以探索。在論文中,新加坡國立大學 LV lab 提出全新的網路複製技術。

神经网络超体?新国立LV lab提出全新网络克隆技术

連結:https://arxiv.org/abs/2303.10597

01問題定義

在該文中,作者提到利用此網路複製技術來實現網路去實體化可以帶來以下優勢:

  • 弱資料依賴:只需要部分修正資料對一些連接模組進行修改
  • 低訓練複雜度:只需fine-tune 一些連接模組和任務預測模組
  • 低儲存需求:只需儲存網路的連通路徑,無需儲存整個網路
  • 可持續可恢復:連通路徑可增可減,且不對Model Zoo 進行任何修改
  • 傳輸友善:在網路傳輸時只需傳輸連通路徑訊息,無需對整個網路傳輸

超體網路的實現基礎為迅速擴張的Model Zoo,海量預訓練模型可供使用。因此對於任意任務 T,我們總是可以找到一個或多個模型,使得這些已有模型的任務能組成成所需求任務。即:

神经网络超体?新国立LV lab提出全新网络克隆技术

(選擇了三個網路進行連通)。

神经网络超体?新国立LV lab提出全新网络克隆技术

如上圖所示,對​​於任務T,為了建構對應的超體網路M_c , 本文提出以下的建置框架:

  • 步驟一:定位最適合的本體網路M_t ,使得本體網路M_t 的任務集T_t 與所需任務集T 的交集T⋂T_t 最大,此時本體網路設定為主網路;
  • 步驟二:選擇修正網路M_s^1 和M_s^2,對本體網路中缺少的部分任務進行補充;
  • 步驟三:利用網路複製技術定位與連通部分修正網路M_s^1 和M_s^2 至本體網路M_t;

神经网络超体?新国立LV lab提出全新网络克隆技术

神经网络超体?新国立LV lab提出全新网络克隆技术

步驟四:利用部分修正資料對網路的連通模組和預測模組進行fine-tune。

綜上所述,本文所提出的建構網路超體所需的網路複製技術可以被表示為:

其中M_s  表示修正網絡集合,因此網絡超體的連通形式為一個本體網絡加上一個或若干個修正網絡,網絡克隆技術就是克隆所需要的部分修正網絡,嵌入至本體網絡中。

具體來說,本文提出的網路複製框架包含以下兩個技術要點:

對於包含有P 個修正網路的克隆,第一個技術要點為

神经网络超体?新国立LV lab提出全新网络克隆技术關鍵部分定位Local (∙)

。由於修正網路可能會含有與任務集T 無關的任務訊息,關鍵部分定位Local (∙) 的目標為定位修正網路中與任務T⋂T_s 相關的部位,定位參數以M^ρ 表示,實現細節在第2.1 小節給出。第二個技術重點是網路模組嵌入 Insert (∙),需選擇合適的網路嵌入點 R^ρ 嵌入所有的修正網絡,實作細節在第 2.2 小節中給出。

02 方法總覽

在網路複製的方法部分,為了簡化敘述,我們設定修正網路的數量P=1(因此省略了修正網路的上標ρ),即我們連通一個本體網絡和一個修正網絡來搭建所需的超體網絡。

如上所述,網路複製包含關鍵部分定位和網路模組嵌入。在這裡,我們引入中間的可遷移模組 M_f 用來輔助理解。即,網路克隆技術在修正網路中定位關鍵部位形成可遷移模組 M_f,再將可遷移模組透過軟連接嵌入至本體網路 M_t。因此,

神经网络超体?新国立LV lab提出全新网络克隆技术網路複製技術的目標為定位和嵌入具有可遷移性和局部保真性的可遷移模組

#########2.1 網路關鍵部位定位##############網路關鍵部位定位的目標是學習選擇函數M,選擇函數M 在這裡被定義為作用於網路每一層filter 的mask。此時的可遷移模組可以被表示為:######################在上式中,我們將修正網路M_s 表示為L 層,每一層表示為。已知可遷移模組的提取不會對修正網路做任何修改。 ############為了得到合適的可遷移模組 M_f,我們定位修正網路 M_s 中對最終預測結果做出最大貢獻的明確部分。在此之前,考慮到神經網路的黑盒特性,且我們只需要網路的部分預測結果,因此我們利用 LIME 擬合修正網路在所需任務的局部建模(具體細節請查看論文正文)。 ######

局部建模結果以神经网络超体?新国立LV lab提出全新网络克隆技术來表示,其中 D_t 是所需的部分預測結果對應的訓練資料集(小於原始網路的訓練集)。

因此選擇函數M 可以透過以下目標函數進行最佳化:

神经网络超体?新国立LV lab提出全新网络克隆技术

在該式中,定位的關鍵部分擬合局部建模的G。

2.2 網路模組嵌入

#在修正網路中定位可遷移模組M_f 時,使用擇函數M 直接從M_s 中提取,無需修改其權重。下一步是決定在本體網路 M_t  中可遷移模組 M_f 的嵌入位置,以獲得最佳的克隆效能。

網路模組的嵌入由位置參數 R 控制。遵循大多數模型重用設置,網路克隆將本體模型的前幾層保留為通用特徵提取器,網路嵌入過程被簡化為查找最佳嵌入位置(即在第 R 層嵌入可遷移模組 M_f)。尋找嵌入的過程可以表示為:

神经网络超体?新国立LV lab提出全新网络克隆技术

詳細的公式解釋請查詢正文。整體來說,基於搜尋的嵌入包括以下要點:

  • 最佳位置參數R 搜尋的過程從網路的深層到淺層;
  • #在第R 層進行可遷移性模組嵌入後的超體網路神经网络超体?新国立LV lab提出全新网络克隆技术後,還需額外引入嵌入位置的Adapter A 和重新finetune F_c 層(對於分類網路來說),但兩者的參數量相較於整個model zoo 可以忽略不計;
  • #當從網路的第L-1 層至第0 層建立起連接後,我們粗略的根據每一次fine-tune 的loss 收斂值估計嵌入的效能,選取最小收斂值點作為最終的網路嵌入點。

03 網路克隆技術的實際應用

本文提出的網路複製技術的核心為建立起預訓練網路之間的連結路徑,不需要對預訓練網路進行任何參數的修改,它除了可以用作搭建網路超體的關鍵技術,也能被靈活的運用到各種實際場景中。

場景一:網路複製技術使得 Model Zoo 線上使用成為可能。在一些資源有限的情況下,用戶可以在不下載預訓練網路到本地的情況下靈活地利用線上的 Model Zoo。

注意到克隆後的模型是由確定的,其中 M_t  和M_s 在整個過程中都是固定且不變的。模型克隆對預訓練模型上沒有進行任何修改,也沒有引入新模型。模型克隆使得 Model Zoo 中任何功能組合都成為可能,這也有助於維護 Model Zoo 的良好生態環境,因為建立連接使用 M 和 R 是一種簡單的 mask 和定位操作,易於撤銷。因此,提出的網路克隆技術支援建立一個可持續的 Model Zoo 線上推理平台。

場景二:經由網路複製產生的網路具備更好的訊息傳輸形式。當進行網路傳輸時,該技術可以減少傳輸延遲和損失。

在进行网络传输时,我们只需要传输集合神经网络超体?新国立LV lab提出全新网络克隆技术,结合公共 Model Zoo,接收方可以恢复出原始网络。与整个克隆后的网络相比,神经网络超体?新国立LV lab提出全新网络克隆技术非常小,因此可以减少传输延迟。如若 A 和 F_c 仍然存在一些传输损失,接收方可以通过在数据集上进行 fine-tune 来轻松修复。因此,网络克隆为高效传输提供了一种新形式的网络。

04 实验结果

我们在分类任务上进行了实验验证。为了评估可迁移模块的局部性能表征能力,我们引入了条件相似性指标:

神经网络超体?新国立LV lab提出全新网络克隆技术

其中 Sim_cos (∙) 表示余弦相似性。

神经网络超体?新国立LV lab提出全新网络克隆技术

上表中给出了在 MNIST,CIFAR-10,CIFAR-100 和 Tiny-ImageNet 上的实验结果,可以看出网络克隆(PNC)得到的模型的性能提升最为显著。且若进行整个网络的 fine-tune(PNC-F)并不会带来网络性能的提升,相反,它会增加模型的 bias。

神经网络超体?新国立LV lab提出全新网络克隆技术

除此之外,我们对可迁移模块的质量进行了评估(如上图)。从图(左)可以看出,从每个子数据集中学习的每个功能或多或少是相关的,这显示出从修正网络中提取和定位局部功能的重要性。对于可迁移模块,我们计算其相似度 Sim (∙)。图(右)显示,可迁移模块与待克隆的子数据集在相似性上很高,其与其余子数据集的关系被削弱(非对角线区域用比源网络的矩阵图浅的颜色标记)。因此,可以得出结论,可迁移模块成功地模拟了要克隆的任务集上的局部性能,证明了定位策略的正确性。

05 总结

本文研究了一种新的知识转移任务,称为部分网络克隆(PNC),它以复制粘贴的方式从修正网络中克隆参数模块并将其嵌入到本体网络中。与以往的知识转移设置不同(它们依赖于更新网络的参数)我们的方法保证所有预训练模型的参数不变。PNC 的技术核心为同时进行网络关键部位定位和可迁移模块嵌入操作,两个步骤相互加强。

我们在多个数据集上展示了我们的方法在准确性和可迁移性指标的突出结果。

以上是神經網路超體?新國立LV lab提出全新網路複製技術的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除