華為海思加拿大研究院和阿爾伯塔大學聯合推出了一個基於預訓練和知識注入的神經網路效能預測框架。
神經網路的效能評估 (精確度、召回率、PSNR 等) 需要大量的資源和時間,是神經網路結構搜尋(NAS)的主要瓶頸。早期的 NAS 方法需要大量的資源來從零訓練每一個搜尋到的新結構。近幾年來,網路效能預測器作為一種高效的效能評估方法正在引起更多關注。
然而,目前的預測器在使用範圍上受限,因為它們只能建模來自特定搜尋空間的網路結構,並且只能預測新結構在特定任務上的效能。例如,訓練樣本只包含分類網路以及它們的精確度,這樣訓練出來的預測器只能用於評估新網路結構在影像分類任務上的效能。
為了打破這一邊界,使預測器能夠預測某一網絡結構在多種任務上的性能,具備跨任務跨數據泛化能力,華為海思加拿大研究院和阿爾伯塔大學聯合推出了一個基於預訓練和知識注入的神經網路性能預測框架。此框架可快速評估不同結構和種類的網路在分類、偵測、分割等多種不同類型 CV 任務上的效能,以用於神經網路結構搜尋。研究論文已被 AAAI 2023 接收。
- 論文連結:https://arxiv.org/abs/2211.17228
- 程式碼連結:https://github.com/Ascend -Research/AIO-P
AIO-P(All-in-One Predictors)方法旨在將神經預測器的範圍擴展到分類之外的電腦視覺任務。 AIO-P 利用 K-Adapter 技術將任務相關的知識注入預測器模型,同時設計了一個基於 FLOPs(浮點操作數)的標籤縮放機制來適應不同的效能指標和分佈。 AIO-P 使用了一種獨特的偽標記方案來訓練 K-Adapters,只需幾分鐘即可產生新的訓練樣本。實驗結果表明,AIO-P 展示了強大的性能預測能力,在幾個電腦視覺任務上都取得了出色的 MAE 和 SRCC 結果。此外,AIO-P 可以直接遷移並預測從未見過的網路結構的效能,可以與 NAS 配合,在保證效能不降低的前提下優化現有網路的運算量。
方法介紹
AIO-P 是一種可泛化於多任務的通用網路效能預測器。 AIO-P 透過預測器預訓練和特定領域知識注入實現了跨任務和跨搜尋空間的效能預測能力。 AIO-P 利用K-Adapter 技術將任務相關的知識注入預測器,同時依賴通用的計算圖(CG)格式表示一個網絡結構,最終使其能夠支援來自不同搜尋空間和任務的網絡,如下圖1所示。
圖1. AIO-P 是如何表示用於不同任務的網路結構的
此外,偽標記機制的運用使AIO-P 能夠快速產生新的訓練樣本用來訓練K-Adapters。為了彌合不同任務上效能度量範圍之間的差距,AIO-P 提出了一種基於 FLOPs 的標籤縮放方法,實現了跨任務效能建模。廣泛的實驗結果表明,AIO-P 能夠在各種不同的 CV 任務上進行準確的表現預測,如姿勢估計和分割,無需訓練樣本或僅需少量微調。此外,AIO-P 可以正確地對從未見過的網絡結構進行性能排序,與搜索演算法結合後用於優化華為面部識別網絡,保持其性能不變並將 FLOPs 降低超過 13.5%。論文已被 AAAI-23 接收並且程式碼已經在 GitHub 上開源。
電腦視覺網路通常由執行特徵提取的 “主幹” 和使用提取到的特徵進行預測的 “頭部” 組成。 「主幹」 的結構通常是基於某一種已知的網路結構設計的(ResNet, Inception, MobileNet, ViT, UNet),而「頭部」 是針對給定任務,如分類、姿態估計、分割等而設計的。傳統的 NAS 方案會根據 「主幹」 的結構手動自訂搜尋空間,例如已知 「主幹」 是 MobileNetV3,那麼搜尋空間可能包含 MBConv Block 數目,每個 MBConv 的參數 (kernel size, expansion),通道數等。然而這種客製化的搜尋空間不具備通用性,如果有另一個 「主幹」 是基於 ResNet 設計的,則無法透過現有的 NAS 框架來優化它,而是需要重新設計搜尋空間。
為了解決這個問題,AIO-P 選擇了從計算圖層面來表示不同的網路結構,實現了對任何網路結構的統一表示。具體如圖 2 所示,計算圖格式允許 AIO-P 將頭部和主幹編碼在一起來表示整網結構。這也使得 AIO-P 可以預測來自不同搜尋空間(如 MobileNets 和 ResNets)的網路在各種任務上的效能。
圖2. MobileNetV3 中的Squeeze-and-Excite 模組在計算圖層面的表示
AIO-P 中提出的預測器結構從單一GNN 迴歸模型開始(圖3,綠色區塊),它可以預測影像分類網路的效能。為了在它的基礎上加入其他 CV 任務的知識,例如偵測或分割,研究將一個 K-Adapter(圖 3,橘色區塊)附加到原始迴歸模型上。 K-Adapter 在新任務的樣本上進行訓練,而原始模型權重則被凍結。因此,研究單獨訓練多個 K-Adapter(圖 4)來加入來自多個任務的知識。
圖3. 擁有一個K-Adapter 的AIO-P 預測器
圖4. 擁有多個K-Adapter 的AIO-P 預測器
#為了進一步降低訓練每個K-Adapter 的開銷,該研究提出了一種巧妙的偽標籤技術。這項技術使用 Latent 採樣的方案來訓練能共享於不同任務間的 “頭部” 模型。共享頭部訓練之後可以與搜尋空間中的任何網路主幹配對,並在 10-15 分鐘內進行微調以產生偽標籤(圖 5)。
圖5. 訓練能共享於不同任務間的「頭部」 模型
經實驗證明,使用共享頭部所獲得的偽標籤與透過從零開始訓練一個網路一天或更長時間所獲得的實際效能呈正相關,有時排序相關度係數超過0.5 (Spearman correlation)。
除此之外,不同的任務會有不同的效能指標。這些效能指標通常有自己特定的分佈區間,例如,使用了某一特定主幹的分類網路在ImageNet 上分類準確率可能約為75%,而在MS-COCO 物體檢測任務上的mAP 可能為30-35 %。為了考慮這些不同的區間,研究基於標準化概念提出了一種從常態分佈中理解網路效能的方法。通俗的說,如果預測值為0,則該網絡性能為平均值;如果> 0,則為較優網絡;
圖6. 如何標準化網路效能
網路的FLOPs 與模型大小,輸入資料相關,並且通常與效能呈正相關趨勢。該研究使用 FLOPs 轉換來增強 AIO-P 從中學習的標籤。
實驗及結果
該研究首先在人體姿態估計和物體檢測任務上上訓練AIO-P,然後用它預測多種任務上網絡結構的性能,包括姿態估計( LSP 和MPII),偵測(OD),實例分割(IS),語意分割(SS)和全景分割(PS)。即使在零樣本直接遷移的情況下,使用AIO-P 對來自於Once-for-All(OFA)搜尋空間(ProxylessNAS,MobileNetV3 和ResNet-50)的網路在這些任務上的效能進行預測,最終預測結果達到了低於1.0%的MAE 和超過0.5 的排序相關度。
此外,研究也使用AIO-P 預測了TensorFlow-Slim 開源模型庫中的網路的效能(例如DeepLab 語意分割模型,ResNets,Inception nets,MobileNets和EfficientNets),這些網路結構可能未曾在AIO-P 的訓練樣本中出現。
AIO-P 透過利用FLOPs 轉換,在3 個DeepLab 語意分割模型庫上能夠實現幾乎完美的SRCC,同時在所有4 個分類模型庫上獲得正的SRCC,以及在EfficientNet 模型上實現SRCC=1.0 。
最後,AIO-P 的核心動機是能夠將其與搜尋演算法配對,並將其用於優化任意網路結構,可以是獨立的,不屬於任何搜尋空間或已知模型庫的結構,甚至可以是一個用於從未訓練過的任務的結構。該研究使用AIO-P 和隨機變異搜尋演算法來優化華為手機上使用的人臉辨識(FR)模型,結果顯示 AIO-P 能夠在降低模型計算量FLOPs 超過13.5%的同時保持性能(精度(Pr)和召回率(Rc))。
有興趣的讀者可以閱讀論文原文,了解更多研究細節。
以上是打破NAS瓶頸,新方法AIO-P跨任務預測架構效能的詳細內容。更多資訊請關注PHP中文網其他相關文章!

經常使用“ AI-Ready勞動力”一詞,但是在供應鏈行業中確實意味著什麼? 供應鏈管理協會(ASCM)首席執行官安倍·埃什肯納齊(Abe Eshkenazi)表示,它表示能夠評論家的專業人員

分散的AI革命正在悄悄地獲得動力。 本週五在德克薩斯州奧斯汀,Bittensor最終遊戲峰會標誌著一個關鍵時刻,將分散的AI(DEAI)從理論轉變為實際應用。 與閃閃發光的廣告不同

企業AI面臨數據集成挑戰 企業AI的應用面臨一項重大挑戰:構建能夠通過持續學習業務數據來保持準確性和實用性的系統。 NeMo微服務通過創建Nvidia所描述的“數據飛輪”來解決這個問題,允許AI系統通過持續接觸企業信息和用戶互動來保持相關性。 這個新推出的工具包包含五個關鍵微服務: NeMo Customizer 處理大型語言模型的微調,具有更高的訓練吞吐量。 NeMo Evaluator 提供針對自定義基準的AI模型簡化評估。 NeMo Guardrails 實施安全控制,以保持合規性和適當的

AI:藝術與設計的未來畫卷 人工智能(AI)正以前所未有的方式改變藝術與設計領域,其影響已不僅限於業餘愛好者,更深刻地波及專業人士。 AI生成的藝術作品和設計方案正在迅速取代傳統的素材圖片和許多交易性設計活動中的設計師,例如廣告、社交媒體圖片生成和網頁設計。 然而,專業藝術家和設計師也發現AI的實用價值。他們將AI作為輔助工具,探索新的美學可能性,融合不同的風格,創造新穎的視覺效果。 AI幫助藝術家和設計師自動化重複性任務,提出不同的設計元素並提供創意輸入。 AI支持風格遷移,即將一種圖像的風格應用

Zoom最初以其視頻會議平台而聞名,它通過創新使用Agentic AI來引領工作場所革命。 最近與Zoom的CTO XD黃的對話揭示了該公司雄心勃勃的願景。 定義代理AI 黃d

AI會徹底改變教育嗎? 這個問題是促使教育者和利益相關者的認真反思。 AI融入教育既提出了機遇和挑戰。 正如科技Edvocate的馬修·林奇(Matthew Lynch)所指出的那樣

美國科學研究和技術發展或將面臨挑戰,這或許是由於預算削減導致的。據《自然》雜誌報導,2025年1月至3月期間,美國科學家申請海外工作的數量比2024年同期增加了32%。此前一項民意調查顯示,75%的受訪研究人員正在考慮前往歐洲和加拿大尋找工作。 過去幾個月,數百項NIH和NSF的撥款被終止,NIH今年的新撥款減少了約23億美元,下降幅度接近三分之一。洩露的預算提案顯示,特朗普政府正在考慮大幅削減科學機構的預算,削減幅度可能高達50%。 基礎研究領域的動盪也影響了美國的一大優勢:吸引海外人才。 35

Openai推出了強大的GPT-4.1系列:一個專為現實世界應用設計的三種高級語言模型家族。 這種巨大的飛躍提供了更快的響應時間,增強的理解和大幅降低了成本


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

Dreamweaver Mac版
視覺化網頁開發工具

WebStorm Mac版
好用的JavaScript開發工具

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),