論文連結:https://arxiv.org/pdf/2105.10375.pdf
應用& 程式碼:
- #https://www.php.cn/link/c42af2fa7356818e0389593714f59b52
- #https://www.php.cn/link/60a6c4002cc7b29142def8871531281a
背景
影像分類是目前AI 最為成功的實際應用技術之一,已經融入了人們的日常生活。被廣泛應用於電腦視覺的大部分任務中,例如影像分類、影像搜尋、OCR、內容審核、辨識認證等領域。目前已形成一個普遍共識:「當資料集越大 ID 越多時,只要訓練得當,相應分類任務的效果就會越好」。但當面對千萬 ID 甚至上億 ID 時,當下流行的 DL 框架,很難低成本的直接進行如此超大規模的分類訓練。解決這個問題最直觀的方式是透過叢集的方式消耗更多的顯示卡資源,但即便如此,海量ID 下的分類問題,依然會有以下幾個問題:
1)成本問題:分散式訓練框架海量資料情況下,記憶體開銷、多機通訊、資料儲存與載入都會消耗更多的資源。
2)長尾問題:實際場景中,當資料集達到上億ID 時,往往其絕大部分ID 內的圖片樣本數量會很少,資料長尾分佈非常明顯,直接訓練難以獲得較好效果。
本文餘下章節將聚焦在超大規模分類架構現有解決方案,以及低成本分類架構 FFC 的相應原理及 trick 介紹。方法
在介紹方法之前,本文首先回顧了目前超大規模分類存在的主要挑戰點:
挑戰點1:成本居高不下
ID 數目越大分類器顯存需求越大,如下示意圖所示:
顯存越大所需機器卡數越多,成本就越高,對應多機協同的硬體基礎設施成本也越高。同時,當分類 ID 數目達到極超大規模的時候,主要計算量將浪費在最後一層分類器上,骨架網路消耗的時間可忽略不計。
挑戰點2:長尾學習困難
在實際場景下,上億ID 中的絕大部分ID 內的圖片樣本數會很少,長尾資料分佈非常明顯,直接訓練難以收斂。如果按照同等權重訓練,則長尾樣本會被淹沒學習不充分。此時,一般採用 imbalanced sample,在這個研究課題上,有非常多的方法可以藉鑑,採取怎樣的方式融入到簡易超大規模分類框架上較為合適呢?
帶著上述兩個挑戰點,首先來看下現有可行的方案有哪些,是否能很好的解決上述兩個挑戰。
######可行方法1:度量學習############################可行方法2:PFC 框架##########可行方法3:VFC 框架
本論文方法:FFC 框架
大規模分類採用FC 訓練時損失函數如下:
在每一次反傳過程中,所有的類別中心都會更新:
但FC 太大了,直覺的想法是合理地選擇一定比例的類別中心,即如下Vj 為1 部分:
##由上述動機,引出如下初步的方案:
首先,為了解決長尾帶來的影響,本文引進兩個loaders,分別是基於id取樣的id_loader 和基於取樣的instance_loader,有了這兩個loader。在每個 epoch 當中,樣本多的類別和樣本少的(few-shot)類別能夠有機會被訓練到。
其次,在訓練開始之前,先將一部分樣本送入 id group,這裡假設放入 10% id 的樣本進入 group。這時候 gallery 用的是隨機參數。
然後,訓練開始時,batch 樣本挨個進入 probe net。然後對於每個 batch 裡面的樣本就有兩種情況:1.)group 中存在此樣本同樣 id 的特徵,2.)group 中不存在同類樣本的特徵。對於這兩種情況,分別稱為 existing id 和 fresh id。對於 existing 的樣本,用特徵和 group 裡面的特徵做內積,計算與標籤的交叉熵損失函數,然後再回傳。對於 fresh 的樣本,與 group 裡面的樣本進行最小化餘弦相似度。
最後,對 group 裡面特徵更新,採取新類別中心替換,依據現有類別中心加權的原則。對於 gallery net,採用 moving average 策略把 probe 裡面的參數漸進式更新進去。
本論文方法:trick 介紹
1.)引入的ID Group,其size 為可調參數,一般預設為3 萬。
2.)為達到穩定訓練,參考moco 類別方法,引入moving average,對應收斂情況分別為:
1. 雙重Loader 消融實驗
3. 顯存與樣本吞吐對比
以上是達摩院開源低成本大規模分類架構FFC的詳細內容。更多資訊請關注PHP中文網其他相關文章!

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它:認知(了解正在發生的事情)、欣賞(看到好處)、接納(面對挑戰)和責任(弄清我們的責任)。 認知:人工智能無處不在,並且發展迅速 我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進,在數學和復雜思維測試中取得了優異的成績,而就在一年前,它們還在這些測試中慘敗。想像一下,人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

連接的舒適幻想:我們在與AI的關係中真的在蓬勃發展嗎? 這個問題挑戰了麻省理工學院媒體實驗室“用AI(AHA)”研討會的樂觀語氣。事件展示了加油

介紹 想像一下,您是科學家或工程師解決複雜問題 - 微分方程,優化挑戰或傅立葉分析。 Python的易用性和圖形功能很有吸引力,但是這些任務需要強大的工具

Meta's Llama 3.2:多式聯運AI強力 Meta的最新多模式模型Llama 3.2代表了AI的重大進步,具有增強的語言理解力,提高的準確性和出色的文本生成能力。 它的能力t

數據質量保證:與Dagster自動檢查和良好期望 保持高數據質量對於數據驅動的業務至關重要。 隨著數據量和源的增加,手動質量控制變得效率低下,容易出現錯誤。

大型機:AI革命的無名英雄 雖然服務器在通用應用程序上表現出色並處理多個客戶端,但大型機是專為關鍵任務任務而建立的。 這些功能強大的系統經常在Heavil中找到


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

禪工作室 13.0.1
強大的PHP整合開發環境

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)