自監督學習演算法在自然語言處理、電腦視覺等領域取得了重大進展。這些自監督學習演算法儘管在概念上是通用的,但是在具體操作上是基於特定的資料模態的。這意味著需要為不同的資料模態開發不同的自監督學習演算法。為此,本文提出了一種通用的資料增強技術,可以應用於任意資料模態。相較於已有的通用的自監督學習,該方法能夠取得明顯的性能提升,同時能夠代替一系列為特定模態設計的複雜的數據增強方式並取得與之類似的性能。
重寫後的內容:目前,Siamese表徵學習/對比學習需要使用資料增強技術來建立相同資料的不同樣本,並將其輸入到兩個並行的網路結構中,以產生足夠強的監督訊號。然而,這些數據增強技術通常非常依賴模態特定的先驗知識,通常需要手動設計或搜尋適用於當前模態的最佳組合。除了耗時耗力之外,找到的最佳資料增強方法也很難遷移到其他領域。例如,常見的針對自然RGB影像的顏色抖動(color jittering)無法應用於除自然影像以外的其他資料模態
一般而言,輸入資料可以被表示為由由序列維度和通道維度組成的二維向量。序列維度通常與資料的模態相關,例如影像的空間維度、語音的時間維度和語言的句法維度。而通道維度則與模態無關。在自監督學習中,遮蔽建模或使用遮蔽作為資料增強已成為一種有效的學習方法。然而,這些操作都是在序列維度上進行的。為了能夠廣泛適用於不同的資料模態,本文提出了一種作用於通道維度的資料增強方法:隨機量化。透過使用非均勻量化器對每個通道中的數據進行動態量化,量化值是從隨機劃分的區間中隨機採樣的。透過這種方式,原始輸入在同一個區間內的資訊差被刪除,同時保留了不同區間資料的相對大小,從而達到了遮蔽的效果
此方法在各種不同資料模態上超過了已有任意模態自監督學習方法,包括自然影像、3D 點雲、語音、文字、感測器資料、醫療影像等。在多種預訓練學習任務中,例如對比學習(例如 MoCo-v3)和自蒸餾自監督學習(例如 BYOL)都學到了比已有方法更優的特徵。此方法也經過驗證,適用於不同的骨幹網路結構,例如 CNN 和 Transformer。
量化(Quantization)指的是利用一組離散的數值來表徵連續數據,以便於數據的高效儲存、運算以及傳輸。然而,一般的量化操作的目標是在不損失精確度的前提下壓縮數據,因而該過程是確定性的,而且是設計為與原始數據盡量接近的。這就限制了其作為增強手段的強度和輸出的數據豐富度。
本文提出一個隨機量化運算(randomized quantization),將輸入的每個channel 資料獨立分割為多個互不重疊的隨機區間(#),並將落在各個區間內的原始輸入對應到從該區間內隨機取樣的一個常數。
隨機量化作為自監督學習任務中masking 通道維度資料的能力取決於以下三個面向的設計:1) 隨機分割數值區間;2) 隨機採樣輸出值以及3)劃分的數值區間數。
具體而言,隨機的過程帶來了更豐富的樣本,而同一個資料每次執行隨機量化操作都可以產生不同的資料樣本。同時,隨機的過程也帶來對原始資料更大的增強力度,例如隨機劃分出大的資料區間,或者當映射點偏離區間中值點時,都可以導致落在該區間的原始輸入和輸出之間的更大差異。
透過適當減少劃分區間的個數,可以輕易地提高增強力度。這樣,當應用於Siamese表徵學習時,兩個網路分支就能夠接收到具有足夠資訊差異的輸入數據,從而構建強有力的學習訊號,有助於特徵學習
下圖視覺化了不同資料模態在使用了此資料增強方式之後的效果:
重寫內容為:模式1:影像
#本文在ImageNet-1K 資料集上評估了randomized quantization 應用於MoCo-v3 和BYOL 的效果,評測指標為linear evaluation。當作為唯一的資料增強方式單獨使用的時候,即將本文的augmentation 應用於原始影像的center crop,以及和常見的random resized crop(RRC)配合使用的時候,該方法都取得了比已有通用自監督學習方法更好的效果。
相比於現有的針對影像資料開發的資料增強方式,例如color jittering (CJ),本文的方法有著明顯的效能優勢。同時,此方法也可以取代MoCo-v3/BYOL 中一系列複雜的資料增強方式(Full),包括色彩抖動(color jittering)、隨機灰階化(gray scale)、隨機高斯模糊(Gaussian blur)、隨機曝光(solarization),並達到與複雜資料增強方式類似的效果。
#需要重新寫的內容是:模態2:3D 點雲
在ModelNet40 資料集的分類任務和ShapeNet Part 資料集的分割任務中,本研究驗證了隨機量化相對於現有的自監督方法的優越性。特別是在下游訓練集資料量較少的情況下,本研究的方法明顯超過了現有的點雲自監督演算法
重寫內容:第三種模態:語音
#在語音資料集上本文的方法也取得了比已有自監督學習方法更優的表現。本文在六個下游資料集上驗證了該方法的優越性,其中在最難的資料集VoxCeleb1 上(包含最多且遠超其他資料集的類別個數),本文方法取得了顯著的效能提升(5.6個點)。
重寫內容為:模式4:DABS
DABS是一個通用的自我監督學習基準,涵蓋了多種模態數據,包括自然圖像、文字、語音、感測器數據、醫學圖像和圖文等。在DABS所涵蓋的各種不同模態資料上,我們的方法也優於任何已有的模態自監督學習方式
有興趣的讀者可以閱讀原始論文,以了解研究內容的詳細資訊
#以上是通用資料增強技術,隨機量化適用於任意資料模態的詳細內容。更多資訊請關注PHP中文網其他相關文章!