通用資料增強技術，隨機量化適用於任意資料模態-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

通用資料增強技術，隨機量化適用於任意資料模態

王林

Sep 06, 2023 pm 12:13 PM

ai科技

自監督學習演算法在自然語言處理、電腦視覺等領域取得了重大進展。這些自監督學習演算法儘管在概念上是通用的，但是在具體操作上是基於特定的資料模態的。這意味著需要為不同的資料模態開發不同的自監督學習演算法。為此，本文提出了一種通用的資料增強技術，可以應用於任意資料模態。相較於已有的通用的自監督學習，該方法能夠取得明顯的性能提升，同時能夠代替一系列為特定模態設計的複雜的數據增強方式並取得與之類似的性能。

通用資料增強技術，隨機量化適用於任意資料模態

論文網址：https://arxiv.org/abs/2212.08663
##程式碼：https://github.com/microsoft/random_quantize

簡介

重寫後的內容：目前，Siamese表徵學習/對比學習需要使用資料增強技術來建立相同資料的不同樣本，並將其輸入到兩個並行的網路結構中，以產生足夠強的監督訊號。然而，這些數據增強技術通常非常依賴模態特定的先驗知識，通常需要手動設計或搜尋適用於當前模態的最佳組合。除了耗時耗力之外，找到的最佳資料增強方法也很難遷移到其他領域。例如，常見的針對自然RGB影像的顏色抖動（color jittering）無法應用於除自然影像以外的其他資料模態

一般而言，輸入資料可以被表示為由由序列維度和通道維度組成的二維向量。序列維度通常與資料的模態相關，例如影像的空間維度、語音的時間維度和語言的句法維度。而通道維度則與模態無關。在自監督學習中，遮蔽建模或使用遮蔽作為資料增強已成為一種有效的學習方法。然而，這些操作都是在序列維度上進行的。為了能夠廣泛適用於不同的資料模態，本文提出了一種作用於通道維度的資料增強方法：隨機量化。透過使用非均勻量化器對每個通道中的數據進行動態量化，量化值是從隨機劃分的區間中隨機採樣的。透過這種方式，原始輸入在同一個區間內的資訊差被刪除，同時保留了不同區間資料的相對大小，從而達到了遮蔽的效果

通用資料增強技術，隨機量化適用於任意資料模態

此方法在各種不同資料模態上超過了已有任意模態自監督學習方法，包括自然影像、3D 點雲、語音、文字、感測器資料、醫療影像等。在多種預訓練學習任務中，例如對比學習（例如 MoCo-v3）和自蒸餾自監督學習（例如 BYOL）都學到了比已有方法更優的特徵。此方法也經過驗證，適用於不同的骨幹網路結構，例如 CNN 和 Transformer。

方法

量化（Quantization）指的是利用一組離散的數值來表徵連續數據，以便於數據的高效儲存、運算以及傳輸。然而，一般的量化操作的目標是在不損失精確度的前提下壓縮數據，因而該過程是確定性的，而且是設計為與原始數據盡量接近的。這就限制了其作為增強手段的強度和輸出的數據豐富度。

本文提出一個隨機量化運算（randomized quantization），將輸入的每個channel 資料獨立分割為多個互不重疊的隨機區間（通用資料增強技術，隨機量化適用於任意資料模態 #），並將落在各個區間內的原始輸入對應到從該區間內隨機取樣的一個常數。

通用資料增強技術，隨機量化適用於任意資料模態

隨機量化作為自監督學習任務中masking 通道維度資料的能力取決於以下三個面向的設計：1）隨機分割數值區間；2）隨機採樣輸出值以及3）劃分的數值區間數。

具體而言，隨機的過程帶來了更豐富的樣本，而同一個資料每次執行隨機量化操作都可以產生不同的資料樣本。同時，隨機的過程也帶來對原始資料更大的增強力度，例如隨機劃分出大的資料區間，或者當映射點偏離區間中值點時，都可以導致落在該區間的原始輸入和輸出之間的更大差異。

透過適當減少劃分區間的個數，可以輕易地提高增強力度。這樣，當應用於Siamese表徵學習時，兩個網路分支就能夠接收到具有足夠資訊差異的輸入數據，從而構建強有力的學習訊號，有助於特徵學習

下圖視覺化了不同資料模態在使用了此資料增強方式之後的效果：

通用資料增強技術，隨機量化適用於任意資料模態

實驗結果

重寫內容為：模式1：影像

#本文在ImageNet-1K 資料集上評估了randomized quantization 應用於MoCo-v3 和BYOL 的效果，評測指標為linear evaluation。當作為唯一的資料增強方式單獨使用的時候，即將本文的augmentation 應用於原始影像的center crop，以及和常見的random resized crop（RRC）配合使用的時候，該方法都取得了比已有通用自監督學習方法更好的效果。

通用資料增強技術，隨機量化適用於任意資料模態

相比於現有的針對影像資料開發的資料增強方式，例如color jittering （CJ），本文的方法有著明顯的效能優勢。同時，此方法也可以取代MoCo-v3/BYOL 中一系列複雜的資料增強方式（Full），包括色彩抖動（color jittering）、隨機灰階化（gray scale）、隨機高斯模糊（Gaussian blur）、隨機曝光（solarization），並達到與複雜資料增強方式類似的效果。

通用資料增強技術，隨機量化適用於任意資料模態

#需要重新寫的內容是：模態2：3D 點雲

在ModelNet40 資料集的分類任務和ShapeNet Part 資料集的分割任務中，本研究驗證了隨機量化相對於現有的自監督方法的優越性。特別是在下游訓練集資料量較少的情況下，本研究的方法明顯超過了現有的點雲自監督演算法

通用資料增強技術，隨機量化適用於任意資料模態

重寫內容：第三種模態：語音

#在語音資料集上本文的方法也取得了比已有自監督學習方法更優的表現。本文在六個下游資料集上驗證了該方法的優越性，其中在最難的資料集VoxCeleb1 上（包含最多且遠超其他資料集的類別個數），本文方法取得了顯著的效能提升（5.6個點）。

通用資料增強技術，隨機量化適用於任意資料模態

重寫內容為：模式4：DABS

DABS是一個通用的自我監督學習基準，涵蓋了多種模態數據，包括自然圖像、文字、語音、感測器數據、醫學圖像和圖文等。在DABS所涵蓋的各種不同模態資料上，我們的方法也優於任何已有的模態自監督學習方式

通用資料增強技術，隨機量化適用於任意資料模態

有興趣的讀者可以閱讀原始論文，以了解研究內容的詳細資訊

以上是通用資料增強技術，隨機量化適用於任意資料模態的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

微軟工作趨勢指數2025顯示工作場所容量應變Apr 24, 2025 am 11:19 AM

由於AI的快速整合而加劇了工作場所的迅速危機危機，要求戰略轉變以外的增量調整。 WTI的調查結果強調了這一點：68％的員工在工作量上掙扎，導致BUR

AI可以理解嗎？中國房間的論點說不，但是對嗎？Apr 24, 2025 am 11:18 AM

約翰·塞爾（John Searle）的中國房間論點：對AI理解的挑戰 Searle的思想實驗直接質疑人工智能是否可以真正理解語言或具有真正意識。想像一個人，對下巴一無所知

中國的'智能” AI助手回應微軟召回的隱私缺陷Apr 24, 2025 am 11:17 AM

與西方同行相比，中國的科技巨頭在AI開發方面的課程不同。他們不專注於技術基準和API集成，而是優先考慮“屏幕感知” AI助手 - AI T

Docker將熟悉的容器工作流程帶到AI型號和MCP工具Apr 24, 2025 am 11:16 AM

MCP：賦能AI系統訪問外部工具模型上下文協議（MCP）讓AI應用能夠通過標準化接口與外部工具和數據源交互。由Anthropic開發並得到主要AI提供商的支持，MCP允許語言模型和智能體發現可用工具並使用合適的參數調用它們。然而，實施MCP服務器存在一些挑戰，包括環境衝突、安全漏洞以及跨平台行為不一致。 Forbes文章《Anthropic的模型上下文協議是AI智能體發展的一大步》作者：Janakiram MSVDocker通過容器化解決了這些問題。基於Docker Hub基礎設施構建的Doc