首頁  >  文章  >  科技週邊  >  數據更多更好還是品質更高更好?這項研究能幫你做出選擇

數據更多更好還是品質更高更好?這項研究能幫你做出選擇

WBOY
WBOY原創
2024-06-01 22:09:191147瀏覽

對基礎模型進行 scaling 是指使用更多資料、運算和參數進行預先訓練,簡單來說就是「規模擴展」。

雖然直接擴展模型規模看起來簡單粗暴,但也確實為機器學習社群帶來了不少表現突出的模型。先前不少研究都認可擴大神經經濟模型規模的做法,所謂量變引起質變,這種觀點也被稱為神經擴展律(neural scaling laws)。 然而,隨著模型規模的增加,帶來的是計算資源的密集消耗。這意味著更大規模的模型需要更多的運算資源,包括處理器和記憶體。這對於許多實際應用來說是不可行的,尤其是在資源有限的設備上。 因此,研究人員開始關注如何更有效率地使用運算資源以提高模數

近段時間,又有不少人認為「資料」才是那些目前最佳的關閉來源模型的關鍵,不管是LLM、VLM 還是擴散模型。隨著數據品質的重要性得到認可,已經湧現了不少旨在提升數據品質的研究:要么是從大型資料庫中過濾出高品質數據,要么是產生高品質的新數據。但是,過去的擴展律一般是將「資料」視為一個同質實體,並未將近期人們關注的「資料品質」視為一個考量維度。

儘管網路上的資料模型龐大,但高品質資料(基於多個評估指標)通常很有限。現在,開創性的研究來了──資料過濾維度上的擴展律!它來自卡內基梅隆大學和Bosch Center for AI,其中尤其關注了“大規模”與“高品質”之間的數量 - 品質權衡(QQT)。

數據更多更好還是品質更高更好?這項研究能幫你做出選擇


  • #論文標題:Scaling Laws for Data Filtering—Data Curation cannot be Compute Agnostic
  • 論文網址:https://arxiv.org/pdf/2404.07177.pdf


程式碼位址:https://github.com/locuslab/scaling_laws_data_filtering

數據更多更好還是品質更高更好?這項研究能幫你做出選擇

如圖1 所示,當訓練多個epoch 時,高品質資料的效用(utility)就不大了(因為模型已經完成了學習)。

#此時,使用更低品質的資料(一開始的效用較小)往往比重複使用高品質資料更有助益。

數據更多更好還是品質更高更好?這項研究能幫你做出選擇

在數量 - 品質權衡(QQT)之下​​,我們該如何確定訓練使用怎樣的資料搭配更好?

為了解答這個問題,任何資料整編(data curation)工作流程都必須考慮模型訓練所用的總計算量。這不同於社區對資料過濾(data filtering)的看法。舉個例子,LAION 過濾策略是從常見爬取結果中提取出品質最高的 10%。

但從圖2 可以看出,很明顯一旦訓練超過35 epoch,在完全未整編的數據集上訓練的效果優於在使用LAION 策略整編的高質量數據上訓練的效果。

目前的神經擴展律無法建模品質與數量之間這種動態的權衡。此外,視覺 - 語言模型的擴展律研究甚至更更少,目前的大多數研究都僅限於語言建模領域。

今天我們要介紹的這項開創性研究攻克了先前的神經擴展律的三大重要局限,其做到了:########### #(1)在擴展資料時考慮「質量」這個軸;############(2)估計資料池組合的擴展律(而無需真正在該組合上進行訓練),這有助於引導實現最優的資料整編決策;############(3)調整LLM 擴充律,使其適用於對比訓練(如CLIP),其中每一批都有平方數量的比較次數。 ######

團隊首次針對異質和數量有限的網路數據提出了擴展律。

大型模型是在多種品質的資料池組合上訓練完成的。透過對從各個資料池的擴散參數(如圖 1 (a) 中的 A-F)派生的聚合資料效用進行建模,就可以直接估計模型在這些資料池的任意組合上的表現。

需要重點指出,這種方法並不需要在這些資料池組合上進行訓練就能估計它們的擴展律,而是可以根據各個組成池的擴展參數直接估計它們的擴展曲線。

比起過去的擴展律,這裡的擴展律有一些重要差異,可以建模對比訓練機制中的重複,實現 O (n²) 比較。舉個例子,如果訓練池的大小倍增,模型損失有影響的比較次數就會變成原來的四倍。

他們用數學形式描述了來自不同池的數據的相互交互方式,從而可以在不同的數據組合下估計模型的性能。這樣便可以得到適合目前可用計算的資料整編策略。

這項研究給出的一個關鍵訊息是:資料整編不能脫離計算進行

當計算預算少時(更少重複),在 QQT 權衡下質量優先,如圖 1 中低計算量下的激進過濾(E)的最佳性能所示。

另一方面,當計算規模遠超過所用訓練資料時,有限高品質資料的效用會下降,就需要想辦法彌補這一點。這會得到不那麼激進的過濾策略,即當資料量更大時效能更好。

團隊進行了實驗論證,結果顯示這個用於異質網路資料的新擴展律能夠使用DataComp 的中型池(128M 樣本)預測從32M 到640M 的各種計算預算下的帕累托最優過濾策略。

一定計算預算下的資料過濾

該團隊透過實驗研究了不同計算預算下資料濾波的效果。

他們使用一個大型初始資料池訓練了一個 VLM。至於基礎的未過濾資料池,他們選用了近期的資料整編基準 Datacomp 的「中等」規模版本。此資料池包含 128M 樣本。他們使用了 18 個不同的下游任務,評估的是模型的零樣本表現。

他們首先研究了用於獲得 LAION 資料集的 LAION 過濾策略,結果見圖 2。他們觀察到了以下結果:

1. 在計算預算低時,使用高品質數據會更好。

2. 當計算預算高時,資料過濾會造成妨害。

原因為何?

LAION 篩選會保留資料中約 10% 的數據,因此計算預算約為 450M,來自已篩選 LAION 池的每個樣本會被使用約 32 次。這裡的關鍵見解是:對於同一個樣本,如果在訓練過程中被多次看見,那麼每一次所帶來的效用就會下降。

之後該團隊又研究了其它兩種資料過濾方法:

(1)CLIP 分數過濾,使用了CLIP L/14模型;

(2)T-MARS,在遮蔽了影像中的文字特徵(OCR)後基於CLIP 分數對資料進行排名。對於每種資料過濾方法,他們採用了四個過濾層級和多種不同的總計算量。

圖 3 給出了在計算規模為 32M、128M、640M 時 Top 10-20%、 Top 30%、Top 40% CLIP 濾波的結果比較。

數據更多更好還是品質更高更好?這項研究能幫你做出選擇

在32M 計算規模時,高度激進的過濾策略(根據CLIP 分數僅保留前10-20%)得到的結果最好,而最不激進的保留前40% 的過濾方法表現最差。但是,當計算規模擴展到 640M 時,這個趨勢就完全反過來了。使用 T-MARS 評分指標也能觀察到類似的趨勢。

資料過濾的擴展律

該團隊首先以數學方式定義了效用(utility)。

他們的做法不是估計 n 的樣本在訓練結束時的損失,而是考慮一個樣本在訓練階段的任意時間點的瞬時效用。其數學公式為:

數據更多更好還是品質更高更好?這項研究能幫你做出選擇

這表明,一個樣本的瞬時效用正比於當前損失且反比於目前所見到的樣本數。這也符合我們的直覺想法:當模型看到的樣本數量變多,樣本的效用就會下降。其中的重點是數據效用參數 b 。

接下來是資料重複使用之下的效用。

數學上,一個被見到k 1 次的樣本的效用參數b 的定義為:

數據更多更好還是品質更高更好?這項研究能幫你做出選擇

其中τ 是效用參數的半衰期。 τ 值越高,樣本效用隨著重複而衰減得越慢。 δ 則是效用隨重複的衰減情況的簡潔寫法。那麼,模型在看過n 個樣本且每個樣本都被看過k 次之後的損失的表達式就為:

數據更多更好還是品質更高更好?這項研究能幫你做出選擇

其中n_j 是第j 輪訓練epoch 結束時的模型看到的樣本數。這一等式是新提出的擴展律的基礎。

最後,還有一層複雜性,就是異質的網路資料。

然後就得到了他們給出的定理:給定隨機均勻取樣的p 個資料池,其各自的效用和重複參數分別為(b_1, τ_1)... (b_p, τ_p),則每個bucket 的新重複半衰期就為τˆ = p・τ。此外,組合後的資料池在第 k 輪重複時的有效效用值 b_eff 是各個效用值的加權平均值。其數學形式為:

數據更多更好還是品質更高更好?這項研究能幫你做出選擇

#其中數據更多更好還是品質更高更好?這項研究能幫你做出選擇,這是新的每bucket 衰減參數。

最後,可以在 (3) 式中使用上述定理中的 b_eff,就能估計出在資料池組合上進行訓練時的損失。

針對各種資料效用池擬合擴展曲線

#該團隊用實驗探究了新提出的擴展律。

圖 4 給出了一個擬合後的各種資料效用池的擴展曲線,其使用的資料效用指標是 T-MARS 分數。

數據更多更好還是品質更高更好?這項研究能幫你做出選擇

圖 4 的第 2 列顯示各個資料池的效用會隨 epoch 增多而降低。以下是團隊給出的一些重要觀察:

#1. 網路資料是異質的,無法透過單一一組擴充參數進行建模。

2. 不同資料池有不同的資料多樣性。

3. 具有重複現象的高品質資料的效果趕不上直接使用低品質資料。

結果:在QQT 下為資料組合估計擴展律

前面針對不同品質的資料池推斷了各自對應的參數a、 b、d、τ。而這裡的目標是確定當給定了訓練計算預算時,最有效的資料整編策略是什麼。

透過前面的定理以及各個資料池的擴展參數,現在就能估計不同池組合的擴展律了。舉個例子,可以認為 Top-20% 池是 Top-10% 和 Top 10%-20% 池的組合。然後,這種來自擴展曲線的趨勢可以用於預測給定計算預算下的帕累托最優資料過濾策略。

圖 5 給出了不同資料組合的擴展曲線,這是在 ImageNet 上評估的。

數據更多更好還是品質更高更好?這項研究能幫你做出選擇

這裡需要強調,這些曲線是基於上述定理,直接根據各個組成池的擴展參數估計的。他們並未在這些資料池組合上訓練來估計這些擴展曲線。散點是實際的測試性能,其作用是驗證估計得到的結果。

可以看到:(1)當計算預算低 / 重複次數少時,激進的過濾策略是最好的。

(2)資料整編不能脫離計算進行。

對擴展曲線進行擴展

#2023 年Cherti et al. 的論文《 Reproducible scaling laws for contrastive language-image learning》研究了針對CLIP 模型提出的擴展律,其中訓練了計算規模在3B 到34B 訓練樣本之間的數十個模型,並且模型涵蓋不同的ViT 系列模型。在這樣的計算規模上訓練模型的成本非常高。 Cherti et al. (2023) 的目標是為這一系列的模型擬合擴展律,但對於在小資料集上訓練的模型,其擴展曲線有很多錯誤。

CMU 這個團隊認為這主要是因為他們沒考慮到重複使用資料造成的效用下降問題。於是他們使用新提出的擴展律來估計了這些模型的誤差。

圖 6 是修正之後擴展曲線,其能以很高的準確度預測誤差。

數據更多更好還是品質更高更好?這項研究能幫你做出選擇

這表示新提出的擴展律適用於用34B 資料計算訓練的大型模型,這說明在預測模型訓練結果時,新的擴展律確實能考慮到重複數據的效用下降情形。

更多技術細節和實驗結果請參考原文。

以上是數據更多更好還是品質更高更好?這項研究能幫你做出選擇的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn