對基礎模型進行 scaling 是指使用更多資料、運算和參數進行預先訓練,簡單來說就是「規模擴展」。
雖然直接擴展模型規模看起來簡單粗暴,但也確實為機器學習社群帶來了不少表現突出的模型。先前不少研究都認可擴大神經經濟模型規模的做法,所謂量變引起質變,這種觀點也被稱為神經擴展律(neural scaling laws)。 然而,隨著模型規模的增加,帶來的是計算資源的密集消耗。這意味著更大規模的模型需要更多的運算資源,包括處理器和記憶體。這對於許多實際應用來說是不可行的,尤其是在資源有限的設備上。 因此,研究人員開始關注如何更有效率地使用運算資源以提高模數
近段時間,又有不少人認為「資料」才是那些目前最佳的關閉來源模型的關鍵,不管是LLM、VLM 還是擴散模型。隨著數據品質的重要性得到認可,已經湧現了不少旨在提升數據品質的研究:要么是從大型資料庫中過濾出高品質數據,要么是產生高品質的新數據。但是,過去的擴展律一般是將「資料」視為一個同質實體,並未將近期人們關注的「資料品質」視為一個考量維度。
儘管網路上的資料模型龐大,但高品質資料(基於多個評估指標)通常很有限。現在,開創性的研究來了──資料過濾維度上的擴展律!它來自卡內基梅隆大學和Bosch Center for AI,其中尤其關注了“大規模”與“高品質”之間的數量 - 品質權衡(QQT)。
- #論文標題:Scaling Laws for Data Filtering—Data Curation cannot be Compute Agnostic
- 論文網址:https://arxiv.org/pdf/2404.07177.pdf
程式碼位址:https://github.com/locuslab/scaling_laws_data_filtering
如圖1 所示,當訓練多個epoch 時,高品質資料的效用(utility)就不大了(因為模型已經完成了學習)。
#此時,使用更低品質的資料(一開始的效用較小)往往比重複使用高品質資料更有助益。
在數量 - 品質權衡(QQT)之下,我們該如何確定訓練使用怎樣的資料搭配更好?
為了解答這個問題,任何資料整編(data curation)工作流程都必須考慮模型訓練所用的總計算量。這不同於社區對資料過濾(data filtering)的看法。舉個例子,LAION 過濾策略是從常見爬取結果中提取出品質最高的 10%。
但從圖2 可以看出,很明顯一旦訓練超過35 epoch,在完全未整編的數據集上訓練的效果優於在使用LAION 策略整編的高質量數據上訓練的效果。
目前的神經擴展律無法建模品質與數量之間這種動態的權衡。此外,視覺 - 語言模型的擴展律研究甚至更更少,目前的大多數研究都僅限於語言建模領域。
今天我們要介紹的這項開創性研究攻克了先前的神經擴展律的三大重要局限,其做到了:########### #(1)在擴展資料時考慮「質量」這個軸;############(2)估計資料池組合的擴展律(而無需真正在該組合上進行訓練),這有助於引導實現最優的資料整編決策;############(3)調整LLM 擴充律,使其適用於對比訓練(如CLIP),其中每一批都有平方數量的比較次數。 ######
團隊首次針對異質和數量有限的網路數據提出了擴展律。
大型模型是在多種品質的資料池組合上訓練完成的。透過對從各個資料池的擴散參數(如圖 1 (a) 中的 A-F)派生的聚合資料效用進行建模,就可以直接估計模型在這些資料池的任意組合上的表現。
需要重點指出,這種方法並不需要在這些資料池組合上進行訓練就能估計它們的擴展律,而是可以根據各個組成池的擴展參數直接估計它們的擴展曲線。
比起過去的擴展律,這裡的擴展律有一些重要差異,可以建模對比訓練機制中的重複,實現 O (n²) 比較。舉個例子,如果訓練池的大小倍增,模型損失有影響的比較次數就會變成原來的四倍。
他們用數學形式描述了來自不同池的數據的相互交互方式,從而可以在不同的數據組合下估計模型的性能。這樣便可以得到適合目前可用計算的資料整編策略。
這項研究給出的一個關鍵訊息是:資料整編不能脫離計算進行。
當計算預算少時(更少重複),在 QQT 權衡下質量優先,如圖 1 中低計算量下的激進過濾(E)的最佳性能所示。
另一方面,當計算規模遠超過所用訓練資料時,有限高品質資料的效用會下降,就需要想辦法彌補這一點。這會得到不那麼激進的過濾策略,即當資料量更大時效能更好。
團隊進行了實驗論證,結果顯示這個用於異質網路資料的新擴展律能夠使用DataComp 的中型池(128M 樣本)預測從32M 到640M 的各種計算預算下的帕累托最優過濾策略。
一定計算預算下的資料過濾
該團隊透過實驗研究了不同計算預算下資料濾波的效果。
他們使用一個大型初始資料池訓練了一個 VLM。至於基礎的未過濾資料池,他們選用了近期的資料整編基準 Datacomp 的「中等」規模版本。此資料池包含 128M 樣本。他們使用了 18 個不同的下游任務,評估的是模型的零樣本表現。
他們首先研究了用於獲得 LAION 資料集的 LAION 過濾策略,結果見圖 2。他們觀察到了以下結果:
1. 在計算預算低時,使用高品質數據會更好。
2. 當計算預算高時,資料過濾會造成妨害。
原因為何?
LAION 篩選會保留資料中約 10% 的數據,因此計算預算約為 450M,來自已篩選 LAION 池的每個樣本會被使用約 32 次。這裡的關鍵見解是:對於同一個樣本,如果在訓練過程中被多次看見,那麼每一次所帶來的效用就會下降。
之後該團隊又研究了其它兩種資料過濾方法:
(1)CLIP 分數過濾,使用了CLIP L/14模型;
(2)T-MARS,在遮蔽了影像中的文字特徵(OCR)後基於CLIP 分數對資料進行排名。對於每種資料過濾方法,他們採用了四個過濾層級和多種不同的總計算量。
圖 3 給出了在計算規模為 32M、128M、640M 時 Top 10-20%、 Top 30%、Top 40% CLIP 濾波的結果比較。
在32M 計算規模時,高度激進的過濾策略(根據CLIP 分數僅保留前10-20%)得到的結果最好,而最不激進的保留前40% 的過濾方法表現最差。但是,當計算規模擴展到 640M 時,這個趨勢就完全反過來了。使用 T-MARS 評分指標也能觀察到類似的趨勢。
資料過濾的擴展律
該團隊首先以數學方式定義了效用(utility)。
他們的做法不是估計 n 的樣本在訓練結束時的損失,而是考慮一個樣本在訓練階段的任意時間點的瞬時效用。其數學公式為:
這表明,一個樣本的瞬時效用正比於當前損失且反比於目前所見到的樣本數。這也符合我們的直覺想法:當模型看到的樣本數量變多,樣本的效用就會下降。其中的重點是數據效用參數 b 。
接下來是資料重複使用之下的效用。
數學上,一個被見到k 1 次的樣本的效用參數b 的定義為:
其中τ 是效用參數的半衰期。 τ 值越高,樣本效用隨著重複而衰減得越慢。 δ 則是效用隨重複的衰減情況的簡潔寫法。那麼,模型在看過n 個樣本且每個樣本都被看過k 次之後的損失的表達式就為:
其中n_j 是第j 輪訓練epoch 結束時的模型看到的樣本數。這一等式是新提出的擴展律的基礎。
最後,還有一層複雜性,就是異質的網路資料。
然後就得到了他們給出的定理:給定隨機均勻取樣的p 個資料池,其各自的效用和重複參數分別為(b_1, τ_1)... (b_p, τ_p),則每個bucket 的新重複半衰期就為τˆ = p・τ。此外,組合後的資料池在第 k 輪重複時的有效效用值 b_eff 是各個效用值的加權平均值。其數學形式為:
#其中,這是新的每bucket 衰減參數。
最後,可以在 (3) 式中使用上述定理中的 b_eff,就能估計出在資料池組合上進行訓練時的損失。
針對各種資料效用池擬合擴展曲線
#該團隊用實驗探究了新提出的擴展律。
圖 4 給出了一個擬合後的各種資料效用池的擴展曲線,其使用的資料效用指標是 T-MARS 分數。
圖 4 的第 2 列顯示各個資料池的效用會隨 epoch 增多而降低。以下是團隊給出的一些重要觀察:
#1. 網路資料是異質的,無法透過單一一組擴充參數進行建模。
2. 不同資料池有不同的資料多樣性。
3. 具有重複現象的高品質資料的效果趕不上直接使用低品質資料。
結果:在QQT 下為資料組合估計擴展律
前面針對不同品質的資料池推斷了各自對應的參數a、 b、d、τ。而這裡的目標是確定當給定了訓練計算預算時,最有效的資料整編策略是什麼。
透過前面的定理以及各個資料池的擴展參數,現在就能估計不同池組合的擴展律了。舉個例子,可以認為 Top-20% 池是 Top-10% 和 Top 10%-20% 池的組合。然後,這種來自擴展曲線的趨勢可以用於預測給定計算預算下的帕累托最優資料過濾策略。
圖 5 給出了不同資料組合的擴展曲線,這是在 ImageNet 上評估的。
這裡需要強調,這些曲線是基於上述定理,直接根據各個組成池的擴展參數估計的。他們並未在這些資料池組合上訓練來估計這些擴展曲線。散點是實際的測試性能,其作用是驗證估計得到的結果。
可以看到:(1)當計算預算低 / 重複次數少時,激進的過濾策略是最好的。
(2)資料整編不能脫離計算進行。
對擴展曲線進行擴展
#2023 年Cherti et al. 的論文《 Reproducible scaling laws for contrastive language-image learning》研究了針對CLIP 模型提出的擴展律,其中訓練了計算規模在3B 到34B 訓練樣本之間的數十個模型,並且模型涵蓋不同的ViT 系列模型。在這樣的計算規模上訓練模型的成本非常高。 Cherti et al. (2023) 的目標是為這一系列的模型擬合擴展律,但對於在小資料集上訓練的模型,其擴展曲線有很多錯誤。
CMU 這個團隊認為這主要是因為他們沒考慮到重複使用資料造成的效用下降問題。於是他們使用新提出的擴展律來估計了這些模型的誤差。
圖 6 是修正之後擴展曲線,其能以很高的準確度預測誤差。
這表示新提出的擴展律適用於用34B 資料計算訓練的大型模型,這說明在預測模型訓練結果時,新的擴展律確實能考慮到重複數據的效用下降情形。
更多技術細節和實驗結果請參考原文。
以上是數據更多更好還是品質更高更好?這項研究能幫你做出選擇的詳細內容。更多資訊請關注PHP中文網其他相關文章!

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它:認知(了解正在發生的事情)、欣賞(看到好處)、接納(面對挑戰)和責任(弄清我們的責任)。 認知:人工智能無處不在,並且發展迅速 我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進,在數學和復雜思維測試中取得了優異的成績,而就在一年前,它們還在這些測試中慘敗。想像一下,人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

連接的舒適幻想:我們在與AI的關係中真的在蓬勃發展嗎? 這個問題挑戰了麻省理工學院媒體實驗室“用AI(AHA)”研討會的樂觀語氣。事件展示了加油

介紹 想像一下,您是科學家或工程師解決複雜問題 - 微分方程,優化挑戰或傅立葉分析。 Python的易用性和圖形功能很有吸引力,但是這些任務需要強大的工具

Meta's Llama 3.2:多式聯運AI強力 Meta的最新多模式模型Llama 3.2代表了AI的重大進步,具有增強的語言理解力,提高的準確性和出色的文本生成能力。 它的能力t

數據質量保證:與Dagster自動檢查和良好期望 保持高數據質量對於數據驅動的業務至關重要。 隨著數據量和源的增加,手動質量控制變得效率低下,容易出現錯誤。

大型機:AI革命的無名英雄 雖然服務器在通用應用程序上表現出色並處理多個客戶端,但大型機是專為關鍵任務任務而建立的。 這些功能強大的系統經常在Heavil中找到


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

記事本++7.3.1
好用且免費的程式碼編輯器

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。