> Neurips 2024聚光燈:使用選擇性語言建模(SLM)
進行優化語言模型
>最近,我提出了一份來自2024年Neurips的引人入勝的論文,“並非所有的標記都是您在當地閱讀組中所需的。” 本文解決了一個令人驚訝的簡單但有影響力的問題:在訓練語言模型期間,每個令牌是否需要下一步的預測?
>標準方法涉及大量的網絡綁帶數據集和普遍應用因果語言建模(CLM)。 本文提出了假設的挑戰,提出某些令牌阻礙了學習過程而不是幫助。 作者表明,將培訓集中在“有用”代幣上可以顯著提高數據效率和下游任務績效。 這篇文章總結了他們的核心思想和關鍵的實驗發現。
>
問題:噪聲和效率低下的學習
>
>大型網絡中心不可避免地包含噪音。雖然文檔級過濾有所幫助,但噪聲通常位於各個文檔中。 這些嘈雜的令牌浪費了計算資源,並可能使模型混淆。
作者分析了令牌級學習動力學,基於其跨滲透損失軌跡對令牌進行分類:
l→l(低至低):
迅速學習,提供最小的進一步好處。
- h→l(高到低):最初很困難,但最終學會了;代表寶貴的學習機會。
- h→h(高到高):始終困難,通常是由於固有的不可預測性(良好的不確定性)。 >
- l→H(低至高):最初學會,但後來成為問題,可能是由於上下文變化或噪聲。
他們的分析表明,只有一小部分代幣提供有意義的學習信號。
>- 解決方案:選擇性語言建模(SLM)>
建議的解決方案,選擇性語言建模(SLM),提供了一種更具針對性的方法:>
參考模型(RM)訓練:數據的高質量子集用於微調預訓練的基本模型,創建參考模型(RM)。該RM充當令牌“有用性”的基準。
多餘的損失計算:
對於大型語料庫中的每個令牌,RM的損失與當前訓練模型的損失(“多餘損失”)之間的差異。 較高的多餘損失表明改善的潛力更大。
-
> 選擇性反向傳播:在所有令牌上都執行完整的正向通行證,但是僅對多餘損失最高的代幣的頂部 k%
進行反向傳播。這動態地將培訓集中在最有價值的代幣上。 >
實驗結果:顯著增長
SLM在各種實驗中都具有顯著優勢:
與標準CLM相比,SLM在上, 數學域: 在上,SLM在GSM8K和數學基准上的性能提高了10 %,與標準CLM相比,達到基線績效的速度更快為5-10倍。 7B模型僅使用其培訓令牌的3%匹配最先進的模型。 1B型號的微調進一步提高了40%以上的性能。
通用域:
即使使用了強大的預訓練的基本模型,SLM在15個基準方面的平均平均提高約為5.8%,尤其是在諸如代碼和數學之類的具有挑戰性的領域。
自我引用:
即使是來自RAW語料庫的快速訓練的RM也提供了2-3%的準確性提升,而使用的代幣降低了30-40%。
>結論和未來工作
>
>本文提供了有關令牌級學習動態的寶貴見解,並引入了SLM,這是一種優化語言模型預處理的高效技術。 未來的研究方向包括將SLM擴展到較大的模型,探索基於API的參考模型,使用多個參考模型整合增強學習,以及將SLM與安全性和真實性考慮對齊。 這項工作代表了高效有效的語言模型培訓方面的重大進步。以上是超越因果語言建模的詳細內容。更多資訊請關注PHP中文網其他相關文章!