首頁 >科技週邊 >人工智慧 >超越因果語言建模

超越因果語言建模

PHPz
PHPz原創
2025-02-25 18:28:09183瀏覽

> Neurips 2024聚光燈:使用選擇性語言建模(SLM)

進行優化語言模型

>最近,我提出了一份來自2024年Neurips的引人入勝的論文,“並非所有的標記都是您在當地閱讀組中所需的。” 本文解決了一個令人驚訝的簡單但有影響力的問題:在訓練語言模型期間,每個令牌是否需要下一步的預測? >標準方法涉及大量的網絡綁帶數據集和普遍應用因果語言建模(CLM)。 本文提出了假設的挑戰,提出某些令牌阻礙了學習過程而不是幫助。 作者表明,將培訓集中在“有用”代幣上可以顯著提高數據效率和下游任務績效。 這篇文章總結了他們的核心思想和關鍵的實驗發現。

>

問題:噪聲和效率低下的學習

> >大型網絡中心不可避免地包含噪音。雖然文檔級過濾有所幫助,但噪聲通常位於各個文檔中。 這些嘈雜的令牌浪費了計算資源,並可能使模型混淆。 作者分析了令牌級學習動力學,基於其跨滲透損失軌跡對令牌進行分類:

l→l(低至低):

迅速學習,提供最小的進一步好處。
  • h→l(高到低):最初很困難,但最終學會了;代表寶貴的學習機會。
  • h→h(高到高):始終困難,通常是由於固有的不可預測性(良好的不確定性)。 >
  • l→H(低至高):最初學會,但後來成為問題,可能是由於上下文變化或噪聲。 他們的分析表明,只有一小部分代幣提供有意義的學習信號。
  • >
  • 解決方案:選擇性語言建模(SLM)>
  • 建議的解決方案,選擇性語言建模(SLM),提供了一種更具針對性的方法:>

參考模型(RM)訓練:數據的高質量子集用於微調預訓練的基本模型,創建參考模型(RM)。該RM充當令牌“有用性”的基準。

Beyond Causal Language Modeling多餘的損失計算:

對於大型語料庫中的每個令牌,RM的損失與當前訓練模型的損失(“多餘損失”)之間的差異。 較高的多餘損失表明改善的潛力更大。
  1. > 選擇性反向傳播:在所有令牌上都執行完整的正向通行證,但是僅對多餘損失最高的代幣的頂部 k%

    進行反向傳播。這動態地將培訓集中在最有價值的代幣上。
  2. >

實驗結果:顯著增長

SLM在各種實驗中都具有顯著優勢:

Beyond Causal Language Modeling

與標準CLM相比,SLM在上,
  • 數學域:

    上,SLM在GSM8K和數學基准上的性能提高了10 %,與標準CLM相比,達到基線績效的速度更快為5-10倍。 7B模型僅使用其培訓令牌的3%匹配最先進的模型。 1B型號的微調進一步提高了40%以上的性能。

    通用域:
  • 即使使用了強大的預訓練的基本模型,SLM在15個基準方面的平均平均提高約為5.8%,尤其是在諸如代碼和數學之類的具有挑戰性的領域。
  • 自我引用:

    即使是來自RAW語料庫的快速訓練的RM也提供了2-3%的準確性提升,而使用的代幣降低了30-40%。
  • >結論和未來工作

    >
  • >本文提供了有關令牌級學習動態的寶貴見解,並引入了SLM,這是一種優化語言模型預處理的高效技術。 未來的研究方向包括將SLM擴展到較大的模型,探索基於API的參考模型,使用多個參考模型整合增強學習,以及將SLM與安全性和真實性考慮對齊。 這項工作代表了高效有效的語言模型培訓方面的重大進步。

    以上是超越因果語言建模的詳細內容。更多資訊請關注PHP中文網其他相關文章!

    陳述:
    本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn