首頁  >  文章  >  科技週邊  >  7.7億參數,超越5400億PaLM! UW谷歌提出「分步蒸餾」,只需80%訓練資料|ACL 2023

7.7億參數,超越5400億PaLM! UW谷歌提出「分步蒸餾」,只需80%訓練資料|ACL 2023

WBOY
WBOY轉載
2023-10-07 16:49:06456瀏覽

大型語言模型在表現方面表現出色,能夠透過零樣本或少樣本提示來解決新任務。然而,在實際應用部署中,LLM卻不太實用,因為它的記憶體利用效率低,同時需要大量的運算資源

例如執行1750億參數的語言模型服務至少需要350GB的顯存,而目前最先進的語言模型大多已超過5000億參數量,許多研究團隊都沒有足夠的資源來運行,在現實應用中也無法滿足低延遲性能。

也有一些研究使用人工標註資料或使用LLM產生的標籤進行蒸餾來訓練較小的、任務專用的模型,不過微調和蒸餾需要大量的訓練資料才能實現與LLM相當的效能。

為了解決大型模型對資源的需求問題,華盛頓大學與Google合作提出了一種名為「逐步蒸餾」(Distilling Step-by-Step)的新蒸餾機制。透過逐步蒸餾,經過蒸餾後的模型尺寸相較於原模型來說更小,但性能卻更優,而且在微調和蒸餾過程中所需的訓練數據也更少

7.7亿参数,超越5400亿PaLM!UW谷歌提出「分步蒸馏」,只需80%训练数据|ACL 2023

#請點選以下連結查看論文:https://arxiv.org/abs/2305.02301

分佈蒸餾機制把LLM中抽取的預測理由(rationale )作為在多任務框架內訓練小模型的額外監督資訊。

7.7亿参数,超越5400亿PaLM!UW谷歌提出「分步蒸馏」,只需80%训练数据|ACL 2023

經過在4個NLP基準上進行實驗後,我們發現:

1. 與微調和蒸餾相比,該機制用更少的訓練樣本實現了更好的性能;

相對於少樣本提示LLM,該機制利用更小尺寸的模型實現了更出色的性能

3. 同時降低模型尺寸和數據量也可以實現優於LLM的效能。

實驗中,微調後770M的T5模型在基準測試中僅使用80%的可用數據就優於少樣本提示的540B的PaLM模型,而標準微調相同的T5模型即使使用100%的數據集也難以匹配。

蒸餾方法

分佈蒸餾的關鍵思想是逐步抽取資訊豐富且用自然語言描述的預測理由,即中間推理步驟,以解釋輸入問題與模型輸出之間的聯繫,並透過這些數據來更有效率地訓練小模型

7.7亿参数,超越5400亿PaLM!UW谷歌提出「分步蒸馏」,只需80%训练数据|ACL 2023

分佈蒸餾主要包括兩個階段:

1. 從LLM中提取原理(rationale)

研究人員利用少樣本思維鏈(CoT)提示從LLM中提取預測中間步驟。

在決定目標任務之後,先在LLM輸入提示中準備幾個範例。每個範例都由一個三元組組成,包括輸入、原理和輸出

7.7亿参数,超越5400亿PaLM!UW谷歌提出「分步蒸馏」,只需80%训练数据|ACL 2023

 輸入提示後,LLM能夠模仿三元組演示以產生其他新問題的預測原理,例如,在常識問答案任務中,給定輸入問題:

#Sammy想去人群聚集的地方。他會選擇哪裡呢?選項有:(a)人口稠密地區,(b)賽道,(c)沙漠,(d)公寓,(e)路障

(Sammy wanted to go to where the people are. Where might he go? Answer Choices: (a) populated areas, (b) race track, (c) desert, (d) apartment, (e) roadblock)

經過逐步提煉後,LLM可以給出問題的正確答案“(a)人口稠密地區”,並且提供回答問題的理由“答案必須是一個有很多人的地方,在上述選擇中,只有人口稠密的地區有很多人。” 經過逐步提煉,LLM能夠得出正確答案為“(a)人口稠密地區”,並提供了解答問題的理由“答案必須是一個有很多人的地方,在上述選擇中,只有人口稠密的地區有很多人。”

透過在提示中提供與基本原理配對的CoT範例,上下文學習能力可以讓LLM為未曾遇到的問題類型產生對應的回答理由

2. 訓練小模型

透過將訓練過程建構成多任務問題,可以將預測理由抽取出來,並將其納入訓練小模型中

除了標準標籤預測任務之外,研究人員還使用新的理由生成任務來訓練小模型,使得模型能夠學習產生用於預測的中間推理步驟,並且引導模型更好地預測結果標籤。

透過在輸入提示中加入任務前綴「label」和「rationale」來區分標籤預測和理由產生任務。

實驗結果

在實驗中,研究人員選擇5,400億個參數量的PaLM模型作為LLM基線,使用T5模型作為任務相關的下游小模型。

在這項研究中,我們對四個基準資料集進行了實驗,這四個資料集分別是e-SNLI和ANLI用於自然語言推理,CQA用於常識問答,以及SVAMP用於算術數學應用題。我們在這三個不同的NLP任務中進行了實驗

#更少的訓練資料

逐步蒸餾方法在表現上比標準微調更出色,而且只需較少的訓練資料

在e-SNLI資料集上,當使用完整資料集的12.5%時就實現了比標準微調更好的性能,在ANLI、 CQA和SVAMP上分別只需要75%、25%和20%的訓練資料。

7.7亿参数,超越5400亿PaLM!UW谷歌提出「分步蒸馏」,只需80%训练数据|ACL 2023

與使用220M T5模型對不同大小的人工標記資料集進行標準微調相比,分佈蒸餾在所有資料集上使用較少的訓練範例時,優於在完整資料集上進行標準微調

更小的部署模型尺寸

與少樣本CoT提示的LLM相比,分佈蒸餾得到的模型尺寸要小得多,但性能更好。

在e-SNLI資料集上,使用220M的T5模型實現了比540B的PaLM更好的性能;在ANLI上,使用770M的T5模型實現了比540B的PaLM更好的性能,模型尺寸僅為1/700

更小的模型、更少的資料

在縮小模型尺寸和訓練資料的同時,我們成功地實現了超越少樣本PaLM的性能

在ANLI中,使用770M T5模型的性能超過了540B PaLM,而且只使用了完整數據集的80%

7.7亿参数,超越5400亿PaLM!UW谷歌提出「分步蒸馏」,只需80%训练数据|ACL 2023

經觀察可知,即使使用完整的100%資料集,標準微調也無法達到PaLM的性能水平,這表明透過逐步蒸餾可以同時減少模型尺寸和訓練資料量,從而實現超越LLM的效能

以上是7.7億參數,超越5400億PaLM! UW谷歌提出「分步蒸餾」,只需80%訓練資料|ACL 2023的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除