在自然語言處理任務中,大型語言模型在零樣本和少樣本學習方面取得了令人印象深刻的結果。然而,所有模型都存在固有的局限性,往往只能透過進一步擴展來部分解決。具體來講,模型的限制包括無法存取最新資訊、會對事實產生「資訊幻覺」、低資源語言理解困難、缺乏精確計算的數學技能等等。
解決這些問題的簡單方法是為模型配備外部工具,例如搜尋引擎、計算器或日曆。然而,現有方法通常依賴大量的人工註釋,或將工具的使用限制在特定的任務設定下,使得語言模型與外部工具的結合使用難以推廣。
為了打破這種瓶頸,近期 Meta AI 提出了一種稱為 Toolformer 的新方法,使得語言模型學會「使用」各種外部工具。
論文網址:https://arxiv.org/pdf/2302.04761v1.pdf
Toolformer 很快就引起了人們的高度關注,有人認為這篇論文解決了目前大型語言模型的許多問題,稱讚道:「這是最近幾週最重要的論文”。
有人指出Toolformer 以自監督學習的方式,僅用極少數樣本就讓大型語言模型學會使用一些API 和工具,這是非常靈活且有效率的:
甚至有人認為Toolformer 會讓我們離開通用人工智慧(AGI)更近一步。
Toolformer 之所以能得到如此高的評價,是因為它滿足了以下的實際需求:
這明確打破了前文所述的瓶頸。讓我們來具體來看看 Toolformer 的方法和實驗結果。
Toolformer 基於in-context learning(ICL)的大型語言模型從頭開始產生資料集(Schick and Schütze, 2021b; Honovich et al. , 2022; Wang et al., 2022)的思路:只需給出少數幾個人類使用API 的樣本,就可以讓LM 用潛在的API 調用標註一個巨大的語言建模數據集;然後使用自監督損失函數來決定哪些API 呼叫實際上有助於模型預測未來的token;最後根據對LM 本身有用的API 呼叫進行微調。
由於Toolformer 與所使用的資料集無關,因此可以將其用於與模型預訓練完全相同的資料集,這確保了模型不會失去任何通用性和語言建模能力。
具體來說,研究的目標是讓語言模型 M 具備一種能力 —— 透過 API 呼叫使用各種工具。這就要求每個 API 的輸入和輸出都可以表徵為文字序列。這允許將 API 呼叫無縫插入到任何給定文字中,並使用特殊的 token 來標記每個此類呼叫的開始和結束。
該研究將每個 API 呼叫表示為一個元組
#,其中 a_c 是 API 的名稱,i_c 是對應的輸入。給定具有對應結果r 的API 呼叫c,該研究將不包括和包括其結果的API 呼叫的線性化序列分別表示為:
其中,
給定資料集
#,研究首先將這個資料集轉換成一個增加了API 呼叫的資料集C*。這分三個步驟完成,如下圖2 所示:首先,該研究利用M 的in-context learning 能力對大量潛在的API 呼叫進行採樣,然後執行這些API 調用,再檢查所獲得的響應是否有助於預測未來的token,以用作篩選標準。篩選之後,研究合併對不同工具的 API 調用,最終生成資料集 C*,並在此資料集上微調 M 本身。
該研究對各種不同的下游任務進行了實驗,結果顯示:基於6.7B 參數預訓練GPT-J 模型的Toolformer(學習使用各種API 和工具)在各種任務上明顯優於更大的GPT-3 模型和其他幾個基線。
該研究在LAMA 基準測試的SQuAD、GoogleRE 和T-REx 子集上對幾種模型進行了評估,實驗結果如下表3 所示:
為了測試Toolformer 的數學推理能力,研究在ASDiv、SVAMP 和MAWPS 基準上進行了實驗。實驗表明,Toolformer 在大多數情況下都使用了計算器工具,這明顯比 OPT (66B)和 GPT-3 (175B)略勝一籌。
在問答方面,研究在Web Questions、Natural Questions 和TriviaQA 三個問答資料集上進行了實驗。 Toolformer 明顯優於大小相同的基線模型,但遜於 GPT-3 (175B)。
在跨語言任務方面,該研究將Toolformer 和MLQA 上的所有基準模型進行了比較,結果如下表6 所示:
為了研究日曆API 的效用,研究在TEMPLAMA 和一個名為DATESET 的新在資料集上對幾種模型進行了實驗。 Toolformer 優於所有基線,但沒有使用 TEMPLAMA 日曆工具。
除了驗證各種下游任務的效能改進之外,該研究還希望確保 Toolformer 的語言建模效能不會因為 API 呼叫的微調而降低。為此,該研究在兩個語言建模資料集上進行實驗來評估,模型的困惑度如下表 8 所示。
對於沒有任何 API 呼叫的語言建模來說,新增 API 呼叫無需花費任何成本。
最後,研究人員分析了隨著語言模型規模的擴大,向外部工具尋求幫助的能力對模型表現的影響,分析結果如下圖4 所示
#有興趣的讀者可以閱讀論文原文,了解更多研究細節。
以上是語言模型自己學會用搜尋引擎了? Meta AI提出API呼叫自監督學習方法Toolformer的詳細內容。更多資訊請關注PHP中文網其他相關文章!