在自然語言處理任務中,大型語言模型在零樣本和少樣本學習方面取得了令人印象深刻的結果。然而,所有模型都存在固有的局限性,往往只能透過進一步擴展來部分解決。具體來講,模型的限制包括無法存取最新資訊、會對事實產生「資訊幻覺」、低資源語言理解困難、缺乏精確計算的數學技能等等。
解決這些問題的簡單方法是為模型配備外部工具,例如搜尋引擎、計算器或日曆。然而,現有方法通常依賴大量的人工註釋,或將工具的使用限制在特定的任務設定下,使得語言模型與外部工具的結合使用難以推廣。
為了打破這種瓶頸,近期 Meta AI 提出了一種稱為 Toolformer 的新方法,使得語言模型學會「使用」各種外部工具。
論文網址:https://arxiv.org/pdf/2302.04761v1.pdf
Toolformer 很快就引起了人們的高度關注,有人認為這篇論文解決了目前大型語言模型的許多問題,稱讚道:「這是最近幾週最重要的論文”。
有人指出Toolformer 以自監督學習的方式,僅用極少數樣本就讓大型語言模型學會使用一些API 和工具,這是非常靈活且有效率的:
甚至有人認為Toolformer 會讓我們離開通用人工智慧(AGI)更近一步。
Toolformer 之所以能得到如此高的評價,是因為它滿足了以下的實際需求:
- 大型語言模型應該在自監督的方式下學習工具的使用,而不需要大量的人工註解。這一點很關鍵, 人工註釋的成本很高只是一方面,更重要的是人類認為有用的東西可能與模型認為有用的東西不同。
- 語言模型需要更全面地使用不受特定任務限制的工具。
這明確打破了前文所述的瓶頸。讓我們來具體來看看 Toolformer 的方法和實驗結果。
方法
Toolformer 基於in-context learning(ICL)的大型語言模型從頭開始產生資料集(Schick and Schütze, 2021b; Honovich et al. , 2022; Wang et al., 2022)的思路:只需給出少數幾個人類使用API 的樣本,就可以讓LM 用潛在的API 調用標註一個巨大的語言建模數據集;然後使用自監督損失函數來決定哪些API 呼叫實際上有助於模型預測未來的token;最後根據對LM 本身有用的API 呼叫進行微調。
由於Toolformer 與所使用的資料集無關,因此可以將其用於與模型預訓練完全相同的資料集,這確保了模型不會失去任何通用性和語言建模能力。
具體來說,研究的目標是讓語言模型 M 具備一種能力 —— 透過 API 呼叫使用各種工具。這就要求每個 API 的輸入和輸出都可以表徵為文字序列。這允許將 API 呼叫無縫插入到任何給定文字中,並使用特殊的 token 來標記每個此類呼叫的開始和結束。
該研究將每個 API 呼叫表示為一個元組
#,其中 a_c 是 API 的名稱,i_c 是對應的輸入。給定具有對應結果r 的API 呼叫c,該研究將不包括和包括其結果的API 呼叫的線性化序列分別表示為:
其中,
給定資料集
#,研究首先將這個資料集轉換成一個增加了API 呼叫的資料集C*。這分三個步驟完成,如下圖2 所示:首先,該研究利用M 的in-context learning 能力對大量潛在的API 呼叫進行採樣,然後執行這些API 調用,再檢查所獲得的響應是否有助於預測未來的token,以用作篩選標準。篩選之後,研究合併對不同工具的 API 調用,最終生成資料集 C*,並在此資料集上微調 M 本身。
實驗及結果
該研究對各種不同的下游任務進行了實驗,結果顯示:基於6.7B 參數預訓練GPT-J 模型的Toolformer(學習使用各種API 和工具)在各種任務上明顯優於更大的GPT-3 模型和其他幾個基線。
該研究在LAMA 基準測試的SQuAD、GoogleRE 和T-REx 子集上對幾種模型進行了評估,實驗結果如下表3 所示:
為了測試Toolformer 的數學推理能力,研究在ASDiv、SVAMP 和MAWPS 基準上進行了實驗。實驗表明,Toolformer 在大多數情況下都使用了計算器工具,這明顯比 OPT (66B)和 GPT-3 (175B)略勝一籌。
在問答方面,研究在Web Questions、Natural Questions 和TriviaQA 三個問答資料集上進行了實驗。 Toolformer 明顯優於大小相同的基線模型,但遜於 GPT-3 (175B)。
在跨語言任務方面,該研究將Toolformer 和MLQA 上的所有基準模型進行了比較,結果如下表6 所示:
為了研究日曆API 的效用,研究在TEMPLAMA 和一個名為DATESET 的新在資料集上對幾種模型進行了實驗。 Toolformer 優於所有基線,但沒有使用 TEMPLAMA 日曆工具。
除了驗證各種下游任務的效能改進之外,該研究還希望確保 Toolformer 的語言建模效能不會因為 API 呼叫的微調而降低。為此,該研究在兩個語言建模資料集上進行實驗來評估,模型的困惑度如下表 8 所示。
對於沒有任何 API 呼叫的語言建模來說,新增 API 呼叫無需花費任何成本。
最後,研究人員分析了隨著語言模型規模的擴大,向外部工具尋求幫助的能力對模型表現的影響,分析結果如下圖4 所示
#有興趣的讀者可以閱讀論文原文,了解更多研究細節。
以上是語言模型自己學會用搜尋引擎了? Meta AI提出API呼叫自監督學習方法Toolformer的詳細內容。更多資訊請關注PHP中文網其他相關文章!

介紹 恭喜!您經營一家成功的業務。通過您的網頁,社交媒體活動,網絡研討會,會議,免費資源和其他來源,您每天收集5000個電子郵件ID。下一個明顯的步驟是

介紹 在當今快節奏的軟件開發環境中,確保最佳應用程序性能至關重要。監視實時指標,例如響應時間,錯誤率和資源利用率可以幫助MAIN

“您有幾個用戶?”他扮演。 阿爾特曼回答說:“我認為我們上次說的是每週5億個活躍者,而且它正在迅速增長。” “你告訴我,就像在短短幾週內翻了一番,”安德森繼續說道。 “我說那個私人

介紹 Mistral發布了其第一個多模式模型,即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型?現在可以拍攝圖像和Tex

想像一下,擁有一個由AI驅動的助手,不僅可以響應您的查詢,還可以自主收集信息,執行任務甚至處理多種類型的數據(TEXT,圖像和代碼)。聽起來有未來派?在這個a


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

Atom編輯器mac版下載
最受歡迎的的開源編輯器

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。

PhpStorm Mac 版本
最新(2018.2.1 )專業的PHP整合開發工具

Dreamweaver CS6
視覺化網頁開發工具

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),