搜尋
首頁科技週邊人工智慧最強API呼叫模型來了!基於LLaMA微調,性能超過GPT-4

繼羊駝之後,又來了個以動物命名的模型,這次是大猩猩(Gorilla)。

雖說目前LLM風頭正旺,進展頗多,在各種任務中的表現表現也可圈可點,但這些模型透過API調用有效使用工具的潛力還亟待挖掘。

即使對於今天最先進的LLM,例如GPT-4,API呼叫也是一項具有挑戰性的任務,主要是由於它們無法產生準確的輸入參數,並且LLM容易對API呼叫的錯誤使用產生幻覺。

這不,研究人員搞了個Gorilla,一個經過微調的基於LLaMA的模型,它在編寫API呼叫上的效能甚至超過了GPT-4。

而當與文件檢索器結合時,Gorilla同樣展現出了強大的效能,使用戶更新或版本變更變得更加靈活。

此外,Gorilla也大大緩解了LLM會經常遇到的幻覺問題。

為了評估模型的能力,研究人員也引入了API基準,一個由HuggingFace、TorchHub和TensorHub API組成的綜合資料集

#Gorilla

LLMs的各項強大的能力不用再多介紹,包括自然對話能力、數學推理能力,以及程式合成在能力什麼的。

然而,儘管性能強大,LLM仍然會受到一些限制。並且,LLM也需要重新訓練以及時更新他們的知識庫,以及推理能力。

透過授權LLM可使用的工具,研究人員可以允許LLM存取龐大的、不斷變化的知識庫,完成複雜的運算任務。

透過提供對搜尋技術和資料庫的訪問,研究人員可以增強LLM的能力,以處理更大和更動態的知識空間。

同樣,透過提供計算工具的使用,LLM也可以完成複雜的計算任務。

因此,科技巨頭已經開始嘗試整合各類插件,讓LLM能夠透過API呼叫外部工具。

從一個規模較小的手動編碼的工具,到能夠呼叫一個巨大的、不斷變化的雲端API空間,這種轉變可以將LLM轉變為運算基礎設施,以及網路所需的主要介面。

從預訂整個假期到舉辦一次會議的任務,可以變得像與能夠訪問航班、汽車租賃、酒店、餐飲和娛樂網絡API的LLM交談一樣簡單。

然而,許多先前的工作將工具整合到LLM中,考慮的是一小套有據可查的API,可以輕鬆地註入提示中。

支援一個由潛在的數百萬個變化的API組成的網路規模的集合,需要重新思考研究人員如何整合工具的方法。

現在已經不可能在單一的環境中描述所有的API了。許多API會有重疊的功能,有細微的限制和限制。在這種新的環境中簡單地評估LLM需要新的基準。

在本文中,研究人員探索了使用自我結構微調和檢索的方法,以使LLM能夠準確地從使用其API和API文件表達的大量、重疊和變化的工具集中進行選擇。

研究人員透過從公共模型中心刮取ML API(模型)來建構API Bench,這是一個具有複雜且經常重疊功能的大型API語料庫。

研究人員選擇了三個主要的模型中心來建立資料集:TorchHub、TensorHub和HuggingFace。

研究人員詳盡地包含了TorchHub(94個API呼叫)和TensorHub(696個API呼叫)中的每一個API呼叫。

對於HuggingFace,由於模型的數量很大,所以研究人員選擇了每個任務類別中下載最多的20個模型(總共925個)。

研究人員也使用Self-Instruct為每個API產生了10個使用者問題的prompt。

因此,資料集中的每個條目都成為了一個指令參考API對。研究人員採用常見的AST子樹匹配技術來評估產生的API的功能正確性。

研究人員首先將產生的程式碼解析成AST樹,然後找到一個子樹,其根節點是研究人員關心的API調用,然後使用它來索引研究人員的數據集。

研究人員檢查LLMs的功能正確性和幻覺問題,回饋相應的準確性。然後,研究人員再對Gorilla進行微調,這是一個基於LLaMA-7B的模型,使用研究人員的資料集進行文件檢索的操作。

研究人員發現,Gorilla在API功能準確性以及減少幻覺錯誤方面明顯優於GPT-4。

研究者在圖1中展示了一個實例。

最強API呼叫模型來了!基於LLaMA微調,性能超過GPT-4

此外,研究人員對Gorilla進行的檢索感知訓練使得該模型能夠適應API文件的變化。

最後,研究者也展現了Gorilla理解和推理限制的能力。

另外,在幻覺方面,Gorilla也表現出色。

下圖是精確度和幻覺在四種情況下的對比,零樣本(即,沒有任何檢索器)以及使用BM25、GPT和Oracle的檢索器。

其中BM25和GPT是常用的檢索器,而Oracle檢索器則會以100%的相關性返回相關文檔,表示一種上限。

圖中準確度較高、幻覺較少的即為效果較好。

在整個資料集中,Gorilla在提高準確性的同時減少了幻覺。

最強API呼叫模型來了!基於LLaMA微調,性能超過GPT-4

為了收集資料集,研究人員細緻地記錄了HuggingFace的The Model Hub、PyTorch Hub和TensorFlow Hub模型的所有線上模型。

HuggingFace平台託管和服務有總共203681個型號。

然而,其中許多模型的文檔都不咋樣。

為了過濾掉這些品質不高的模型,研究人員最後從每個領域中挑選出前20個模型。

研究人員考慮了多模態資料的7個領域,CV的8個領域,NLP的12個領域,音訊的5個領域,表格資料的2個領域,以及強化學習的2個領域。

過濾後,研究人員從HuggingFace得到了總共925個模型。 TensorFlow Hub的版本分為v1和v2。

最新的版本(v2)總共有801個模型,研究人員處理了所有的模型。在過濾掉幾乎沒有資訊的模型後,剩下了626個模型。

與TensorFlow Hub類似,研究者從Torch Hub得到95個模型。

在self-instruct範式的指導下,研究者採用GPT-4來產生合成指令資料。

研究人員提供了三個脈絡中的例子,以及一個參考的API文檔,並責成模型產生呼叫API的真實用例。

研究人員特別指示模型在建立指令時不要使用任何API名稱或提示。研究者為三個模型中心的每一個建構了六個例子(指令-API對)。

這18個點,是唯一手動產生或修改過的資料。

而Gorilla,則是檢索感知的LLaMA-7B模型,專門用於API呼叫。

如圖3所示,研究者採用自我建構來產生{指令,API}對。

為了對LLaMA進行微調,研究人員將其轉換為用戶——代理的聊天式對話,其中每個數據點都是一個對話,用戶和代理輪流交談。

最強API呼叫模型來了!基於LLaMA微調,性能超過GPT-4

然後研究人員在基礎的LLaMA-7B模型上進行標準的指令微調。在實驗中,研究人員在有和沒有檢索器的情況下分別訓練了Gorilla。

在研究中,研究人員關注的是旨在為提高LLM針對特定任務準確識別適當的API的能力的技術——這是該技術發展中至關重要,但經常被忽略的面向。

由於API的功能是一種通用語言,使不同的系統之間能夠進行有效地溝通,正確使用API​​可以提高LLM與更廣泛的工具進行互動的能力。

在研究人員收集的三個大規模資料集中,Gorilla的性能超過了最先進的LLM(GPT-4)。 Gorilla產生了可靠的API呼叫ML模型,且沒有產生幻覺,並能在挑選API時滿足約束條件。

由於希望找到一個具有挑戰性的資料集,研究人員選擇了ML APIs,因為它們的功能相似。專注於ML領域的API的潛在缺點是,如果在有傾向的資料上進行訓練,它們就有可能產生有偏見的預測,可能對某些子群體不利。

為了消除這種顧慮並促進對這些API的深入了解,研究人員正在發布更廣泛的資料集,其中包括超過11,000個指令——API對。

在下圖這個範例中,研究人員使用抽象語法樹(AST)子樹匹配來評估API呼叫的正確性。

最強API呼叫模型來了!基於LLaMA微調,性能超過GPT-4

抽象語法樹是原始碼結構的樹形表示,有助於更好地分析和理解程式碼。

首先,研究人員從Gorilla回傳的API呼叫(左邊)建立相關的API樹。然後將其與資料集進行比較,以查看API資料集是否具有子樹匹配。

在上面的範例中,相符的子樹以棕色突出顯示,表示API呼叫確實是正確的。其中Pretrained=True是一個可選參數。

這項資源將為更廣泛的社群提供服務,作為研究和衡量現有API的寶貴工具,為更公平和優化使用機器學習做出貢獻。

以上是最強API呼叫模型來了!基於LLaMA微調,性能超過GPT-4的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
Simpson的悖論如何發現數據中隱藏的趨勢? - 分析VidhyaSimpson的悖論如何發現數據中隱藏的趨勢? - 分析VidhyaApr 23, 2025 am 09:20 AM

辛普森的悖論:揭示數據中的隱藏趨勢 您是否曾經被統計數據誤導?辛普森(Simpson)的悖論展示了匯總數據如何掩蓋關鍵趨勢,從而揭示了分析多個級別數據的重要性。這個簡潔的gui

什麼是名義數據? - 分析Vidhya什麼是名義數據? - 分析VidhyaApr 23, 2025 am 09:13 AM

介紹 名義數據構成了數據分析的基石,在統計,計算機科學,心理學和營銷等各個領域中起著至關重要的作用。 本文深入研究了Nomi的特徵,應用和區分

什麼是一聲提示? - 分析Vidhya什麼是一聲提示? - 分析VidhyaApr 23, 2025 am 09:12 AM

介紹 在機器學習的動態世界中,使用最小數據有效生成精確的響應至關重要。 一聲提示提供了一個強大的解決方案,使AI模型僅使用一個示例執行特定任務

特斯拉的Robovan是2024年的Robotaxi預告片中的隱藏寶石特斯拉的Robovan是2024年的Robotaxi預告片中的隱藏寶石Apr 22, 2025 am 11:48 AM

自2008年以來,我一直倡導這輛共享乘車麵包車,即後來被稱為“ Robotjitney”,後來是“ Vansit”,這是城市運輸的未來。 我預見這些車輛是21世紀的下一代過境解決方案Surpas

Sam俱樂部在AI上押注以消除收據檢查並增強零售Sam俱樂部在AI上押注以消除收據檢查並增強零售Apr 22, 2025 am 11:29 AM

革新結帳體驗 Sam's Club的創新性“ Just Go”系統建立在其現有的AI驅動“掃描和GO”技術的基礎上,使會員可以在購物旅行期間通過Sam's Club應用程序進行掃描。

Nvidia的AI Omniverse在GTC 2025擴展Nvidia的AI Omniverse在GTC 2025擴展Apr 22, 2025 am 11:28 AM

NVIDIA在GTC 2025上的增強可預測性和新產品陣容 NVIDIA是AI基礎架構的關鍵參與者,正在專注於提高其客戶的可預測性。 這涉及一致的產品交付,達到績效期望以及

探索Google的功能探索Google的功能Apr 22, 2025 am 11:26 AM

Google的Gemma 2:強大,高效的語言模型 Google的Gemma語言模型家族以效率和性能而慶祝,隨著Gemma 2的到來而擴展。此最新版本包括兩種模型:270億個參數VER

下一波《 Genai:與Kirk Borne博士的觀點》 -Analytics Vidhya下一波《 Genai:與Kirk Borne博士的觀點》 -Analytics VidhyaApr 22, 2025 am 11:21 AM

這一領先的數據劇集以數據科學家,天體物理學家和TEDX演講者Kirk Borne博士為特色。 Borne博士是大數據,AI和機器學習的著名專家,為當前狀態和未來的Traje提供了寶貴的見解

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!