用結構化輸出和功能調用增強LLM-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

用結構化輸出和功能調用增強LLM

Christopher Nolan

Apr 13, 2025 am 09:45 AM

介紹

假設您正在與知識淵博但有時缺乏具體/知情回答的朋友互動，或者當他/她/她/她面對複雜問題時不會流利地反應。我們在這裡所做的類似於當前具有大語言模型的潛在客戶。它們非常有幫助，儘管它們的結構化答案的質量和相關性可能令人滿意或利基市場。

在本文中，我們將探討未來的技術諸如函數呼叫和檢索功能增強的生成（RAG）如何增強LLM。我們將討論他們創造更可靠和有意義的對話體驗的潛力。您將了解這些技術如何運作，它們的好處以及它們面臨的挑戰。我們的目標是為您掌握在不同情況下提高LLM性能的知識和技能。

本文基於Ayush Thakur在Datahack Summit 2024中對使用結構化輸出和功能調用增強LLM的最新演講。

學習成果

了解大語言模型的基本概念和局限性。
了解結構化輸出和功能調用如何增強LLM的性能。
探索在改善LLMS中檢索成績（RAG）的原理和優勢。
確定有效評估LLM的關鍵挑戰和解決方案。
比較OpenAI和Llama模型之間的函數調用功能。

介紹
什麼是LLM？
與LLM互動：提示
LLM應用程序與模型開發有何不同？
使用LLM的功能調用
功能調用：微調
llms的抹布（檢索型生成一代）
評估LLM
LLM的產出的生成約束
降低溫度的結構化輸出
LLM的思想推理鏈
在Openai vs Llama上致電的功能
為您的申請找到LLM
結論
常見問題

什麼是LLM？

大型語言模型（LLMS）是高級AI系統，旨在根據大型數據集理解和生成自然語言。諸如GPT-4和Llama之類的模型使用深度學習算法來處理和生成文本。它們是通用的，處理語言翻譯和內容創建之類的任務。通過分析大量數據，LLMS學習語言模式並應用這些知識來產生自然的響應。他們可以從邏輯上預測文本和格式，從而使他們能夠在不同字段上執行各種任務。

用結構化輸出和功能調用增強LLM

LLM的局限性

現在讓我們探索LLM的局限性。

準確性不一致：他們的結果有時不准確或不像預期的那樣可靠，尤其是在處理複雜的情況時。
缺乏真正的理解：它們可能會產生可能聽起來合理的文本，但實際上可能是錯誤的信息或由於缺乏洞察力而旋轉。
培訓數據限制：它們產生的輸出受訓練數據的限制，有時可能是偏見或含有差距。
靜態知識庫： LLM的靜態知識庫無法實時更新，從而使其對需要當前或動態信息的任務效率降低。

LLMS結構化輸出的重要性

現在，我們將研究LLMS結構化輸出的重要性。

增強的一致性：結構化輸出提供了一種清晰而有條理的格式，從而提高了所提供信息的一致性和相關性。
提高了可用性：它們使信息易於解釋和使用，尤其是在需要精確數據顯示的應用程序中。
有組織的數據：結構化格式有助於邏輯地組織信息，這有益於生成報告，摘要或數據驅動的見解。
含糊不清：實施結構化的輸出有助於降低歧義並提高生成的文本的整體質量。

與LLM互動：提示

提示大型語言模型（LLMS）涉及用幾個關鍵組件製定提示：

說明：有關LLM應該做什麼的清晰指令。
上下文：背景信息或代幣之前，以告知響應。
輸入數據：LLM需要處理的主要內容或查詢。
輸出指示器：指定所需的格式或響應類型。

用結構化輸出和功能調用增強LLM

例如，要對情感進行分類，您提供了一個文本，例如“我認為食物還可以”，並要求LLM將其歸類為中性，負面或積極的情感。

實際上，有多種提示的方法：

輸入輸出：直接輸入數據並接收輸出。
思想鏈（COT） ：鼓勵LLM通過一系列步驟進行推理，以達到輸出。
與COT（COT-SC）的自洽性：使用多個推理路徑和聚合結果通過多數投票提高準確性。

用結構化輸出和功能調用增強LLM

這些方法有助於完善LLM的響應，並確保輸出更準確和可靠。

LLM應用程序與模型開發有何不同？

現在讓我們查看下表，以了解LLM應用程序與模型開發的不同。

	模型開發	LLM應用程序
型號	建築節省了重量和偏見	功能，API和配置的組成
數據集	巨大，經常被標記	人類產生，通常沒有標記
實驗	昂貴的長期優化	廉價的高頻相互作用
追踪	指標：損失，準確性，激活	活動：完成，反饋，代碼
評估	客觀和計劃	主觀並需要人類的投入

使用LLM的功能調用

使用LLM的函數調用涉及使大型語言模型（LLMS）作為其響應生成過程的一部分執行預定義的功能或代碼片段。此功能使LLM可以執行超出標准文本生成以外的特定操作或計算。通過集成函數調用，LLM可以與外部系統進行交互，檢索實時數據或執行複雜操作，從而在各種應用程序中擴展其效用和有效性。

用結構化輸出和功能調用增強LLM

功能呼叫的好處

增強的交互性：函數調用使LLMS能夠與外部系統動態交互，從而促進實時數據檢索和處理。這對於需要最新信息的應用程序，例如實時數據查詢或基於當前條件的個性化響應特別有用。
增加的多功能性：通過執行功能，LLM可以處理更廣泛的任務，從執行計算到訪問和操縱數據庫。這種多功能性增強了模型滿足各種用戶需求並提供更全面的解決方案的能力。
提高精度：功能調用允許LLMS執行特定的動作，以提高其輸出的準確性。例如，他們可以使用外部功能來驗證或豐富他們生成的信息，從而導致更精確和可靠的響應。
簡化過程：將功能呼叫集成到LLM可以通過自動化重複任務並減少手動干預的需求來簡化複雜過程。這種自動化可以導致更有效的工作流程和更快的響應時間。

使用當前LLM的函數調用的局限性

有限的集成功能：當前的LLM可能會在與不同的外部系統或功能無縫集成時面臨挑戰。這種限制可以限制他們與各種數據源交互或有效執行複雜操作的能力。
安全性和隱私問題：功能調用可以引入安全性和隱私風險，尤其是當LLMS與敏感或個人數據互動時。確保強大的保障措施和安全互動對於減輕潛在脆弱性至關重要。
執行約束： LLMS執行功能可能受到資源限制，處理時間或兼容性問題等因素的約束。這些約束可能會影響功能通話功能的性能和可靠性。
管理中的複雜性：管理和維護功能呼叫功能可以增加LLM的部署和操作的複雜性。這包括處理錯誤，確保與各種功能的兼容性以及管理更新或更改所調用的功能。

功能通話遇到pydantic

Pydantic對像簡化了定義和轉換方案以進行函數調用的過程，提供了幾個好處：

自動架構轉換：輕鬆地將Pydantic對象轉換為準備LLM的模式。
增強的代碼質量：Pydantic Hands類型檢查，驗證和控制流，確保清潔可靠的代碼。
強大的錯誤處理：用於管理錯誤和異常的內置機制。
框架集成：諸如教練，Marvin，Langchain和Llamaindex之類的工具利用Pydantic的功能來實現結構化輸出。

功能調用：微調

增強呼籲利基任務的功能涉及對小型LLM進行微調以滿足特定的數據策劃需求。通過利用特殊令牌和Lora微調等技術，您可以優化功能執行並改善模型的專用應用程序的性能。

數據策劃：專注於有效功能調用的精確數據管理。

單轉強制調用：實現直接執行的直接執行。
並行調用：利用並發函數呼叫以提高效率。
嵌套調用：處理嵌套函數執行的複雜交互。
多轉聊：使用順序函數調用管理擴展對話。

特殊令牌：使用自定義令牌標記功能呼叫的開始和結束，以更好地集成。

模型培訓：從基於教學的模型開始，該模型接受了高質量數據的基礎效果。

Lora微調：採用Lora微調以可管理和有針對性的方式增強模型性能。

用結構化輸出和功能調用增強LLM

這顯示了在兩週內繪製NVIDIA（NVDA）和Apple（AAPL）股票價格的請求，然後進行功能呼叫獲取股票數據。

用結構化輸出和功能調用增強LLM

llms的抹布（檢索型生成一代）

檢索增強生成（RAG）結合了檢索技術與生成方法，以提高大語模型（LLMS）的性能。 RAG通過將檢索系統集成在生成模型中，從而提高了產出的相關性和質量。這種方法可確保生成的響應在上下文上更豐富，實際上是準確的。通過合併外部知識，抹布可以解決純粹生成模型的某些局限性，為需要準確性和最新信息的任務提供了更可靠和知情的輸出。它彌合了發電和檢索之間的差距，從而提高了整體模型效率。

抹布的工作原理

關鍵組件包括：

文檔加載程序：負責加載文檔並提取文本和元數據進行處理。
塊策略：定義大型文本被分為較小的，易於管理的作品（塊），以嵌入。
嵌入模型：將這些塊轉換為數值向量，以進行有效的比較和檢索。
檢索器：根據查詢搜索最相關的塊，確定它們在響應生成方面的良好或準確性。
節點解析器和後處理：處理和閾值，確保向前傳遞高質量的塊。
響應合成器：從檢索到的塊中生成連貫的響應，通常會帶有多轉彎或順序LLM調用。
評估：系統檢查響應中的幻覺的準確性，事實並降低了幻覺，以確保它反映實際數據。

該圖像表示RAG系統如何結合檢索和生成以提供準確的數據驅動答案。

用結構化輸出和功能調用增強LLM

檢索組件： RAG框架從檢索過程開始，該過程從預定義的知識庫或搜索引擎中獲取相關文檔或數據。此步驟涉及使用輸入查詢或上下文查詢數據庫以識別最相關的信息。
上下文集成：一旦檢索了相關文檔，它們就會用於為生成模型提供上下文。檢索到的信息已集成到輸入提示中，幫助LLM生成了由現實世界數據和相關內容告知的響應。
生成組件：生成模型處理豐富的輸入，並結合了檢索到的信息以產生響應。此響應從其他上下文中受益，從而導致更準確和上下文適當的輸出。
改進：在某些實施中，可以通過進一步的處理或重新評估來完善生成的輸出。此步驟確保最終響應與檢索到的信息並符合質量標準。

與LLM一起使用抹布的好處

提高準確性：通過合併外部知識，抹布可以增強生成的輸出的事實準確性。檢索組件有助於提供最新和相關的信息，從而降低產生不正確或過時的響應的風險。
增強的上下文相關性： RAG允許LLMS通過利用從外部來源檢索到的特定信息來產生與上下文相關的響應。這導致輸出與用戶的查詢或上下文更好。
知識覆蓋範圍的增加：使用抹布，LLM可以訪問超出其培訓數據的更廣泛的知識。這種擴展的覆蓋範圍有助於解決有關該模型預先訓練的知識中可能沒有得到充分代表的利基或專業主題的疑問。
更好地處理長尾查詢：抹布對於處理長尾查詢或罕見主題特別有效。通過檢索相關文件，LLM即使對於不常見或高度特定的查詢也可以產生信息的響應。
增強的用戶體驗：檢索和生成的集成提供了更強大，更有用的響應，從而改善了整體用戶體驗。用戶收到的答案不僅連貫，而且基於相關和最新信息。

評估LLM

評估大語言模型（LLMS）是確保其在各種任務中的有效性，可靠性和適用性的關鍵方面。適當的評估有助於確定優勢和劣勢，指導改進，並確保LLM符合不同應用的所需標準。

LLM應用程序評估的重要性

確保准確性和可靠性：績效評估有助於理解LLM始終如一地完成文本生成，摘要或問答等任務。雖然我贊成在課堂上推動更全面的方法，但特別是在這種方式中特別依賴於醫學或法律等領域的細節，這是非常有價值的。
指南改進：通過評估，開發人員可以確定LLM可能不足的特定領域。該反饋對於完善模型性能，調整訓練數據或修改算法以提高整體效率至關重要。
針對基準測試的衡量績效：評估LLMS針對已建立的基準測試，可以與其他模型和以前的版本進行比較。這種基準測試過程有助於我們了解模型的性能並確定改進領域。
確保道德和安全使用：它有一部分在確定LLM尊重道德原則和有關安全的標準的程度。它有助於確定偏見，不需要的內容以及可能導致對技術負責使用的任何其他因素受到損害。
支持現實世界的應用程序：出於這個原因，需要進行適當而徹底的評估才能了解LLM在實踐中的工作方式。這涉及評估他們在解決各種任務，在不同情況下運行的過程中的表現，並在現實世界中產生寶貴的結果。

評估LLM的挑戰

評估指標的主觀性：許多評估指標，例如人類對相關性或連貫性的判斷，都可以是主觀的。這種主觀性使得始終如一地評估模型性能並可能導致結果可變性。
難以衡量細微的理解：評估LLM理解複雜或細微的查詢的能力本質上是困難的。當前的指標可能無法完全捕獲高質量產出所需的理解深度，從而導致不完整的評估。
可伸縮性問題：隨著這些結構擴展並變得更加複雜，評估LLM的越來越昂貴。同樣重要的是要注意，全面的評估很耗時，需要大量的計算能力，以阻礙測試過程。
偏見和公平問題：評估LLM的偏見和公平性並不容易，因為偏見可以採取不同的形狀和形式。為了確保在不同的人口統計和情況下的準確性保持一致，嚴格且精緻的評估方法至關重要。
語言的動態性質：語言正在不斷發展，構成準確或相關信息的內容可能會隨著時間而變化。鑑於模型的動態性質，評估者不僅必須評估LLMS的當前表現，而且還必須評估其對不斷發展的語言趨勢的適應性。

LLM的產出的生成約束

受限的生成涉及指導LLM以產生符合特定約束或規則的輸出。當需要精確和遵守特定格式時，這種方法至關重要。例如，在法律文檔或正式報告等應用程序中，生成的文本遵循嚴格的指南和結構至關重要。

您可以通過預先定義輸出模板，設置內容邊界或使用及時工程來指導LLM的響應來實現約束生成。通過應用這些限制，開發人員可以確保LLM的產出不僅相關，而且還符合所需的標準，從而減少了無關緊要或非主題響應的可能性。

降低溫度的結構化輸出

LLMS中的溫度參數控制生成的文本中的隨機性水平。降低溫度會導致更可預測和結構化的輸出。當將溫度設置為較低的值（例如0.1至0.3）時，模型的響應產生變得更加確定性，有利於更高的概率單詞和短語。這導致輸出更相干，並與預期格式保持一致。

對於一致性和精度至關重要的應用，例如數據摘要或技術文檔，降低溫度可確保響應變化較小且結構更大。相反，更高的溫度引入了更多的可變性和創造力，這在需要嚴格遵守格式和清晰度的上下文中可能不太理想。

LLM的思想推理鏈

思想推理鍊是一種鼓勵LLM通過遵循類似人類推理過程的步驟序列來產生輸出的技術。該方法涉及將復雜的問題分解為較小，可管理的組件，並闡明每個步驟背後的思考過程。

通過採用思想推理鏈，LLMS可以產生更全面和良好的響應，這對於涉及解決問題或詳細說明的任務特別有用。這種方法不僅可以提高生成的文本的清晰度，而且通過提供模型推理過程的透明視圖來幫助驗證響應的準確性。

在Openai vs Llama上致電的功能

函數調用功能在OpenAI的模型和Meta的Llama模型之間有所不同。 OpenAI的模型（例如GPT-4）通過其API提供高級功能調用功能，從而與外部功能或服務集成。此功能使模型能夠執行僅僅文本生成以外的任務，例如執行命令或查詢數據庫。

另一方面，來自Meta的Llama模型具有自己的一套功能調用機制，在實現和範圍上可能有所不同。儘管兩種類型的模型都支持調用功能，但其集成，性能和功能的細節可能會有所不同。了解這些差異對於為需要與外部系統或基於專門功能的操作進行複雜相互作用的應用程序選擇適當的模型至關重要。

為您的申請找到LLM

為您的應用程序選擇正確的大型語言模型（LLM）需要評估其功能，可伸縮性以及它如何滿足您的特定數據和集成需求。

最好在不同系列中參考各種大型語言模型（LLM）的性能基準，例如Baichuan，Chatglm，DeepSeek和InternLM2。這裡。根據上下文長度和針數評估其性能。這有助於了解哪些LLM可以選擇某些任務。

用結構化輸出和功能調用增強LLM

為您的應用選擇正確的大型語言模型（LLM）涉及評估模型功能，數據處理要求和集成潛力等因素。考慮諸如模型的大小，微調選項以及對專業功能的支持之類的方面。將這些屬性匹配到應用程序的需求將有助於您選擇一個LLM，該LLM提供最佳性能並與您的特定用例保持一致。

LMSYS Chatbot Arena排行榜是一個通過人類成對比較來對大型語言模型（LLM）進行排名的眾包平台。它使用Bradley-Terry模型來評估各種類別的績效，以基於投票的方式顯示模型排名。

用結構化輸出和功能調用增強LLM

結論

總而言之，LLM正在隨著功能調用和檢索功能增強發電（RAG）等進步而發展。這些通過添加結構化輸出和實時數據檢索來提高它們的能力。儘管LLM具有很大的潛力，但它們在準確性和實時更新方面的局限性突出了進一步完善的需求。諸如受限生成，降低溫度和思想推理鏈之類的技術有助於提高其產出的可靠性和相關性。這些進步旨在使LLM在各種應用中更有效和準確。

了解OpenAI和Llama模型中的函數之間的差異有助於為特定任務選擇合適的工具。隨著LLM技術的發展，應對這些挑戰並使用這些技術將是提高其在不同領域的性能的關鍵。利用這些區別將優化它們在各種應用中的有效性。