搜尋
首頁科技週邊人工智慧重新檢視Prompt最佳化問題,預測偏差讓語言模型情境學習更強

LLMs 在 In-context Learning 下取得了良好的表現,但是選取不同的範例會導致截然不同的表現。一項最新的研究工作從預測偏差 (predictive bias) 角度,提出了 prompt 搜尋策略,近似找到了最優的範例組合。

重新檢視Prompt最佳化問題,預測偏差讓語言模型情境學習更強

  • 論文連結: https://arxiv.org/abs/2303.13217
  • 程式碼連結: https://github.com/MaHuanAAA /g_fair_searching

研究介紹

大型語言模型在上下文學習中表現出了驚人的能力,這些模型可以透過幾個輸入輸出範例建立的上下文進行學習,而無需微調優化直接應用於許多下游任務。然而,先前的研究表明,由於訓練樣本 (training examples)、範例順序 (example order) 和提示格式 (prompt formats) 的變化,上下文學習可能會表現出高度的不穩定性。因此,建立適當的 prompt 對於提高上下文學習的表現至關重要。

先前的研究通常從兩個方向研究這個問題:(1)編碼空間中的提示調整 (prompt tuning),(2)在原始空間中進行搜尋 (prompt searching)。

Prompt tuning 的關鍵思想是將任務特定的 embedding 注入隱藏層,然後使用基於梯度的最佳化來調整這些 embeddings。然而,這些方法需要修改模型的原始推理過程並且獲得模型梯度,這在像 GPT-3 和 ChatGPT 這樣的黑盒 LLM 服務中是不切實際的。此外,提示調整會引入額外的運算和儲存成本,這對於 LLM 通常是昂貴的。

更可行且有效率的方法是透過在原始文字空間中搜尋近似的演示樣本和順序來最佳化提示。一些工作從 “Global view” 或 “Local view” 建立提示。基於 Global view 的方法通常會將提示的不同元素作為整體進行最佳化,以達到更優異的效能。例如,Diversity-guided [1] 的方法利用演示的整體多樣性的搜索,或試圖優化整個範例組合順序 [2],以實現更好的效能。與 Global view 相反,基於 Local view 的方法透過設計不同的啟發式選擇標準,例如 KATE [3]。

但這些方法都有各自的限制:(1)目前的大多數研究主要集中在沿著單一因素搜尋提示,例如範例選擇或順序。然而各個因素對性能的整體影響尚不清楚。 (2)這些方法通常是基於啟發式標準,需要一個統一的視角來解釋這些方法是如何運作的。 (3)更重要的是,現有的方法會全域或局部地最佳化提示,這可能會導致效能不理想。

本文從 「預測偏差」 的角度重新審視了 NLP 領域中的 prompt 最佳化問題,發現了一個關鍵現象:一個給定的 prompt 的品質取決於它的內在偏差。基於這個現象,文章提出了一個基於預測偏差的替代標準來評估 prompt 的質量,該度量方法能夠在不需要額外開發集 (development set) 的情況下通過單個前向過程來評估 prompt。

具體來說,透過在一個給定的prompt 下輸入一個「無內容」 的測試,期望模型輸出一個均勻的預測分佈(一個「無內容」 的輸入不包含任何有用的信息) 。因此,文中利用預測分佈的均勻性來表示給定 prompt 的預測偏差。這與先前的後校準方法 [4] 用的指標類似,但與後校準在固定的 prompt 情況下使用這個 metric 進行機率後校準不同的是,文中進一步探索了其在自動搜尋近似 prompt 中的應用。並且透過大量實驗證實了一個給定 prompt 的內在偏差和它在給定測試集上的平均任務表現之間的相關性。

重新檢視Prompt最佳化問題,預測偏差讓語言模型情境學習更強

此外,這種基於偏差的度量使該方法能夠以 “局部到全局” 的方式搜尋合適的 prompt。然而,一個現實的問題是無法透過遍歷所有組合的方式搜尋最優解,因為它的複雜度將超過 O (N!)。

该工作提出了两种新颖的策略以高效的方式搜索高质量的 prompt:(1) T-fair-Prompting (2) G-fair-Prompting。T-fair-Prompting 使用一种直观的方式,首先计算每个示例单独组成 prompt 的偏差,然后选择 Top-k 个最公平示例组合成最终 prompt。这个策略相当高效,复杂度为 O (N)。但需要注意的是,T-fair-Prompting 基于这样的假设:最优的 prompt 通常是由偏差最小的示例构建的。然而,这在实际情况下可能并不成立,并且往往会导致局部最优解。因此,文章中进一步介绍了 G-fair-Prompting 来改善搜索质量。G-fair-Prompting 遵循贪心搜索的常规过程,通过在每个步骤上进行局部最优选择来找到最优解。在算法的每一步,所选择的示例都能使更新的 prompt 获得最佳的公平性,最坏情况时间复杂度为 O (N^2),搜索质量显著提高。G-fair-Prompting 从局部到全局的角度进行工作,其中在早期阶段考虑单个样本的偏差,而在后期阶段则侧重于减少全局预测偏差。

实验结果

该研究提出了一种有效和可解释的方法来提高语言模型的上下文学习性能,这种方法可以应用于各种下游任务。文章验证了这两种策略在各种 LLMs(包括 GPT 系列模型和最近发布的 LMaMA 系列)上的有效性,G-fair-Prompting 与 SOTA 方法相比,在不同的下游任务上获得了超过 10%的相对改进。

重新檢視Prompt最佳化問題,預測偏差讓語言模型情境學習更強

与该研究最相近的是 Calibration-before-use [4] 方法,两者都使用 “无内容” 的输入提高模型的表现。但是,Calibration-before-use 方法旨在使用该标准来校准输出,而该输出仍然容易受到所使用示例的质量的影响。与之相比,本文旨在搜索原始空间找到近似最优的 prompt,以提高模型的性能,而不需要对模型输出进行任何后处理。此外,该文首次通过大量实验验证了预测偏差与最终任务性能之间的联系,这在 Calibration-before-use 方法中尚未研究。

重新檢視Prompt最佳化問題,預測偏差讓語言模型情境學習更強

通过实验还能发现,即使不进行校准,该文章所提方法选择的 prompt 也可以优于经过校准的随机选择的 prompt。这表明该方法可以在实际应用中具有实用性和有效性,可以为未来的自然语言处理研究提供启示。

以上是重新檢視Prompt最佳化問題,預測偏差讓語言模型情境學習更強的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
微軟工作趨勢指數2025顯示工作場所容量應變微軟工作趨勢指數2025顯示工作場所容量應變Apr 24, 2025 am 11:19 AM

由於AI的快速整合而加劇了工作場所的迅速危機危機,要求戰略轉變以外的增量調整。 WTI的調查結果強調了這一點:68%的員工在工作量上掙扎,導致BUR

AI可以理解嗎?中國房間的論點說不,但是對嗎?AI可以理解嗎?中國房間的論點說不,但是對嗎?Apr 24, 2025 am 11:18 AM

約翰·塞爾(John Searle)的中國房間論點:對AI理解的挑戰 Searle的思想實驗直接質疑人工智能是否可以真正理解語言或具有真正意識。 想像一個人,對下巴一無所知

中國的'智能” AI助手回應微軟召回的隱私缺陷中國的'智能” AI助手回應微軟召回的隱私缺陷Apr 24, 2025 am 11:17 AM

與西方同行相比,中國的科技巨頭在AI開發方面的課程不同。 他們不專注於技術基準和API集成,而是優先考慮“屏幕感知” AI助手 - AI T

Docker將熟悉的容器工作流程帶到AI型號和MCP工具Docker將熟悉的容器工作流程帶到AI型號和MCP工具Apr 24, 2025 am 11:16 AM

MCP:賦能AI系統訪問外部工具 模型上下文協議(MCP)讓AI應用能夠通過標準化接口與外部工具和數據源交互。由Anthropic開發並得到主要AI提供商的支持,MCP允許語言模型和智能體發現可用工具並使用合適的參數調用它們。然而,實施MCP服務器存在一些挑戰,包括環境衝突、安全漏洞以及跨平台行為不一致。 Forbes文章《Anthropic的模型上下文協議是AI智能體發展的一大步》作者:Janakiram MSVDocker通過容器化解決了這些問題。基於Docker Hub基礎設施構建的Doc

使用6種AI街頭智能策略來建立一家十億美元的創業使用6種AI街頭智能策略來建立一家十億美元的創業Apr 24, 2025 am 11:15 AM

有遠見的企業家採用的六種策略,他們利用尖端技術和精明的商業敏銳度來創造高利潤的可擴展公司,同時保持控制。本指南是針對有抱負的企業家的,旨在建立一個

Google照片更新解鎖了您所有圖片的驚人Ultra HDRGoogle照片更新解鎖了您所有圖片的驚人Ultra HDRApr 24, 2025 am 11:14 AM

Google Photos的新型Ultra HDR工具:改變圖像增強的遊戲規則 Google Photos推出了一個功能強大的Ultra HDR轉換工具,將標準照片轉換為充滿活力的高動態範圍圖像。這種增強功能受益於攝影師

Descope建立AI代理集成的身份驗證框架Descope建立AI代理集成的身份驗證框架Apr 24, 2025 am 11:13 AM

技術架構解決了新興的身份驗證挑戰 代理身份集線器解決了許多組織僅在開始AI代理實施後發現的問題,即傳統身份驗證方法不是為機器設計的

Google Cloud Next 2025以及現代工作的未來Google Cloud Next 2025以及現代工作的未來Apr 24, 2025 am 11:12 AM

(注意:Google是我公司的諮詢客戶,Moor Insights&Strateging。) AI:從實驗到企業基金會 Google Cloud Next 2025展示了AI從實驗功能到企業技術的核心組成部分的演變,

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具