首頁 >科技週邊 >人工智慧 >重新檢視Prompt最佳化問題,預測偏差讓語言模型情境學習更強

重新檢視Prompt最佳化問題,預測偏差讓語言模型情境學習更強

王林
王林轉載
2023-04-04 11:40:011356瀏覽

LLMs 在 In-context Learning 下取得了良好的表現,但是選取不同的範例會導致截然不同的表現。一項最新的研究工作從預測偏差 (predictive bias) 角度,提出了 prompt 搜尋策略,近似找到了最優的範例組合。

重新檢視Prompt最佳化問題,預測偏差讓語言模型情境學習更強

  • 論文連結: https://arxiv.org/abs/2303.13217
  • 程式碼連結: https://github.com/MaHuanAAA /g_fair_searching

研究介紹

大型語言模型在上下文學習中表現出了驚人的能力,這些模型可以透過幾個輸入輸出範例建立的上下文進行學習,而無需微調優化直接應用於許多下游任務。然而,先前的研究表明,由於訓練樣本 (training examples)、範例順序 (example order) 和提示格式 (prompt formats) 的變化,上下文學習可能會表現出高度的不穩定性。因此,建立適當的 prompt 對於提高上下文學習的表現至關重要。

先前的研究通常從兩個方向研究這個問題:(1)編碼空間中的提示調整 (prompt tuning),(2)在原始空間中進行搜尋 (prompt searching)。

Prompt tuning 的關鍵思想是將任務特定的 embedding 注入隱藏層,然後使用基於梯度的最佳化來調整這些 embeddings。然而,這些方法需要修改模型的原始推理過程並且獲得模型梯度,這在像 GPT-3 和 ChatGPT 這樣的黑盒 LLM 服務中是不切實際的。此外,提示調整會引入額外的運算和儲存成本,這對於 LLM 通常是昂貴的。

更可行且有效率的方法是透過在原始文字空間中搜尋近似的演示樣本和順序來最佳化提示。一些工作從 “Global view” 或 “Local view” 建立提示。基於 Global view 的方法通常會將提示的不同元素作為整體進行最佳化,以達到更優異的效能。例如,Diversity-guided [1] 的方法利用演示的整體多樣性的搜索,或試圖優化整個範例組合順序 [2],以實現更好的效能。與 Global view 相反,基於 Local view 的方法透過設計不同的啟發式選擇標準,例如 KATE [3]。

但這些方法都有各自的限制:(1)目前的大多數研究主要集中在沿著單一因素搜尋提示,例如範例選擇或順序。然而各個因素對性能的整體影響尚不清楚。 (2)這些方法通常是基於啟發式標準,需要一個統一的視角來解釋這些方法是如何運作的。 (3)更重要的是,現有的方法會全域或局部地最佳化提示,這可能會導致效能不理想。

本文從 「預測偏差」 的角度重新審視了 NLP 領域中的 prompt 最佳化問題,發現了一個關鍵現象:一個給定的 prompt 的品質取決於它的內在偏差。基於這個現象,文章提出了一個基於預測偏差的替代標準來評估 prompt 的質量,該度量方法能夠在不需要額外開發集 (development set) 的情況下通過單個前向過程來評估 prompt。

具體來說,透過在一個給定的prompt 下輸入一個「無內容」 的測試,期望模型輸出一個均勻的預測分佈(一個「無內容」 的輸入不包含任何有用的信息) 。因此,文中利用預測分佈的均勻性來表示給定 prompt 的預測偏差。這與先前的後校準方法 [4] 用的指標類似,但與後校準在固定的 prompt 情況下使用這個 metric 進行機率後校準不同的是,文中進一步探索了其在自動搜尋近似 prompt 中的應用。並且透過大量實驗證實了一個給定 prompt 的內在偏差和它在給定測試集上的平均任務表現之間的相關性。

重新檢視Prompt最佳化問題,預測偏差讓語言模型情境學習更強

此外,這種基於偏差的度量使該方法能夠以 “局部到全局” 的方式搜尋合適的 prompt。然而,一個現實的問題是無法透過遍歷所有組合的方式搜尋最優解,因為它的複雜度將超過 O (N!)。

该工作提出了两种新颖的策略以高效的方式搜索高质量的 prompt:(1) T-fair-Prompting (2) G-fair-Prompting。T-fair-Prompting 使用一种直观的方式,首先计算每个示例单独组成 prompt 的偏差,然后选择 Top-k 个最公平示例组合成最终 prompt。这个策略相当高效,复杂度为 O (N)。但需要注意的是,T-fair-Prompting 基于这样的假设:最优的 prompt 通常是由偏差最小的示例构建的。然而,这在实际情况下可能并不成立,并且往往会导致局部最优解。因此,文章中进一步介绍了 G-fair-Prompting 来改善搜索质量。G-fair-Prompting 遵循贪心搜索的常规过程,通过在每个步骤上进行局部最优选择来找到最优解。在算法的每一步,所选择的示例都能使更新的 prompt 获得最佳的公平性,最坏情况时间复杂度为 O (N^2),搜索质量显著提高。G-fair-Prompting 从局部到全局的角度进行工作,其中在早期阶段考虑单个样本的偏差,而在后期阶段则侧重于减少全局预测偏差。

实验结果

该研究提出了一种有效和可解释的方法来提高语言模型的上下文学习性能,这种方法可以应用于各种下游任务。文章验证了这两种策略在各种 LLMs(包括 GPT 系列模型和最近发布的 LMaMA 系列)上的有效性,G-fair-Prompting 与 SOTA 方法相比,在不同的下游任务上获得了超过 10%的相对改进。

重新檢視Prompt最佳化問題,預測偏差讓語言模型情境學習更強

与该研究最相近的是 Calibration-before-use [4] 方法,两者都使用 “无内容” 的输入提高模型的表现。但是,Calibration-before-use 方法旨在使用该标准来校准输出,而该输出仍然容易受到所使用示例的质量的影响。与之相比,本文旨在搜索原始空间找到近似最优的 prompt,以提高模型的性能,而不需要对模型输出进行任何后处理。此外,该文首次通过大量实验验证了预测偏差与最终任务性能之间的联系,这在 Calibration-before-use 方法中尚未研究。

重新檢視Prompt最佳化問題,預測偏差讓語言模型情境學習更強

通过实验还能发现,即使不进行校准,该文章所提方法选择的 prompt 也可以优于经过校准的随机选择的 prompt。这表明该方法可以在实际应用中具有实用性和有效性,可以为未来的自然语言处理研究提供启示。

以上是重新檢視Prompt最佳化問題,預測偏差讓語言模型情境學習更強的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除