> OpenAI的偏好微調(PFT):將LLM與用戶首選項對齊的指南
>偏好微調(PFT)是將大型語言模型(LLMS)與用戶偏好對齊的強大技術。 PFT最近由OpenAI引入,補充了監督的微調(SFT)和增強微調(RFT),作為塑造模型輸出的方法。本文提供了PFT的簡明說明,並使用OpenAI的開發人員儀表板進行了證明其應用程序。
了解OpenAi的Pft
與SFT不同,>專注於為給定輸入生成特定輸出,PFT的目的是指導模型在避免不良響應的同時避免不良響應。 直接優先優化(DPO)是OpenAI PFT中的核心技術,是一種簡單而有效的對準方法。 與RLHF不同,DPO繞開了獎勵模型的複雜性,直接優化了損失函數。這簡化了實施並提高了計算效率。
>> DPO數據集由每個提示符的配對響應組成:一個首选和一個未脫穎而出的響應。 對於OpenAI的PFT,此數據集必須採用JSONL格式,並具有以下結構:
的數據集準備
創建一個偏好數據集涉及生成一對LLM輸出對(例如,使用不同的溫度設置),然後使用另一個LLM(理想情況下是更強大的LLM)將每對標記為“首選”和“非偏愛”。本教程使用一種簡化的方法:下載預先存在的偏好數據集(例如,從擁抱面中),並使用python腳本來重組前50行。 該腳本將數據集轉換為OpenAI的PFT所需的JSONL格式。
記住要確保您的最終數據集以JSONL格式使用並刪除任何尾隨的空線。
>運行OpenAi的Pft
argilla/ultrafeedback-binarized-preferences
一旦您的數據集準備就緒:
# ... (Python code to process and convert the Hugging Face dataset to OpenAI's JSONL format is omitted for brevity but described in the original article) ...
訪問OpenAi儀表板。
>導航到微調部分並啟動新的微調作業。
>選擇“直接偏好優化”作為微調方法。
>上傳您準備好的培訓和驗證數據集(如果有)。。
以上是Openai的偏好微調:指南帶有示例的指南的詳細內容。更多資訊請關注PHP中文網其他相關文章!