> OpenAI的偏好微调(PFT):将LLM与用户首选项对齐的指南
>偏好微调(PFT)是将大型语言模型(LLMS)与用户偏好对齐的强大技术。 PFT最近由OpenAI引入,补充了监督的微调(SFT)和增强微调(RFT),作为塑造模型输出的方法。本文提供了PFT的简明说明,并使用OpenAI的开发人员仪表板进行了证明其应用程序。
了解OpenAi的Pft
与SFT不同,>专注于为给定输入生成特定输出,PFT的目的是指导模型在避免不良响应的同时避免不良响应。 直接优先优化(DPO)是OpenAI PFT中的核心技术,是一种简单而有效的对准方法。 与RLHF不同,DPO绕开了奖励模型的复杂性,直接优化了损失函数。这简化了实施并提高了计算效率。
>> DPO数据集由每个提示符的配对响应组成:一个首选和一个未脱颖而出的响应。 对于OpenAI的PFT,此数据集必须采用JSONL格式,并具有以下结构:
的数据集准备
创建一个偏好数据集涉及生成一对LLM输出对(例如,使用不同的温度设置),然后使用另一个LLM(理想情况下是更强大的LLM)将每对标记为“首选”和“非偏爱”。本教程使用一种简化的方法:下载预先存在的偏好数据集(例如,从拥抱面中),并使用python脚本来重组前50行。 该脚本将数据集转换为OpenAI的PFT所需的JSONL格式。
记住要确保您的最终数据集以JSONL格式使用并删除任何尾随的空线。
>运行OpenAi的Pft
argilla/ultrafeedback-binarized-preferences
一旦您的数据集准备就绪:
# ... (Python code to process and convert the Hugging Face dataset to OpenAI's JSONL format is omitted for brevity but described in the original article) ...
访问OpenAi仪表板。
>导航到微调部分并启动新的微调作业。
>选择“直接偏好优化”作为微调方法。
>上传您准备好的培训和验证数据集(如果有)。。
以上是Openai的偏好微调:指南带有示例的指南的详细内容。更多信息请关注PHP中文网其他相关文章!