首页 >科技周边 >人工智能 >Openai的偏好微调：指南带有示例的指南

Openai的偏好微调：指南带有示例的指南

Joseph Gordon-Levitt原创: 2025-03-02 09:02:11427浏览

> OpenAI的偏好微调（PFT）：将LLM与用户首选项对齐的指南

>偏好微调（PFT）是将大型语言模型（LLMS）与用户偏好对齐的强大技术。 PFT最近由OpenAI引入，补充了监督的微调（SFT）和增强微调（RFT），作为塑造模型输出的方法。本文提供了PFT的简明说明，并使用OpenAI的开发人员仪表板进行了证明其应用程序。

了解OpenAi的Pft

与SFT不同，

>专注于为给定输入生成特定输出，PFT的目的是指导模型在避免不良响应的同时避免不良响应。直接优先优化（DPO）是OpenAI PFT中的核心技术，是一种简单而有效的对准方法。与RLHF不同，DPO绕开了奖励模型的复杂性，直接优化了损失函数。这简化了实施并提高了计算效率。

> DPO数据集由每个提示符的配对响应组成：一个首选和一个未脱颖而出的响应。对于OpenAI的PFT，此数据集必须采用JSONL格式，并具有以下结构：>

{ "input": { "messages": [ { "role": "user", "content": "Prompt text here" } ], "tools": [], "parallel_tool_calls": true }, "preferred_output": [ { "role": "assistant", "content": "Preferred response here" } ], "non_preferred_output": [ { "role": "assistant", "content": "Non-preferred response here" } ] }> pft

的数据集准备

创建一个偏好数据集涉及生成一对LLM输出对（例如，使用不同的温度设置），然后使用另一个LLM（理想情况下是更强大的LLM）将每对标记为“首选”和“非偏爱”。

本教程使用一种简化的方法：下载预先存在的偏好数据集（例如，从拥抱面中），并使用python脚本来重组前50行。该脚本将数据集转换为OpenAI的PFT所需的JSONL格式。

记住要确保您的最终数据集以JSONL格式使用并删除任何尾随的空线。

>运行OpenAi的Pft

argilla/ultrafeedback-binarized-preferences一旦您的数据集准备就绪：

# ... (Python code to process and convert the Hugging Face dataset to OpenAI's JSONL format is omitted for brevity but described in the original article) ...

访问OpenAi仪表板。

>导航到微调部分并启动新的微调作业。

选择“直接偏好优化”作为微调方法。

>上传您准备好的培训和验证数据集（如果有）。

OpenAI允许自定义超参数；但是，您可以让系统自动确定最佳设置。培训时间取决于数据集大小。

结论

使用DPO的OpenAI的PFT提供了一种有价值的工具，用于完善LLM行为并将其与用户偏好保持一致。通过仔细以指定的JSONL格式准备数据集，您可以利用OpenAI的基础架构来实现更量身定制和理想的模型响应样式。原始文章的链接中提供了OpenAI的微调方法（包括SFT和RFT）的更多资源。

。

以上是Openai的偏好微调：指南带有示例的指南的详细内容。更多信息请关注PHP中文网其他相关文章！

Python if for while select format using function this prompt Access Prompt

声明：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Llama 3.2 90B Tutorial: Image Captioning App With Streamlit & Groq下一篇：Late Chunking for RAG: Implementation With Jina AI

查看更多