首页 >科技周边 >人工智能 >ICML 2024 Oral | DPO是否比PPO更适合LLM，清华吴翼团队最新揭秘

ICML 2024 Oral | DPO是否比PPO更适合LLM，清华吴翼团队最新揭秘

王林原创: 2024-07-22 18:41:23339浏览

ICML 2024 Oral | DPO是否比PPO更适合LLM，清华吴翼团队最新揭秘

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail für die Einreichung: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Wu Yi, Assistenzprofessor am Institut für interdisziplinäre Information der Tsinghua-Universität, ehemaliger Vollzeitforscher bei OpenAI, Forschungsgebiete umfassen Reinforcement Learning , große Modellausrichtung, Mensch-Computer-Interaktion, Roboterlernen usw. Erlangte 2019 einen Doktortitel an der University of California, Berkeley, und schloss 2014 sein Studium am Institute of Interdisciplinary Information (Yao-Klasse) der Tsinghua University ab. Zu seinen repräsentativen Arbeiten gehören: NIPS2016 Best Paper, Value Iteration Network; das am häufigsten zitierte Paper im Bereich Multi-Agent Deep Reinforcement Learning, MADDPG-Algorithmus usw.

Wie kann man große Modelle dazu bringen, menschliche Anweisungen und Absichten besser zu befolgen? Wie kann man großen Modellen bessere Argumentationsfähigkeiten verleihen? Wie vermeide ich Halluzinationen bei großen Modellen? Ob diese Probleme gelöst werden können, ist die wichtigste technische Herausforderung, um große Modelle wirklich allgemein verfügbar zu machen und sogar Superintelligenz zu erreichen. Diese schwierigsten Herausforderungen bilden auch den langfristigen Forschungsschwerpunkt des Teams von Wu Yi und sind Probleme, die durch die Ausrichtungstechnologie für große Modelle (Alignment) bewältigt werden müssen.

In der Alignment-Technologie ist das verstärkende Lernen basierend auf menschlichem Feedback (RLHF, Reinforcement Learning from Human Feedback) das wichtigste Algorithmus-Framework. RLHF lernt eine Belohnungsfunktion (Belohnungsmodell) basierend auf menschlichem Feedback basierend auf menschlichem Präferenz-Feedback für die Ausgabe des großen Modells und führt außerdem ein Verstärkungslerntraining für das große Modell durch, damit das große Modell lernen kann, die Qualität der Antworten zu unterscheiden in wiederholten Iterationen und erzielen Sie verbesserte Modellfunktionen. Derzeit legen die weltweit leistungsstärksten Sprachmodelle, wie das GPT-Modell von OpenAI und das Claude-Modell von Anthropic, großen Wert auf die Bedeutung des RLHF-Trainings. OpenAI und Anthropic haben außerdem intern RLHF-Trainingssysteme entwickelt, die auf groß angelegten PPO-Algorithmen für die Ausrichtung großer Modelle basieren.

Aufgrund des komplexen Prozesses des PPO-Algorithmus und des hohen Rechenleistungsverbrauchs war das groß angelegte RLHF-Trainingssystem des amerikanischen KI-Unternehmens jedoch nie Open Source, obwohl der PPO-Algorithmus sehr hoch ist Leistungsstark, die Alignment-Arbeit in der Wissenschaft hat selten komplexe Methoden verwendet. Der PPO-Algorithmus wird für die RLHF-Forschung verwendet, und Alignment-Algorithmen wie SFT (Supervised Fine-Tuning) oder DPO (Direct Policy Optimization) werden im Allgemeinen einfacher und direkter verwendet und stellen geringere Anforderungen an das Ausbildungssystem.

Funktioniert also ein einfacher Ausrichtungsalgorithmus definitiv besser? In der von Wu Yis Team auf der ICML 2024 veröffentlichten Arbeit „Ist DPO PPO für die LLM-Ausrichtung überlegen? Eine umfassende Studie“ wurden die Eigenschaften der DPO- und PPO-Algorithmen sorgfältig erörtert und die wichtigsten Punkte zur Verbesserung der Wirkung des RLHF-Algorithmus aufgezeigt. In dieser Arbeit, die auf dem selbst entwickelten groß angelegten RLHF-Trainingssystem basiert, verwendete das Team von Wu Yi zum ersten Mal den PPO-Algorithmus und ein Open-Source-Modell mit weniger Parametern und übertraf damit die Closed-Source-Aufgabe zur groß angelegten Codegenerierung CodeContest in Die anerkannteste Herausforderung ist das Modell AlphaCode 41B.