Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Wu Yi, penolong profesor di Institut Maklumat Antara Disiplin, Universiti Tsinghua, bekas penyelidik penyelidikan sepenuh masa di OpenAI, , penjajaran model besar, interaksi Komputer manusia, pembelajaran robot, dsb. Mendapat PhD dari University of California, Berkeley, pada 2019, belajar di bawah Profesor Stuart Russell lulus dari Institut Maklumat Antara Disiplin Universiti Tsinghua (Kelas Yao) pada 2014. Kerja-kerja wakilnya termasuk: Kertas kerja terbaik NIPS2016, Rangkaian Lelaran Nilai yang paling banyak dipetik dalam bidang pembelajaran tetulang dalam pelbagai ejen, algoritma MADDPG OpenAI, dsb. Bagaimana untuk menjadikan model besar lebih mematuhi arahan dan niat manusia? Bagaimana untuk menjadikan model besar mempunyai keupayaan penaakulan yang lebih baik? Bagaimana untuk mengelakkan halusinasi dalam model besar? Sama ada masalah ini boleh diselesaikan ialah cabaran teknikal yang paling kritikal untuk menjadikan model besar benar-benar tersedia secara meluas dan juga mencapai kecerdasan super. Cabaran paling sukar ini juga merupakan tumpuan penyelidikan jangka panjang pasukan Wu Yi, dan merupakan masalah yang perlu diatasi oleh teknologi penjajaran model besar (Penjajaran). Dalam teknologi penjajaran, rangka kerja algoritma yang paling penting ialah pembelajaran pengukuhan berdasarkan maklum balas manusia (RLHF, Pembelajaran Pengukuhan daripada Maklum Balas Manusia). RLHF mempelajari fungsi ganjaran (Model Ganjaran) berdasarkan maklum balas manusia berdasarkan maklum balas keutamaan manusia untuk output model besar, dan seterusnya melaksanakan latihan pembelajaran pengukuhan pada model besar, supaya model besar boleh belajar membezakan kualiti respons dalam lelaran berulang, dan mencapai keupayaan model yang Diperbaiki. Pada masa ini, model bahasa yang paling berkuasa di dunia, seperti model GPT OpenAI dan model Claude Anthropic, sangat menekankan kepentingan latihan RLHF. OpenAI dan Anthropic juga telah membangunkan sistem latihan RLHF secara dalaman berdasarkan algoritma PPO berskala besar untuk penjajaran model besar. Walau bagaimanapun, disebabkan proses kompleks algoritma PPO dan penggunaan kuasa pengkomputeran yang tinggi, sistem latihan RLHF berskala besar syarikat AI Amerika tidak pernah menjadi sumber terbuka, walaupun algoritma PPO sangat kuat, kerja penjajaran dalam akademia jarang menggunakan kaedah yang rumit Algoritma PPO digunakan untuk penyelidikan RLHF, dan algoritma penjajaran seperti SFT (penalaan halus diselia) atau DPO (Pengoptimuman Dasar Langsung) biasanya digunakan yang lebih mudah, lebih langsung. , dan mempunyai keperluan yang lebih rendah pada sistem latihan. Jadi, adakah algoritma penjajaran mudah pasti berfungsi dengan lebih baik? Kerja "Adakah DPO Unggul daripada PPO untuk Penjajaran LLM? Kajian Komprehensif" yang diterbitkan oleh pasukan Wu Yi di ICML 2024 dengan teliti membincangkan ciri-ciri algoritma DPO dan PPO dan menunjukkan perkara utama untuk meningkatkan kesan algoritma RLHF. Dalam kerja ini, berdasarkan sistem latihan RLHF berskala besar yang dibangunkan sendiri, pasukan Wu Yi menggunakan algoritma PPO dan model sumber terbuka dengan parameter yang lebih sedikit untuk kali pertama, mengatasi tugas penjanaan kod skala besar sumber tertutup CodeContest dalam cabaran paling sukar yang diiktiraf.
Keputusan yang berkaitan telah diterima sebagai Persembahan Lisan oleh ICML 2024, dan akan dilaporkan secara terbuka pada sesi Lisan pertama Penjajaran-1 ICML 2024 pada 23 Julai, bersama-sama dengan kerja institusi terkenal seperti OpenAI dan Antropik.
Seterusnya, mari kita bandingkan kesan penjanaan kod GPT-4 dan model CodeLlama 34B yang dilatih oleh algoritma PPO Dalam Contoh 1, model CodeLlama 34B yang dilatih oleh algoritma PPO dan model GPT-4 dijana. Kod kualiti setanding.
Dalam Contoh 2, anda dapat melihat bahawa kedua-dua model CodeLlama 34B dan model GPT-4 yang dilatih oleh algoritma PPO boleh menjana kod python yang lengkap dan boleh dijalankan. Walau bagaimanapun, dalam contoh ini, GPT-4 menghasilkan kod yang salah dan gagal untuk mengeluarkan dengan betul pada data ujian. Kod yang dijana oleh model CodeLlama 34B yang dilatih oleh algoritma PPO boleh lulus ujian.
Dans cet article de l'ICML 2024, l'équipe de recherche a discuté en détail des caractéristiques des algorithmes DPO et PPO et a souligné les points clés pour améliorer les capacités du DPO et du PPO.
-
Titre de l'article : Le DPO est-il supérieur au PPO pour l'alignement LLM ? Algorithme DPO Limites
Par rapport au PPO, DPO utilise des données hors ligne au lieu de données d'échantillonnage en ligne pour la formation. Après analyse, l'algorithme DPO amènera le modèle entraîné à privilégier les sorties en dehors de la distribution des données d'entraînement et, dans certains cas, produira des réponses imprévisibles.
Ainsi, afin d'améliorer les capacités de l'algorithme DPO, l'équipe de recherche a résumé deux technologies clés : Effectuer une formation SFT supplémentaire avant la formation RLHF et utiliser des données d'échantillonnage en ligne au lieu de données hors ligne.
Les expériences montrent que l'utilisation d'une formation SFT supplémentaire peut rendre le modèle de base et le modèle de référence plus biaisés en faveur de la distribution au sein de l'ensemble de données, améliorant considérablement l'effet de l'algorithme DPO, d'autre part, de l'algorithme DPO utilisant l'échantillonnage en ligne ; les données pour la formation itérative peuvent Il a été régulièrement amélioré et ses performances sont bien meilleures que l'algorithme DPO de base.
Les points clés de l'algorithme PPO
À l'exclusion du DPO, le document résume également trois points clés pour maximiser les capacités du PPO :
Utiliser un lot de grande taille (grand taille du lot)
et mettre à jour le modèle de référence en utilisant la moyenne mobile exponentielle (moyenne mobile exponentielle pour le modèle de référence).
- L'équipe de recherche a utilisé avec succès l'algorithme PPO pour obtenir des résultats SOTA sur les tâches de dialogue Safe-RLHF/HH-RLHF et la tâche de génération de code APPS/CodeContest.
-
Sur la tâche de dialogue, l'équipe de recherche a constaté que l'algorithme PPO qui combine trois points clés est nettement meilleur que l'algorithme DPO et l'algorithme DPO d'échantillonnage en ligne DPO-Iter.
Dans les tâches de génération de code APPS et CodeContest, basées sur le modèle open source Code Llama 34B, l'algorithme PPO a également atteint le niveau le plus élevé, dépassant le précédent SOTA, AlphaCode 41B dans CodeContest.
Pour obtenir un alignement de modèles à grande échelle avec de meilleurs résultats, un système de formation très efficace est indispensable. L'équipe de Wu Yi s'est accumulée à long terme dans la réalisation d'une formation d'apprentissage par renforcement à grande échelle et a construit depuis 2021 un cadre d'apprentissage par renforcement distribué exclusif. .
- NeurIPS 2022 L'efficacité surprenante du PPO dans les jeux multi-agents coopératifs [1] : Proposition et open source du cadre de formation parallèle d'apprentissage par renforcement MAPPO pour multi-agent pour prendre en charge la formation multi-agent dans des scénarios coopératifs. a été utilisé dans un grand nombre de travaux dans le domaine multi-agents, et le nombre actuel de citations dans les articles a dépassé 1 000.
- ICLR 2024 étend l'apprentissage par renforcement distribué à plus de dix mille cœurs [2] : proposition d'un cadre de formation distribué pour l'apprentissage par renforcement, qui peut être facilement étendu à des dizaines de milliers de cœurs, et le taux d'accélération dépasse le renforcement à grande échelle d'OpenAI système d'apprentissage rapide.
- ReaLHF : Formation RLHF optimisée pour les grands modèles de langage grâce à la réaffectation des paramètres [3] : Récemment, l'équipe de Wu Yi a mis en œuvre le cadre de formation distribué RLHF ReaLHF. L'article oral ICML de l'équipe de Wu Yi a été produit sur la base du système ReaLHF. Le système ReaLHF a été développé depuis longtemps et a subi de nombreux détails pour obtenir des performances optimales. Par rapport aux travaux open source précédents, ReaLHF peut atteindre une évolutivité quasi linéaire dans RLHF, un scénario plus complexe que la pré-formation. Il utilise également plus de ressources et peut exécuter RLHF de manière stable et rapide sur 128 GPU A100. est open source : https://github.com/openpsi-project/ReaLHF
En plus d'améliorer les capacités de codage des grands modèles de langage, l'équipe de Wu Yi utilise également une variété d'algorithmes d'apprentissage par renforcement et de grands La combinaison de modèles réalise une variété d'agents LLM complexes et peut réaliser des interactions complexes avec les humains. Utilisez l'apprentissage par renforcement dans MiniRTS pour créer un agent linguistique capable à la fois de suivre les instructions humaines et de prendre des décisions optimales [4].
Formez des stratégies d'apprentissage par renforcement diversifiées en stratégie dans Werewolf pour améliorer les capacités de prise de décision des grands modèles [5].
Dans le jeu Overcooked, des petits modèles et des grands modèles sont combinés pour implémenter un agent linguistique coopératif qui peut fournir des commentaires en temps réel [6].
La combinaison de la stratégie de contrôle du robot entraînée par l'apprentissage par renforcement et des capacités de raisonnement du grand modèle de langage permet au robot d'effectuer une série de tâches complexes [7].
Pour que les grands modèles pénètrent véritablement dans des milliers de foyers, la technologie d'alignement est cruciale Pour les universitaires et les praticiens des grands modèles, de bons travaux et articles open source réduiront sans aucun doute considérablement les coûts expérimentaux et les difficultés de développement, nous nous attendons également à ce qu'avec. Avec le développement de la technologie, des modèles plus grands au service des êtres humains apparaîtront. [1] Yu, Chao, Akash Velu, Eugene Vinitsky, Jiaxuan Gao, Yu Wang, Alexandre Bayen et Yi Wu "L'efficacité surprenante du ppo dans les jeux multi-agents coopératifs.".
[2] Mei, Zhiyu, Wei Fu, Guangju Wang, Huanchen Zhang et Yi Wu "SRL : étendre l'apprentissage par renforcement distribué à plus de dix mille cœurs."[3] Mei, Zhiyu, Wei Fu, Kaiwei Li, Guangju Wang, Huanchen Zhang et Yi Wu. "ReaLHF : formation RLHF optimisée pour les grands modèles de langage grâce à la réaffectation des paramètres."[4] Xu, Shusheng, Huaijie Wang, Jiaxuan Gao, Yutao Ouyang, Chao Yu et Yi Wu. "Génération guidée par le langage de mouvements et de contrôles de robots physiquement réalistes."[5] Xu, Zelai, Chao Yu, Fei Fang, Yu Wang et Yi Wu. "Agents linguistiques avec apprentissage par renforcement pour le jeu stratégique dans le jeu du loup-garou."[6] Liu, Jijia, Chao Yu, Jiaxuan Gao, Yuqing Xie, Qingmin Liao, Yi Wu et Yu Wang "Llm-. agent linguistique hiérarchique optimisé pour la coordination homme-IA en temps réel. Locomotion et manipulation sur un robot quadrupède à grands modèles de langage."Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!
Déclaration:Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn