Heim > Artikel > Technologie-Peripheriegeräte > Lernen Sie schnell die wichtigsten technischen Punkte des InstructGPT-Papiers kennen: Folgen Sie Li Mu, um die Technologie hinter ChatGPT zu beherrschen
Nachdem ChatGPT populär wurde, stellen viele Studenten, die sich mit Technologie beschäftigen, eine Frage: Gibt es Lernmaterialien, die es uns ermöglichen, die Prinzipien von ChatGPT systematisch zu verstehen? Dieses Problem wird schwierig, da OpenAI kein Papier zu ChatGPT veröffentlicht hat.
Aus dem Blog von OpenAI über ChatGPT wissen wir jedoch, dass die von ChatGPT verwendete Methode dieselbe ist wie ihr Brudermodell InstructGPT, mit der Ausnahme, dass InstructGPT in GPT-3 enthalten ist , während ChatGPT auf GPT-3.5 basiert. Auch hinsichtlich der Datenerhebung gibt es einige Unterschiede zwischen den beiden.
Blog-Link: https://openai.com /blog/chatgpt/
InstructGPTs Artikel wurde im März 2022 veröffentlicht, aber OpenAI veröffentlichte bereits im Januar einen entsprechenden Blog (siehe „GPT -3 What Was tun, wenn Sie Unsinn reden? OpenAI: Wir haben es neu trainiert und die neue Version ist „gehorsamer“). Damals erwähnte OpenAI deutlich, dass InstructGPT die Reinforcement-Learning-Methode des menschlichen Feedbacks (RLHF) verwendet, um GPT-3 zu verfeinern, wodurch die Ausgabe des Modells besser mit den menschlichen Vorlieben übereinstimmt. Dies wurde im Training von ChatGPT fortgesetzt.
Papierlink: https://arxiv.org /pdf/2203.02155.pdf
Darüber hinaus gibt es viele Ähnlichkeiten zwischen InstructGPT und ChatGPT. Daher ist ein gründliches Verständnis des InstructGPT-Papiers von großem Nutzen für Studenten, die etwas in Richtung ChatGPT arbeiten möchten. Aus diesem Grund können wir die Vorträge von Li Mu wärmstens empfehlen.
Kursadresse: https://jmq.xet .tech/s/2lec6b (Klicken Sie auf „Originaltext lesen“, um direkt zu gelangen)
Dr. Li Mu ist der leitende Chefwissenschaftler von Amazon. Er hat zuvor mit Aston Zhang usw. zusammengearbeitet. Er ist Co-Autor von „Hands-On Deep Learning“. In den letzten zwei Jahren hat er durch Videos verschiedene KI-Kenntnisse an alle weitergegeben und intensive Lesekurse für Dutzende von Aufsätzen erstellt. Viele Studenten haben die Gewohnheit entwickelt, Li Mu beim intensiven Lesen von Aufsätzen zu folgen.
Dr. Li Mus Konto an Station B lautet „Lernen Sie KI von Li Mu“.
Dieser Interpretationskurs für InstructGPT dauert insgesamt 67 Minuten und wird grundsätzlich in der Reihenfolge des Verfassens der Arbeit eingeleitet.
Studenten, die den ChatGPT-Blog gelesen haben, wissen, dass seine technischen Prinzipien grundlegend sind Es kann mit einem Bild zusammengefasst werden, bei dem es sich auch um ein Bild handelt, das im InstructGPT-Papier erschienen ist (es gibt subtile Unterschiede zwischen den beiden). Bei der Interpretation der Zusammenfassung und der Einleitung des Papiers stellte Li Mu die drei Schritte im Diagramm ausführlich vor.
Technisches Schema aus dem ChatGPT-Blog.
Technisches Schema aus dem InstructGPT-Papier.
Im dritten Kapitel des Papiers stellte der Autor von InstructGPT zunächst seine Datenerfassungsmethode und -prozess vor, und Li Mu nahm auch alle mit, um es zu lesen einmal ausführlich. Dieser Teil ist im Ingenieurwesen sehr wertvoll. Wie Li Mu sagte: Wenn Sie so etwas noch nie gemacht haben (Datenkennzeichnung usw.) und jemanden finden müssen, der Ihnen bei der Datenkennzeichnung hilft, können Sie sich den Anhang ansehen, der viele Vorlagen enthält, die direkt verwendet werden können. Der Autor des Artikels beschreibt sogar, wie die Benutzeroberfläche seiner kommentierten Website aussieht, von der es sich zu lernen lohnt.
Als nächstes konzentrierte sich Li Mu auf die drei in Kapitel 3 beschriebenen Modelle (siehe 3.5 Modelle) – SFT-Modell (Supervised Fine-Tuning), RM-Modell (Reward Modeling) und RL-Modelle (Reinforcement Learning). einschließlich Details wie Parameter und Zielfunktionen, die an diesen Modellen beteiligt sind.
Abschließend kam Li Mu zu dem Schluss, dass InstructGPT technisch gesehen immer noch eine sehr praktische Technologie ist. Es erklärt jedem eine Methode: Wie kann man angesichts eines großen Sprachmodells seine Leistung in einem Bereich, der einem am Herzen liegt, durch einige annotierte Daten schnell verbessern, um es praktisch zu machen? Daher bietet es eine praktische Idee für Menschen, die generative Modelle zur Herstellung von Produkten verwenden möchten.
Natürlich erfolgt die wissenschaftliche Forschungsarbeit, wie Dr. Li Mu sagte, Schritt für Schritt, und InstructGPT basiert auch auf früheren Forschungen, also auf Studenten, die dies möchten Ich verstehe voll und ganz, dass ChatGPT unweigerlich zurückgehen wird, um weitere Artikel zu lesen. In früheren Kursen hat Li Mu auch die Papiere von GPT, GPT-2 und GPT-3 ausführlich interpretiert:
#🎜 🎜#Kursadresse: https://jmq.xet.tech/s/2lec6b
Das obige ist der detaillierte Inhalt vonLernen Sie schnell die wichtigsten technischen Punkte des InstructGPT-Papiers kennen: Folgen Sie Li Mu, um die Technologie hinter ChatGPT zu beherrschen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!