Heim >Technologie-Peripheriegeräte >KI >ChatGPT konzentriert sich auf den Chatbot-Wettbewerb zwischen Google, Meta und OpenAI und stellt die Unzufriedenheit von LeCun in den Mittelpunkt des Themas
Vor ein paar Tagen verbreiteten sich die Kommentare von Metas Chefforscher für künstliche Intelligenz, Yann LeCun, zu ChatGPT schnell in der Branche und lösten viele Diskussionen aus.
Bei einem kleinen Treffen von Medien und Führungskräften bei Zoom machte LeCun einen überraschenden Kommentar: „Was die zugrunde liegende Technologie betrifft, ist ChatGPT keine große Innovation.“
„Obwohl es in der Öffentlichkeit revolutionär ist.“ , aber wir wissen, dass es sich um ein gut zusammengesetztes Produkt handelt, mehr nicht.“
ChatGPT war in den letzten Monaten der „erstklassige“ Chatbot. Er wurde überall beliebt Welt und veränderte sogar die Karriere einiger Menschen und die aktuelle Situation der Schulbildung.
Als die ganze Welt davon begeistert war, war LeCuns Rezension von ChatGPT so „Understatement“.
Aber tatsächlich sind seine Bemerkungen nicht unvernünftig.
Datengesteuerte künstliche Intelligenzsysteme wie ChatGPT sind in vielen Unternehmen und Forschungslaboren verfügbar. LeCun sagte, dass OpenAI in diesem Bereich nicht sehr einzigartig sei.
„Neben Google und Meta gibt es sechs Startups, im Grunde alle mit sehr ähnlicher Technologie.“
Dann wurde LeCun etwas sauer -
"ChatGPT verwendet eine Transformer-Architektur, die auf selbstüberwachte Weise vorab trainiert wird, und selbstüberwachtes Lernen ist das, was ich schon seit langem befürworte. Bei Damals war OpenAI noch nicht geboren.“
Unter ihnen ist Transformer die Erfindung von Google. Diese Art von sprachlichem neuronalem Netzwerk ist die Grundlage groß angelegter Sprachmodelle wie GPT-3.
Das erste Sprachmodell für neuronale Netze wurde vor 20 Jahren von Yoshua Bengio vorgeschlagen. Bengios Aufmerksamkeitsmechanismus wurde später von Google in Transformer verwendet und ist seitdem zu einem Schlüsselelement in allen Sprachmodellen geworden.
Darüber hinaus nutzt ChatGPT die Human Feedback Reinforcement Learning (RLHF)-Technologie, die ebenfalls von Google DeepMind Lab entwickelt wurde.
Nach Ansicht von LeCun ist ChatGPT eher ein erfolgreicher technischer Fall als ein wissenschaftlicher Durchbruch.
Die Technologie von OpenAI „ist nichts Innovatives im Hinblick auf die Grundlagenforschung, sie ist einfach nur gut konzipiert.“
Ich kritisiere die Arbeit von OpenAI nicht Es handelt sich auch nicht um eine Kritik ihrer Ideen.
Ich möchte die Ansichten der Öffentlichkeit und der Medien korrigieren. Sie glauben im Allgemeinen, dass ChatGPT ein innovativer und einzigartiger technologischer Durchbruch ist, aber das ist nicht der Fall.
Bei einer Podiumsdiskussion mit dem New York Times-Reporter Cade Metz spürte LeCun die Zweifel der Wichtigtuer.
„Sie fragen sich vielleicht, warum Google und Meta keine ähnlichen Systeme haben? Meine Antwort ist, dass die Verluste ziemlich groß sein werden, wenn Google und Meta solche unsinnigen Chatbots starten.“
Zufälligerweise schrieb Marcus über Nacht auch einen Artikel auf seinem Blog, um OpenAI lächerlich zu machen, als bekannt wurde, dass OpenAI von Microsoft und anderen Investoren bevorzugt wurde und sein Wert auf 29 Milliarden US-Dollar stieg.
In dem Artikel brachte Marcus einen goldenen Satz hervor: Was kann OpenAI, was Google nicht kann, und ist es den horrenden Preis von 29 Milliarden US-Dollar wert?
Google, Meta, DeepMind, OpenAI PK!
Lassen Sie uns ohne weitere Umschweife die Chatbots dieser KI-Giganten hervorholen und die Daten für sich sprechen lassen.
LeCun sagte, dass viele Unternehmen und Labore KI-Chatbots ähnlich wie ChatGPT haben, was stimmt.
ChatGPT ist nicht der erste KI-Chatbot, der auf einem Sprachmodell basiert, er hat viele „Vorgänger“.
Bevor OpenAI, Meta, Google, DeepMind usw. alle ihre eigenen Chatbots veröffentlichten, wie BlenderBot von Meta, LaMDA von Google und Sparrow von DeepMind.
Einige Teams haben auch ihre eigenen Open-Source-Chatbot-Pläne angekündigt. Zum Beispiel Open-Assistant von LAION.
In einem Blog von Huggingface haben mehrere Autoren wichtige Beiträge zu den Themen RLHF, SFT, IFT und CoT (allesamt Schlüsselwörter von ChatGPT) untersucht, klassifiziert und zusammengefasst.
Sie haben eine Tabelle erstellt, in der KI-Chatbots wie BlenderBot, LaMDA, Sparrow und InstructGPT anhand von Details wie öffentlichem Zugriff, Trainingsdaten, Modellarchitektur und Bewertungsrichtung verglichen werden.
Hinweis: Da ChatGPT nicht dokumentiert ist, verwenden sie die Details von InstructGPT, einem Modell zur Feinabstimmung von Anweisungen von OpenAI, das als Grundlage von ChatGPT angesehen werden kann.
LaMDA |
BlenderBot 3 | Sparrow |
ChatGPT/ InstructGPT |
||
Organisation | |
Meta |
DeepMind |
OpenAI |
|
Zugriff |
Geschlossen |
Öffentlich |
Geschlossen |
Begrenzt |
|
Parameterskala |
137 Milliarden |
175 Milliarden |
70 Milliarden |
175 Milliarden |
|
Basismodell |
Unbekannt |
OPT |
Chinchilla |
GPT-3,5 |
|
Körpergröße |
2,81 Billionen |
100 Milliarden |
1,4 Billionen |
Unbekannt |
|
Zugriff auf Web |
✔️ |
✔️ |
✔️ |
✖️ |
|
Überwachung und Feinabstimmung |
✔️ |
✔️ |
✔️ |
✔️ |
|
Feinabstimmung der Datengröße: Hohe Qualität: 6,4 K Unbekannt |
12,7K (ChatGPT könnte mehr sein) RLHF |
✖️ |
✖️ |
✔️ |
|
|
Manuelle Sicherheitsregeln |
✔ |
✖️ |
✔ |
✖️ |
Es ist leicht zu erkennen, dass diese Chatbots trotz vieler Unterschiede in den Trainingsdaten, Basismodellen und Feinabstimmungen eines gemeinsam haben: Sie befolgen Anweisungen.
Zum Beispiel können Sie ChatGPT befehlen, ein Gedicht über Feinabstimmung zu schreiben.
Man sieht, dass ChatGPT sehr „kognitiv“ ist und nie vergisst, LeCun und Hinton beim Schreiben von Gedichten zu schmeicheln.
Dann lobte er leidenschaftlich: „Nudge, Nudge, du bist ein wunderschöner Tanz.“
Normalerweise reicht die Sprachmodellierung des Grundmodells nicht aus um zu lernen, wie man Benutzeranweisungen befolgt.
Beim Training des Modells werden Forscher neben der Verwendung klassischer NLP-Aufgaben (wie Emotionen, Textklassifizierung, Zusammenfassung usw.) auch die Instruktionsfeinabstimmung (IFT) verwenden, die weitergegeben werden soll Sehr unterschiedliche Aufgaben dienen der Feinabstimmung des Basismodells.
Unter diesen bestehen diese Anleitungsbeispiele aus drei Hauptteilen: Anweisungen, Eingabe und Ausgabe.
Die Eingabe ist optional, einige Aufgaben erfordern nur Anweisungen, wie der offene Build im ChatGPT-Beispiel oben.
Wenn eine Ein- und Ausgabe auftritt, wird ein Beispiel gebildet. Für eine bestimmte Anweisung kann es mehrere Eingabe- und Ausgabebeispiele geben. Zum Beispiel das folgende Beispiel:
IFT-Daten sind normalerweise eine Sammlung von Anweisungen, die von Menschen geschrieben wurden, und Anleitungsbeispielen, die von Sprachmodellen geleitet werden.
Während des Bootvorgangs wird LM in einer Einstellung mit wenigen Schüssen aufgefordert (siehe Abbildung oben) und angewiesen, neue Anweisungen, Ein- und Ausgänge zu generieren.
In jeder Runde wird das Modell aufgefordert, aus von Menschen geschriebenen und vom Modell generierten Beispielen auszuwählen.
Der Umfang des menschlichen und modellhaften Beitrags zur Erstellung eines Datensatzes ist wie ein Spektrum (siehe Abbildung unten).
An einem Ende befindet sich ein rein modellgenerierter IFT-Datensatz, wie z. B. Unnatürliche Anweisungen, und am anderen Ende befindet sich eine große Anzahl künstlich generierter Anweisungen, wie z. B. übernatürliche Anweisungen.
Irgendwo dazwischen liegt die Verwendung eines kleineren, aber qualitativ hochwertigeren Seed-Datensatzes und die anschließende Durchführung geführter Arbeiten, z. B. Selbstanweisung.
Eine weitere Möglichkeit, Datensätze für IFT zu organisieren, besteht darin, vorhandene hochwertige Crowdsourcing-NLP-Datensätze für eine Vielzahl von Aufgaben (einschließlich Eingabeaufforderungen) zu nutzen und diese Datensätze mithilfe eines einheitlichen Schemas oder verschiedener Vorlagenanweisungen umzuwandeln.
Die Arbeit in diesem Bereich umfasst T0, Natural-Instructions-Dataset, FLAN LM und OPT-IML.
... Zum Einsatz kommt Reinforcement Learning basierend auf menschlichem Feedback (RLHF), also der Annotation menschlicher Präferenzen.
Zuletzt trainieren Sie den Chatbot durch verstärkendes Lernen, um dieses Präferenzmodell zu simulieren.
Chain of Thought (CoT)-Eingabeaufforderungen sind ein Sonderfall von Befehlsbeispielen, die den Chatbot dazu veranlassen, Schritt für Schritt zu argumentieren, um eine Ausgabe zu erzeugen.
Mit CoT verfeinerte Modelle verwenden einen Datensatz mit Anweisungen für die schrittweise Schlussfolgerung mit menschlichen Anmerkungen.
Dies ist der Ursprung der berühmten Aufforderung „Lass uns Schritt für Schritt denken“.
Das folgende Beispiel stammt aus „Scaling Instruction-Finetuned Language Models“. Darunter hebt Orange die Anweisungen hervor, Rosa zeigt die Ein- und Ausgabe und Blau ist die CoT-Schlussfolgerung.
Das Papier weist darauf hin, dass Modelle, die CoT-Feinabstimmung verwenden, bei Aufgaben, die gesunden Menschenverstand, Arithmetik und symbolisches Denken erfordern, eine bessere Leistung erbringen.
Darüber hinaus ist die CoT-Feinabstimmung auch bei sensiblen Themen sehr effektiv (manchmal besser als RLHF), insbesondere um Modellkorruption zu vermeiden – „Leider kann ich nicht antworten“.
Wie gerade erwähnt, können auf Anweisungen abgestimmte Sprachmodelle nicht immer nützliche und sichere Antworten liefern.
Zum Beispiel wird es ausgeweicht, indem es nutzlose Antworten wie „Entschuldigung, ich verstehe nicht“ gibt oder unsichere Antworten an Benutzer ausgibt, die sensible Themen ansprechen.
Um dieses Verhalten zu verbessern, verfeinern Forscher das grundlegende Sprachmodell anhand hochwertiger, von Menschen annotierter Daten in Form einer überwachten Feinabstimmung (Supervised Fine-Tuning, SFT) und verbessern so den Nutzen und die Unbedenklichkeit des Modells.
Die Verbindung zwischen SFT und IFT ist sehr eng. IFT kann als Teilmenge von SFT angesehen werden. In der neueren Literatur wird die SFT-Phase häufig für Sicherheitsthemen und nicht für spezifische Unterrichtsthemen verwendet, die nach dem IFT abgeschlossen werden.
Zukünftig soll ihre Klassifizierung und Beschreibung klarere Anwendungsfälle haben.
Darüber hinaus ist Googles LaMDA auch auf einen sicher annotierten Konversationsdatensatz abgestimmt, der Sicherheitsanmerkungen enthält, die auf einer Reihe von Regeln basieren.
Diese Regeln werden oft von Forschern vordefiniert und entwickelt und decken ein breites Themenspektrum ab, darunter Schaden, Diskriminierung, Fehlinformationen und mehr.
Es gibt noch viele offene Fragen zu KI-Chatbots, wie zum Beispiel:
1 Wie wichtig ist RL beim Lernen aus menschlichem Feedback? Können wir die Leistung von RLHF in IFT oder SFT mit einem qualitativ hochwertigeren Datentraining erreichen?
2. Wie ist die Sicherheit von SFT+RLHF in Sparrow im Vergleich zu nur SFT in LaMDA?
3. Da wir bereits über IFT, SFT, CoT und RLHF verfügen, wie viel weitere Vorschulung ist erforderlich? Welche Kompromisse gibt es? Welches ist das beste Basismodell (sowohl öffentlich als auch privat)?
4. Diese Modelle werden nun sorgfältig entwickelt, wobei Forscher gezielt nach Fehlermöglichkeiten suchen und auf der Grundlage der aufgedeckten Probleme Einfluss auf zukünftige Schulungen (einschließlich Tipps und Methoden) nehmen. Wie können wir die Wirkung dieser Methoden systematisch dokumentieren und reproduzieren?
1 Im Vergleich zu den Trainingsdaten ist nur ein sehr kleiner Teil für die Feinabstimmung des Unterrichts erforderlich (Hunderte Größenordnungen).
2. Bei der überwachten Feinabstimmung werden menschliche Anmerkungen verwendet, um die Ausgabe des Modells sicherer und nützlicher zu machen.
3. Die CoT-Feinabstimmung verbessert die Leistung des Modells bei Schritt-für-Schritt-Denkaufgaben und verhindert, dass das Modell immer sensiblen Problemen entgeht.
Referenz:
https://huggingface.co/blog/dialog-agents
Das obige ist der detaillierte Inhalt vonChatGPT konzentriert sich auf den Chatbot-Wettbewerb zwischen Google, Meta und OpenAI und stellt die Unzufriedenheit von LeCun in den Mittelpunkt des Themas. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!