Heim >Technologie-Peripheriegeräte >KI >Der große Modelltest ist da! Dieser Artikel wird Ihnen helfen, die Evolutionsgeschichte großer Modelle globaler KI-Giganten zu klären

Der große Modelltest ist da! Dieser Artikel wird Ihnen helfen, die Evolutionsgeschichte großer Modelle globaler KI-Giganten zu klären

WBOY
WBOYnach vorne
2023-05-17 09:22:051854Durchsuche

Xi Xiaoyao Science and Technology Talk Original
Autor |. Kleines Drama, Python

Wenn Sie ein Neuling in großen Modellen sind, was werden Sie denken, wenn Sie zum ersten Mal die seltsame Kombination dieser Wörter GPT, PaLm und LLaMA sehen? Wenn ich tiefer gehe und seltsame Wörter wie BERT, BART, RoBERTa und ELMo sehe, die nacheinander auftauchen, frage ich mich, ob ich als Anfänger verrückt werde?

Selbst ein Veteran, der schon lange im kleinen NLP-Kreis tätig ist, ist angesichts der explosiven Entwicklungsgeschwindigkeit großer Modelle möglicherweise verwirrt und nicht in der Lage, mit der schnellen Entwicklung neuer und schneller großer Modelle Schritt zu halten . Zu diesem Zeitpunkt müssen Sie möglicherweise eine umfassende Modellbewertung anfordern, um weiterzuhelfen! Diese große Modellrezension „Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond“, die von Forschern von Amazon, der Texas A&M University und der Rice University ins Leben gerufen wurde, bietet uns eine Möglichkeit, einen „Stammbaum“ zu erstellen. In diesem Artikel haben wir mehr darüber erfahren Vergangenheit, Gegenwart und Zukunft großer Modelle werden von ChatGPT dargestellt. Basierend auf den Aufgaben wurde ein sehr umfassender praktischer Leitfaden für große Modelle erstellt, der uns die Vor- und Nachteile großer Modelle in verschiedenen Aufgaben vorstellte und schließlich auf die aktuelle Situation hinwies Risiken und Herausforderungen des Modells.

Papiertitel:
Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond

Papierlink: https://www.php.cn/link/f50fb34f27bd263e6be8ffcf8967ced0

Projekthomepage: https:// www.php.cn/link/968b15768f3d19770471e9436d97913c

Stammbaum – das vergangene und gegenwärtige Leben großer Models

Die Suche nach der „Quelle allen Übels“ großer Models sollte wahrscheinlich mit dem Artikel „Aufmerksamkeit ist alles, was Sie brauchen“ beginnen ", basierend auf diesem Artikel Ausgehend von Transformer, einem vom Google Machine Translation-Team vorgeschlagenen maschinellen Übersetzungsmodell, das aus mehreren Gruppen von Encoder und Decoder besteht, folgt die Entwicklung großer Modelle im Allgemeinen zwei Wegen. Ein Weg besteht darin, den Decoder-Teil aufzugeben und Verwenden Sie den Encoder nur als Vortrainingsmodell für den Encoder, dessen bekanntester Vertreter die Bert-Familie ist. Diese Modelle begannen, die Methode des „unüberwachten Vortrainings“ auszuprobieren, um große Datenmengen in natürlicher Sprache besser zu nutzen, die leichter zu erhalten sind als andere Daten. Die „unüberwachte“ Methode ist das Masked Language Model (MLM) durch Entfernen der Maske einige Wörter im Satz und lassen Sie das Modell die Fähigkeit erlernen, den Kontext zu verwenden, um die von Mask entfernten Wörter vorherzusagen. Als Bert herauskam, war es auch eine Bombe im Bereich NLP. Gleichzeitig wurde SOTA für viele gängige Aufgaben der Verarbeitung natürlicher Sprache verwendet, wie z. B. Stimmungsanalyse, Erkennung benannter Entitäten usw. Mit Ausnahme von Bert und ALBert vorgeschlagen von Google, herausragende Vertreter der Familie Bert. Darüber hinaus gibt es ERNIE von Baidu, RoBERTa von Meta, DeBERTa von Microsoft usw.

Der große Modelltest ist da! Dieser Artikel wird Ihnen helfen, die Evolutionsgeschichte großer Modelle globaler KI-Giganten zu klären

Leider gelang es Berts Ansatz nicht, das Skalengesetz zu durchbrechen, und dieser Punkt wird durch die Hauptkraft aktueller Großmodelle hervorgehoben, d Teil von GPT Die Familie hat es wirklich geschafft. Der Erfolg der GPT-Familie beruht auf der überraschenden Entdeckung eines Forschers: „Die Erweiterung der Größe des Sprachmodells kann die Fähigkeit des Zero-Shot-Lernens (Zero-Shot) und des Small-Shot-Lernens (Few-Shot) erheblich verbessern.“ Es gibt einen großen Unterschied zwischen der Bert-Familie und der Quelle der magischen Kraft der heutigen groß angelegten Sprachmodelle. Die GPT-Familie wird auf der Grundlage der Vorhersage des nächsten Wortes anhand der vorherigen Wortfolge trainiert. Daher erschien GPT zunächst nur als Textgenerierungsmodell, und die Entstehung von GPT-3 war ein Wendepunkt im Schicksal der GPT-Familie. 3 war das erste. Es zeigt den Menschen die magischen Fähigkeiten großer Modelle, die über die Textgenerierung selbst hinausgehen, und zeigt die Überlegenheit dieser autoregressiven Sprachmodelle. Ausgehend von GPT-3 blühten die aktuellen Modelle ChatGPT, GPT-4, Bard, PaLM und LLaMA auf und leiteten die aktuelle Ära der großen Modelle ein.

Der große Modelltest ist da! Dieser Artikel wird Ihnen helfen, die Evolutionsgeschichte großer Modelle globaler KI-Giganten zu klären

Von der Zusammenführung der beiden Zweige dieses Stammbaums können wir die Anfänge von Word2Vec und FastText über die frühe Erforschung von ELMo und ULFMiT in Pre-Training-Modellen bis hin zur Entstehung von Bert sehen, die ein Volltreffer wurde Hit, und bis zum atemberaubenden Debüt von GPT-3 stieg ChatGPT in den Himmel. Zusätzlich zur Iteration der Technologie können wir auch sehen, dass OpenAI stillschweigend an seinem eigenen technischen Weg festhielt Wir haben gesehen, dass Google große Anstrengungen in der gesamten Encoder-Decoder-Modellarchitektur unternommen hat. Wir haben die bedeutenden theoretischen Beiträge von Meta, Metas fortgesetzte großzügige Beteiligung an großen Modell-Open-Source-Projekten und natürlich auch von uns gesehen Wir haben seit GPT-3 auch den Trend gesehen, dass LLMs allmählich zu „geschlossenen“ Quellen werden. Es ist sehr wahrscheinlich, dass die meisten Forschungsarbeiten in Zukunft auf API-basierte Forschung umgestellt werden müssen.

Der große Modelltest ist da! Dieser Artikel wird Ihnen helfen, die Evolutionsgeschichte großer Modelle globaler KI-Giganten zu klären

Daten – die Kraftquelle großer Modelle

Kommt letztlich die magische Kraft großer Modelle von GPT? Ich denke, die Antwort lautet „Nein“. Fast jeder Leistungssprung der GPT-Familie hat zu wichtigen Verbesserungen in der Quantität, Qualität und Vielfalt der Pre-Training-Daten geführt. Zu den Trainingsdaten des großen Modells gehören Bücher, Artikel, Website-Informationen, Codeinformationen usw. Der Zweck der Eingabe dieser Daten in das große Modell besteht darin, den „Menschen“ vollständig und genau wiederzugeben, indem dem großen Modell Wörter, Grammatik usw. mitgeteilt werden. Syntax- und semantische Informationen ermöglichen es dem Modell, den Kontext zu erkennen und kohärente Antworten zu generieren, um Aspekte des menschlichen Wissens, der Sprache, der Kultur usw. zu erfassen.

Im Allgemeinen können wir viele NLP-Aufgaben aus der Perspektive der Datenanmerkungsinformationen in Nullproben, wenige Proben und mehrere Proben klassifizieren. Zweifellos sind LLMs die am besten geeignete Methode für Zero-Shot-Aufgaben. Bei Zero-Shot-Aufgaben sind große Modelle anderen Modellen weit voraus. Gleichzeitig eignen sich Aufgaben mit wenigen Stichproben auch sehr gut für die Anwendung großer Modelle. Durch die Anzeige von „Frage-Antwort“-Paaren kann die Leistung großer Modelle verbessert werden Lernen. Obwohl große Modelle auch Aufgaben mit mehreren Stichproben abdecken können, ist die Feinabstimmung möglicherweise immer noch die beste Methode. Unter bestimmten Einschränkungen wie Datenschutz und Computer können große Modelle jedoch immer noch nützlich sein.

Der große Modelltest ist da! Dieser Artikel wird Ihnen helfen, die Evolutionsgeschichte großer Modelle globaler KI-Giganten zu klären

Gleichzeitig wird das fein abgestimmte Modell wahrscheinlich mit dem Problem konfrontiert, dass sich die Verteilung von Trainingsdaten und Testdaten ändert. Bezeichnenderweise schneidet das fein abgestimmte Modell bei OOD-Daten im Allgemeinen sehr schlecht ab. Dementsprechend schneiden LLMs viel besser ab, da sie keinen expliziten Anpassungsprozess haben. Das typische ChatGPT-Verstärkungslernen basierend auf menschlichem Feedback (RLHF) funktioniert bei den meisten Klassifizierungs- und Übersetzungsaufgaben außerhalb der Verteilung gut Medizinischer Diagnosedatensatz für die OOD-Bewertung.

Praxisleitfaden – Aufgabenorientierter Einstieg in große Modelle

Oft folgt auf die Aussage „Große Modelle sind gut!“ die Frage „Wie nutzt man große Modelle und wann setzt man sie ein?“ Aufgabe: Sollten wir uns für die Feinabstimmung entscheiden oder ohne nachzudenken mit der Verwendung des großen Modells beginnen? Dieser Artikel fasst einen praktischen „Entscheidungsablauf“ zusammen, der uns anhand einer Reihe von Fragen helfen soll, anhand einer Reihe von Fragen zu beurteilen, ob ein großes Modell verwendet werden soll, z ist Multitasking“.

Der große Modelltest ist da! Dieser Artikel wird Ihnen helfen, die Evolutionsgeschichte großer Modelle globaler KI-Giganten zu klären

Aus Sicht der NLP-Aufgabenklassifizierung:

Traditionelles Verständnis natürlicher Sprache

Derzeit gibt es viele NLP-Aufgaben mit einer großen Menge an reichhaltigen annotierten Daten, und das Feinabstimmungsmodell kann den Vorteil immer noch fest kontrollieren In den meisten Fällen sind LLMs im Datensatz den fein abgestimmten Modellen unterlegen, insbesondere:

  • Textklassifizierung: Bei der Textklassifizierung sind LLMs im Allgemeinen den fein abgestimmten Modellen unterlegen.
  • Stimmungsanalyse: Bei IMDB- und SST-Aufgaben ist die Leistung geringer Bei Aufgaben wie der Toxizitätsüberwachung sind fast alle großen Modelle schlechter als fein abgestimmte Modelle.
  • Natürliche Sprachbegründung: Bei RTE und SNLI sind fein abgestimmte Modelle besser als LLMs. und in CB und anderen Daten ähneln LLMs fein abgestimmten Modellen
  • Fragen und Antworten: Bei SQuADv2, QuAC und vielen anderen Datensätzen weisen fein abgestimmte Modelle eine bessere Leistung auf, während LLMs bei CoQA ähnlich funktionieren wie fein abgestimmte Modelle;
  • Informationsabruf: LLMs sind im Bereich des Informationsabrufs nicht weit verbreitet. Aufgrund der Aufgabenmerkmale des Abrufs gibt es keine natürliche Möglichkeit, Informationsabrufaufgaben für große Modelle zu modellieren.
  • Erkennung benannter Entitäten: Bei der Erkennung benannter Entitäten Große Modelle sind fein abgestimmten Modellen immer noch deutlich unterlegen, und die Leistung fein abgestimmter Modelle auf CoNLL03 ist fast so groß wie die doppelte Größe des Modells, aber die Erkennung benannter Entitäten als klassische NLP-Zwischenaufgabe ist wahrscheinlich durch große Modelle ersetzt.

Kurz gesagt: Für die meisten herkömmlichen Aufgaben zum Verstehen natürlicher Sprache erbringen fein abgestimmte Modelle eine bessere Leistung. Natürlich wird das Potenzial von LLMs durch das Prompt-Projekt begrenzt, das möglicherweise nicht vollständig freigegeben wird (tatsächlich hat das Feinabstimmungsmodell in einigen Nischenbereichen, wie z. B. Sonstiger Text, noch nicht die Obergrenze erreicht). Klassifizierung, kontradiktorisches NLI und andere Aufgaben, LLMs aufgrund stärker Die Generalisierungsfähigkeit führt somit zu einer besseren Leistung, aber für ausgereifte gekennzeichnete Daten kann die Feinabstimmung des Modells vorerst immer noch die optimale Lösung für traditionelle Aufgaben sein.

Erzeugung natürlicher Sprache

Im Vergleich zum Verständnis natürlicher Sprache kann die Erzeugung natürlicher Sprache die Bühne für große Modelle sein. Das Hauptziel der Generierung natürlicher Sprache besteht darin, kohärente, reibungslose und aussagekräftige Sequenzen zu erstellen. Eine davon sind Aufgaben, die durch maschinelle Übersetzung und Zusammenfassung von Absatzinformationen dargestellt werden, und die andere sind Aufgaben, die durch offenes natürliches Schreiben dargestellt werden B. E-Mails schreiben, Nachrichten schreiben, Geschichten erstellen usw. Konkret:

  • Textzusammenfassung: Wenn herkömmliche automatische Bewertungsindikatoren wie ROUGE verwendet werden, zeigen LLMs keine offensichtlichen Vorteile, aber wenn manuelle Bewertungsergebnisse eingeführt werden, wird die Leistung von LLMs erheblich verbessert -getunte Modelle. Dies zeigt tatsächlich, dass die aktuellen automatischen Bewertungsindikatoren den Effekt der Textgenerierung manchmal nicht vollständig und genau widerspiegeln.
  • Maschinelle Übersetzung: Bei einer Aufgabe wie der maschinellen Übersetzung mit ausgereifter kommerzieller Software ist die Leistung von LLMs im Allgemeinen etwas schlechter als die von kommerziellen Übersetzungstools, aber bei der Übersetzung einiger unbeliebter Sprachen zeigen LLMs manchmal bessere Ergebnisse. Bei der Aufgabe, Rumänisch ins Englische zu übersetzen, besiegten LLMs beispielsweise die SOTA des fein abgestimmten Modells im Fall von Nullproben und wenigen Proben.
  • Offene Formelgenerierung: In Bezug auf die offene Generierung sind große Modelle die beste Wahl. Nachrichtenartikel, die von LLMs generiert wurden, sind in Bereichen wie Codegenerierung und Codefehler kaum von echten Nachrichten zu unterscheiden Korrekturleistung.

Wissensintensive Aufgaben

Wissensintensive Aufgaben beziehen sich im Allgemeinen auf Aufgaben, die stark auf Hintergrundwissen, domänenspezifischem Fachwissen oder allgemeinem Weltwissen beruhen. Wissensintensive Aufgaben unterscheiden sich von einfacher Mustererkennung und Syntaxanalyse und erfordern eine Verständnis unserer Realität. Die Welt verfügt über „gesunden Menschenverstand“ und kann ihn richtig nutzen, insbesondere:

  • Fragen und Antworten im geschlossenen Buch: Bei der Aufgabe „Fragen und Antworten im geschlossenen Buch“ muss das Modell sachliche Fragen ohne externe Hilfe beantworten Informationen: In vielen Datensätzen zeigen LLMs wie NaturalQuestions, WebQuestions und TriviaQA eine bessere Leistung. Insbesondere in TriviaQA zeigen LLMs mit Nullstichproben eine bessere Leistung als fein abgestimmte Modelle -scale Multi-task Language Understanding (MMLU) enthält 57 Multiple-Choice-Fragen zu verschiedenen Themen und erfordert außerdem Allgemeinwissen. Das beeindruckendste Modell in dieser Aufgabe ist GPT-4, das eine MMLU-Rate von 86,5 % richtig erzielte .
  • Es ist erwähnenswert, dass große Modelle bei wissensintensiven Aufgaben manchmal nutzlos oder sogar falsch für das Wissen in der realen Welt sind schnitt schlechter ab als zufälliges Raten. Beispielsweise erfordert die Redefine Math-Aufgabe, dass das Modell zwischen der ursprünglichen Bedeutung und der neu definierten Bedeutung wählen muss. Dies erfordert die Fähigkeit, das von großen Sprachmodellen erlernte Wissen genau zu widerlegen zufällig.

Inferenzaufgaben

Die Skalierbarkeit von LLMs kann die Fähigkeit vorab trainierter Sprachmodelle erheblich verbessern. Wenn die Modellgröße exponentiell zunimmt, werden einige wichtige Argumentationsfunktionen mit der Erweiterung der Parameter und der arithmetischen Argumentationsfähigkeit von LLMs schrittweise aktiviert Vernunft mit gesundem Menschenverstand ist für das bloße Auge äußerst leistungsfähig:

Arithmetisches Denken: Man kann ohne Übertreibung sagen, dass die Rechen- und Denkfähigkeiten des GPT-4 die aller Vorgängermodelle in GSM8k übertreffen. SVAMP und Large Models auf AQuA verfügen über bahnbrechende Fähigkeiten. Es ist erwähnenswert, dass die Rechenleistung von LLMs durch die Chain of Thought (CoT) deutlich gesteigert werden kann Merken Sie sich sachliche Informationen und führen Sie sie durch. Beim mehrstufigen Denken behalten LLMs ihre Überlegenheit gegenüber fein abgestimmten Modellen in den meisten Datensätzen, insbesondere in ARC-C (schwierige naturwissenschaftliche Testfragen für die Klassen 3–9), wo die Leistung nahe an der von GPT-4 liegt 100 % (96,3 %).
  • Mit zunehmender Größe des Modells werden neben dem Denken auch einige neue Fähigkeiten im Modell angezeigt, z. B. Zufallsoperationen, logische Ableitung, Konzeptverständnis usw. Es gibt jedoch auch ein interessantes Phänomen namens „U-förmiges Phänomen“, das sich auf das Phänomen bezieht, dass die Modellleistung mit zunehmendem Umfang von LLMs zunächst zunimmt und dann abnimmt. Der typische Vertreter ist das Problem der Neudefinition der Mathematik Wie oben erwähnt, erfordern solche Phänomene eine eingehendere und detailliertere Erforschung der Prinzipien großer Modelle.
  • Zusammenfassung – Herausforderungen und Zukunft großer Models

    Große Models werden unweigerlich noch lange Zeit Teil unserer Arbeit und unseres Lebens sein, und das für einen solchen „Jeden“, der hochgradig interaktiv ist Mit unserem Leben „Mann“. Neben Leistung, Effizienz, Kosten und anderen Problemen ist die Sicherheit großer Sprachmodelle fast die höchste Priorität bei allen Herausforderungen, mit denen große Maschinen derzeit konfrontiert sind Lösung für große Modelle Das Hauptproblem besteht darin, dass voreingenommene oder schädliche Illusionen, die von großen Modellen ausgegeben werden, schwerwiegende Folgen für Benutzer haben. Gleichzeitig kann es sein, dass Benutzer mit zunehmender „Glaubwürdigkeit“ von LLMs übermäßig von LLMs abhängig werden und glauben, dass sie genaue Informationen liefern können. Dieser vorhersehbare Trend erhöht die Sicherheitsrisiken großer Modelle.

    Neben irreführenden Informationen können LLMs aufgrund der hohen Qualität und der geringen Kosten der von LLMs generierten Texte auch als Werkzeuge für Angriffe wie Hass, Diskriminierung, Gewalt und Desinformation missbraucht werden angegriffen werden, ohne dass böswillige Angreifer illegale Informationen bereitstellen oder die Privatsphäre stehlen, wird berichtet, dass Samsung-Mitarbeiter versehentlich streng geheime Daten wie die Quellcodeattribute des neuesten Programms und interne Besprechungsaufzeichnungen im Zusammenhang mit der Hardware preisgegeben haben, während sie ChatGPT zur Arbeitsabwicklung nutzten.

    Der große Modelltest ist da! Dieser Artikel wird Ihnen helfen, die Evolutionsgeschichte großer Modelle globaler KI-Giganten zu klären

    Darüber hinaus liegt der Schlüssel dafür, ob große Modelle auf sensible Bereiche wie Gesundheitswesen, Finanzen, Recht usw. angewendet werden können das Problem der „Verfügbarkeit“ großer Modelle. Derzeit nimmt die Robustheit großer Modelle oft ab. Gleichzeitig hat sich gezeigt, dass LLMs sozial voreingenommen oder diskriminierend sind, wobei in vielen Studien erhebliche Leistungsunterschiede zwischen demografischen Kategorien wie Akzent, Religion, Geschlecht und Rasse festgestellt wurden. Dies kann bei großen Modellen zu „Fairness“-Problemen führen.

    Wenn wir uns schließlich von sozialen Themen lösen, um eine Zusammenfassung zu erstellen, können wir auch in die Zukunft der großen Modellforschung blicken. Die größten Herausforderungen, denen sich große Modelle derzeit gegenübersehen, können wie folgt klassifiziert werden: #🎜 🎜#

    # 🎜🎜#Praktische Verifizierung: Aktuelle Evaluierungsdatensätze für große Modelle sind oft akademische Datensätze, die eher „Spielzeug“ sind. Allerdings können diese akademischen Datensätze die verschiedenen Probleme und Herausforderungen in der Realität nicht vollständig abbilden Daher sind tatsächliche Datensätze dringend erforderlich. Bewerten Sie das Modell anhand verschiedener und komplexer realer Probleme, um sicherzustellen, dass die Werteauswahl so ausgerichtet ist, dass das Modellverhalten den Erwartungen entspricht wird unerwünschte Ergebnisse nicht „verstärken“, wenn dieses ethische Problem nicht ernsthaft behandelt wird.
      # 🎜🎜#Sicherheitsrisiken: Die Forschung an großen Modellen sollte fortgesetzt werden Um die sichere Entwicklung großer Modelle zu gewährleisten, müssen Sicherheitsaspekte hervorgehoben und Sicherheitsrisiken beseitigt werden eine entbehrliche Dekoration;
    1. Modellzukunft: Wird die Leistung des Modells mit zunehmender Modellgröße steigen? Es wird geschätzt, dass diese Frage für OpenAI schwer zu beantworten ist. Unser Verständnis der magischen Phänomene großer Modelle ist immer noch sehr begrenzt und Einblicke in die Prinzipien großer Modelle sind immer noch sehr wertvoll.

Das obige ist der detaillierte Inhalt vonDer große Modelltest ist da! Dieser Artikel wird Ihnen helfen, die Evolutionsgeschichte großer Modelle globaler KI-Giganten zu klären. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen