Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Treten wir nach Basismodellen mit Dutzenden oder Hunderten von Milliarden Parametern in ein datenzentriertes Zeitalter ein?

Treten wir nach Basismodellen mit Dutzenden oder Hunderten von Milliarden Parametern in ein datenzentriertes Zeitalter ein?

王林
王林nach vorne
2023-05-08 08:46:361193Durchsuche

In den letzten Jahren ist das Aufkommen grundlegender Modelle wie GPT-3, CLIP, DALL-E, Imagen und Stabile Diffusion erstaunlich. Die leistungsstarken generativen Fähigkeiten und kontextuellen Lernfähigkeiten dieser Modelle waren noch vor wenigen Jahren unvorstellbar. Dieser Artikel untersucht die Kommerzialisierung dieser Großtechnologien. Diese Modelle sind mittlerweile nicht mehr nur die Domäne von Branchenriesen. Ihr Wert spiegelt sich zunehmend in der Beschreibung des Fachgebiets und der Schlüsselthemen wider, und ihr Kern sind Daten. Die Auswirkungen der schnellen Entwicklung des zugrunde liegenden Modells müssen noch ermittelt werden, daher basiert vieles auf Spekulationen.

Treten wir nach Basismodellen mit Dutzenden oder Hunderten von Milliarden Parametern in ein datenzentriertes Zeitalter ein?

Eingabeaufforderung: „Taco-Katze“ (nimm es nicht zu ernst)

Aus Sicht des maschinellen Lernens ist das Konzept einer Aufgabe absolut grundlegend – wir erstellen Trainingsdaten, um die zu spezifizieren Aufgabe und Verallgemeinerung durch Training. Daher gibt es in der Branche seit Jahrzehnten zwei Hauptansichten:

  • „Nutzlose Eingabe, nutzlose Ausgabe“, d. h. die in das Modell eingegebenen Daten/Merkmalsinformationen bestimmen den Erfolg oder Misserfolg des Modells.
  • „Zu viele Parameter führen zu einer Überanpassung.“ In den letzten 20 Jahren ist die Entwicklung allgemeiner und spärlicher Modelle populär geworden. Es wird allgemein angenommen, dass spärliche Modelle weniger Parameter haben, was dazu beiträgt, die Überanpassung zu reduzieren und somit besser zu verallgemeinern.

Diese Ansichten sind im Allgemeinen vernünftig, aber sie sind auch etwas irreführend.

Basismodelle verändern unser Verständnis von Aufgaben, weil sie auf einer Vielzahl von Daten trainiert und für eine Vielzahl von Aufgaben eingesetzt werden können. Auch wenn einige Benutzer ihre Zielaufgaben nicht genau verstehen, können sie diese Modelle problemlos anwenden, ohne dass eine spezielle Schulung erforderlich ist. Diese Modelle können über natürliche Sprache oder eine Schnittstelle gesteuert werden, sodass Fachexperten die Nutzung der Modelle vorantreiben und die Magie in neuen Umgebungen sofort erleben möchten. Bei diesem Erkundungsprozess besteht der erste Schritt für Benutzer nicht darin, einen bestimmten Trainingsdatensatz zu kuratieren, sondern mit ihren Ideen zu experimentieren, Ideen zu entwickeln und sie schnell zu iterieren. Mit dem vorliegenden Grundmodell wollten wir mehr darüber erfahren, wie es sich auf eine Reihe von Aufgaben übertragen lässt, darunter viele, die wir uns noch nicht vorgestellt hatten.

Um von der nächsten Welle der Entwicklung der künstlichen Intelligenz zu profitieren, müssen wir möglicherweise die Grenzen (und Weisheit) früherer Mainstream-Ansichten noch einmal überprüfen. In diesem Artikel werden wir von dort aus beginnen, untersuchen, welche Änderungen im Basismodell zu erkennen sind, und abschließend mit einer Diskussion darüber diskutieren, wie das Basismodell unserer Meinung nach mit traditionellen Ansätzen harmoniert.

Nutzloser Input, nutzloser Output – das war's?

Aufgabenlose Basismodelle explodieren explosionsartig. Bisher drehte sich viel um Modellarchitektur und -technik, aber es beginnen sich Anzeichen für eine Konvergenz dieser Modelle zu zeigen. Gibt es einen Präzedenzfall dafür, dass Daten zur Grundlage und zum grundlegenden Differenzierungsmerkmal werden? Wir haben das Hin und Her zwischen modellzentrierten und datenzentrierten Ansätzen beim überwachten maschinellen Lernen gesehen.

Bei einer Reihe von Projekten in der zweiten Hälfte der 2010er Jahre war die Qualität der Features entscheidend. Im alten Modell waren Features Werkzeuge, die Domänenwissen kodierten. Diese Merkmale sind weniger stabil, und Verarbeitungspraktiker müssen die Details auf niedriger Ebene beherrschen, um diese Informationen zu charakterisieren, um stabilere und zuverlässigere Vorhersagen zu erhalten.

Deep Learning ist erfolgreich, weil die Leute darin schrecklich sind. Die Deep-Learning-Revolution ist in vollem Gange und auf arXiv tauchen nach und nach neue Modelle auf, was wirklich schockierend ist. Diese Modelle übernehmen zuvor manuelle Vorgänge wie das Feature-Engineering und automatisieren diese vollständig. Das Modell ist hervorragend und kann Rohdaten wie Texte und Bilder durch Deep Learning erfolgreich charakterisieren. Das ist eine enorme Produktivitätssteigerung. Allerdings sind diese Modelle nicht perfekt und ein kontinuierliches Verständnis dieses Bereichs bleibt wichtig. Wie integrieren Sie dies in Ihr Modell?

Wir können sehen, dass Benutzer die Trainingsdaten als Träger nutzen, um Informationen effizient einzugeben, die Anwendung zu interpretieren und mit dem Modell zu interagieren. Dies alles geschieht im „Dunkel“, ohne Werkzeuge, Theorien und Abstracts. Wir dachten, dass Benutzer in der Lage sein sollten, einige grundlegende Programmierabstraktionen über ihre eigenen Daten vorzunehmen, und so wurde das Snorkel-Projekt (und dann das Unternehmen) geboren. Auf der Wissensebene sind wir damit in die Ära der datenzentrierten KI und der schwachen Aufsicht eingetreten. Daraus können wir zwei wichtige Lehren ziehen:

  • Sobald sich eine bestimmte Technologie stabilisiert, wird ihr Wert wieder in die Daten übergehen. In diesem Fall begann mit dem Aufkommen von Technologien wie TensorFlow, PyTorch, MXNet, Theano usw. die Kommerzialisierung der Deep-Learning-Technologie, aber die Beschreibung eines bestimmten Problems lieferte kein breites Spektrum an Datenverteilung, Aufgabenspezifikationen, usw. Daher hängt der Erfolg davon ab, wie relevante Informationen in das Modell eingebracht werden.
  • Wir können (und müssen) mit Rauschen umgehen. Grundsätzlich können grundlegende Mathematik- und Ingenieurwissenschaften beim Lärmmanagement helfen. Für Benutzer ist es schwierig, ihr Wissen perfekt in Trainingsdaten auszudrücken, und die Qualität verschiedener Datenquellen kann unterschiedlich sein. Beim Studium der Grundtheorie der schwachen Aufsicht haben wir festgestellt, dass Modelle viel aus verrauschten Daten lernen können (nicht alle nutzlosen Daten sind schlecht). Vermeiden Sie jedoch die Eingabe nutzloser Informationen – seien Sie aber auch nicht zu wählerisch, was die Daten angeht.

Eingabeaufforderung: „verrauschtes Bild“ Haben Sie auf dem verrauschten Bild etwas Interessantes gesehen?

Einfach ausgedrückt: Daten kodieren Ihre Fragen und Analysen – selbst wenn die Technologie zur Ware wird, bleibt der Wert von Daten bestehen. Es heißt also nicht, dass nutzlose Informationen gut sind, aber machen Sie diese Unterscheidung nicht zu absolut. Daten sind nützlich oder nutzlos, je nachdem, ob sie auf die effektivste Weise genutzt werden.

Das Grundmodell wird auf der Grundlage einer großen Datenmenge trainiert und wird häufig in verschiedenen Aufgaben eingesetzt, was neue Herausforderungen für das Datenmanagement mit sich bringt. Da Modelle/Architekturen immer mehr zur Ware werden, müssen wir verstehen, wie wir große Datenmengen effizient verwalten können, um die Generalisierbarkeit von Modellen sicherzustellen.

Führen zu viele Parameter zu einer Überanpassung?

Warum sehen wir magische kontextbezogene Merkmale? Wie tragen Modellierungsentscheidungen (Architektur und Algorithmen) dazu bei? Entstehen die magischen Eigenschaften großer Sprachmodelle aus mysteriösen Modellkonfigurationen?

Vor etwa einem Jahrzehnt besagte die grobe Verallgemeinerungstheorie des maschinellen Lernens, dass ein Modell verallgemeinert wird, wenn es zu sparsam ist (d. h. nicht zu viele falsche Merkmale anpassen kann). Man könnte dies genauer beschreiben, da es sich um große Errungenschaften in theoretischen Bereichen wie der VC-Dimension, der Rademacher-Komplexität usw. handelt. Dabei haben wir herausgefunden, dass offenbar auch eine kleine Anzahl von Parametern für die Generalisierung notwendig ist. Dies ist jedoch nicht der Fall. Überparametrisierung ist ein großes Problem, aber jetzt haben wir große Modelle als Gegenbeispiele: Diese großen Modelle (mehr Parameter als Datenpunkte) können alle Arten von Funktionen anpassen, die unglaublich komplex sind, aber immer noch allgemein isiert (auch mit zufälligen Beschriftungen).

Die Idee der Überparametrisierung ist für uns irreführend und jüngste Erkenntnisse haben neue Richtungen eröffnet. Wir sehen, dass in diesen großen Modellen einige magische Funktionen entstehen, aber die vorherrschende Überzeugung ist, dass diese Funktionen nur durch bestimmte maschinentrainierte Architekturen ermöglicht werden, auf die nur wenige Menschen Zugriff haben. Eine Richtung für unsere und andere Forschungsbemühungen besteht darin, zu versuchen, diese magischen Eigenschaften in einfache, klassische Modelle umzusetzen. Unsere aktuellen Zustandsraummodelle basieren auf jahrzehntelanger Signalverarbeitungsarbeit (und passen daher zu klassischen Modellen) und weisen einige kontextbezogene Fähigkeiten auf.

Was noch überraschender ist, ist, dass sogar das klassische bidirektionale BERT-Modell über kontextbezogene Funktionen verfügt! Ich glaube, dass es immer noch viele Leute gibt, die entsprechende Artikel schreiben. Sie können sie uns schicken und wir werden sie sorgfältig lesen und zitieren. Wir glauben, dass die magischen Eigenschaften des kontextuellen Lernens überall um uns herum sind und dass das Universum magischer ist, als wir verstehen. Oder, um es nüchterner zu betrachten: Vielleicht sind Menschen einfach nicht so gut darin, bedingte Wahrscheinlichkeiten zu verstehen.

Im Rahmen des großen Modells scheint alles gut zu funktionieren. Die magischen Eigenschaften des zugrunde liegenden Modells erscheinen stabil und kommerziell nutzbar, und die Daten werden als Differenzierungspunkt innerhalb des Modells angesehen.

Vielleicht ist jetzt die Ära der datenzentrierten Basismodelle?

Wiederholen wir den Wandel des datenzentrierten überwachten Lernens? Mit anderen Worten: Werden Modelle und Technik zur Ware?

Der Aufstieg von Standardmodellen und Open-Source-Informationen. Wir sehen, wie grundlegende Modelle zur Ware gemacht und in Gebrauch genommen werden – nun, es fühlt sich sehr „tiefgreifendes Lernen“ an. Für uns ist der größte Beweis für die Kommerzialisierung eines Modells seine Verfügbarkeit. Es gibt zwei Haupteinflusskräfte: Menschen haben ein Bedürfnis (Stabilität usw.) und große Unternehmen können davon profitieren. Open Source entstand nicht aus Hobbyinteresse, sondern weil große Unternehmen und andere außerhalb der Regierung beschlossen, dass sie so etwas brauchten (siehe „Der Aufstieg von Python“).

Warten Sie darauf, dass die neueste Superfirma ein neues Supermodell auf den Markt bringt?

Woher kommt der größte Unterschied? Daten! Diese Tools sind zunehmend verfügbar, die zugrunde liegenden Modelle sind jedoch nicht unbedingt sofort verfügbar. Wie läuft das bei der Bereitstellung ab? Warten Sie darauf, dass das neue Superunternehmen ein neues Supermodell auf den Markt bringt? Man kann sagen, dass dies ein Weg ist! Aber wir nennen es Nihilismus! Ob dieses Modell Open Source sein wird, ist schwer zu sagen – aber was ist mit den zugrunde liegenden Modellanwendungen, die keine privaten Daten an eine API senden können? Wird das Modell 100 Billionen Parameter haben – und wie viele Benutzer können darauf zugreifen und es nutzen? Was sind die Trainingsinhalte des Modells? Das Modell wird hauptsächlich auf der Grundlage öffentlicher Daten trainiert...

Es gibt also fast keine Garantie dafür, dass es weiß, was Sie interessiert? Wie bewahren Sie die Magie des Basismodells, damit es für Sie funktioniert? Es ist notwendig, die zugrunde liegenden Modelldaten effektiv zu verwalten (Daten sind entscheidend!) und beim Testen die Vorteile großartiger Open-Source-Modelle voll auszunutzen (das Anpassen von Eingabe- und Kontextdaten während des Testens ist entscheidend!):

# 🎜🎜 #

Datenmanagement und datenzentrierte Skalierungsgesetze? Vorhersage: Intelligentere Methoden zum Sammeln von Datensätzen führen zu kleinen, schönen Modellen. Die Aufsätze zum Skalierungsrecht, die uns die Augen geöffnet haben, verdienen Aufmerksamkeit: wie OpenAI, das sich ursprünglich mit Skalierungsrecht befasste, und Chinchilla von DeepMind. Obwohl wir über eine Standard-Referenzarchitektur (Transformationen) verfügen, repräsentiert die Anzahl der Token in gewissem Maße den Informationsgehalt der Daten. Die Erfahrung lehrt uns, dass Daten hinsichtlich Thematik und Qualität sehr unterschiedlich sind. Wir haben die Vermutung, dass das, was wirklich zählt, die tatsächlichen Informationsbits mit Überlappung und Reihenfolge sind – informationstheoretische Konzepte wie die Entropie könnten die Entwicklung von Modellen auf großer und kleiner Basis vorantreiben.

Informationseingabe und Berechnung während des Tests. Das Basismodell ist nicht unbedingt sofort verfügbar, aber die Berechnungen können einen großen Unterschied machen, wenn sie auf neue Weise getestet werden. Angesichts der Kosten und des Mangels an Datenschutz bei der Verwendung von Closed-Source-Modell-APIs haben wir kürzlich ein Open-Source-Basismodell mit 30-mal kleineren Parametern auf den Markt gebracht, das auf der Spezifikations-Benchmark-Ebene durch die effiziente Verwendung kleiner Modelle zum Testzeitpunkt dem Closed-Source-Modell von OpenAI übertroffen werden kann - Dieser Ansatz wird Ask Me Anything (AMA) Prompting genannt. Zur Testzeit steuern Benutzer das zugrunde liegende Modell durch Eingabeaufforderungen oder Beschreibungen in natürlicher Sprache von Aufgaben, an denen sie interessiert sind, und das Eingabeaufforderungsdesign kann einen großen Einfluss auf die Leistung haben. Es ist komplex und mühsam, Eingabeaufforderungen genau zu erhalten. Daher empfiehlt die AMA, eine Reihe verrauschter Eingabeaufforderungen unterschiedlicher Qualität zu verwenden und statistische Theorie zur Lösung des Lärmproblems zu verwenden. Es gibt viele Inspirationsquellen für AMA: Maieutic Prompting, Reframing GPT-k, AI Chain und mehr! Der Schlüssel liegt darin, dass wir Berechnungen zur Testzeit auf neue Weise durchführen können – es ist nicht nötig, das Modell nur einmal aufzurufen! Dabei geht es nicht nur um die Datenverwaltung zur Trainingszeit, sondern auch um die Anpassung von Eingabe- und Kontextdaten zur Testzeit.

Treten wir nach Basismodellen mit Dutzenden oder Hunderten von Milliarden Parametern in ein datenzentriertes Zeitalter ein?

Eingabeaufforderung: „wirklich kleines KI-Modell“#🎜 🎜#

Aus der AMA können wir ersehen, dass kleine Modelle bereits über hervorragende Denkfähigkeiten verfügen, um eine Vielzahl von Aufgaben zu bewältigen, während der Schlüsselwert großer Modelle offenbar im Merken von Sachdaten liegt. Kleine Modelle schneiden Fakten schlecht ab. Wie können wir also Daten und Informationen einführen, um dieses Problem zu lösen? Seltsamerweise verwenden wir SGD, um Fakten in einem neuronalen Netzwerk zu speichern und sie in Fuzzy-Gleitkommawerte umzuwandeln ... die Abstraktion scheint viel weniger effizient zu sein als ein DRAM-gestützter Schlüsselwertspeicher. Betrachtet man jedoch die Ergebnisse des AMA, ist der Unterschied zwischen kleinen und großen Modellen in Bezug auf zeitlich variierende oder domänenspezialisierte Fakten viel geringer. Wir bei Apple müssen in der Lage sein, die Fakten zu bearbeiten, die wir beim Selbstaufbau zurückgeben -überwachte Modelle (aus geschäftlichen Gründen) und müssen außerdem mit anderen Softwaretools ausgestattet werden, um den Dienst auszuführen. Daher ist es sehr wichtig, über den Modellaufrufindex zu verfügen. Die Zeit wird zeigen, ob das oben Genannte ein ausreichender Grund für die Verwendung dieses Modelltyps ist.

Wohin wird uns das führen? Grundlegende Modelle stehen neben traditionellen Methoden. Unter der Annahme, dass datenzentrierte Modelle sowohl auf der Explorations- als auch auf der Bereitstellungsseite Fortschritte machen, für schnelle Iteration und aufgabenunabhängige Arbeitsabläufe – die Explorationsphase – machen wir das vorgefertigte allgemeine Basismodell durch Datenverwaltungs-/Testzeitstrategien nützlicher und effizienter. Benutzer verlassen die Erkundungsphase mit einer klareren Aufgabendefinition, nutzen datenzentrierte KI und verwalten Trainingsdaten (Ihre eigenen Daten sind wichtig) auf Snorkel-Art, indem sie mehrere Eingabeaufforderungen nutzen und/oder Basismodelle kleiner und schneller trainieren. „proprietäre“ Modelle. Diese Modelle können in realen Produktionsumgebungen eingesetzt werden und sind für bestimmte Aufgaben und bestimmte Daten genauer! Oder das zugrunde liegende Modell kann zur Verbesserung schwach überwachter Techniken verwendet werden – wofür einige Labor- und Snorkel-Mitglieder UAI-Auszeichnungen gewonnen haben.

Letztendlich beziehen sich die Daten auf die endgültige Produktion des Modells. Daten sind das Einzige, was nicht zur Ware wird. Wir glauben nach wie vor, dass Snorkels Sicht auf Daten der Weg in die Zukunft ist – Sie benötigen Programmierabstraktionen, eine Möglichkeit, unterschiedliche Datenquellen und Überwachungssignale auszudrücken, zu kombinieren und iterativ zu korrigieren, um einsetzbare Modelle für die ultimative Aufgabe zu trainieren.

Das obige ist der detaillierte Inhalt vonTreten wir nach Basismodellen mit Dutzenden oder Hunderten von Milliarden Parametern in ein datenzentriertes Zeitalter ein?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen