Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Die physikalischen Prinzipien, die die moderne Kunst der künstlichen Intelligenz inspirieren, und die Erforschung der Möglichkeiten generativer künstlicher Intelligenz haben gerade erst begonnen

Die physikalischen Prinzipien, die die moderne Kunst der künstlichen Intelligenz inspirieren, und die Erforschung der Möglichkeiten generativer künstlicher Intelligenz haben gerade erst begonnen

王林
王林nach vorne
2023-04-12 23:58:01935Durchsuche

Lassen Sie das von OpenAI erstellte Bilderzeugungssystem DALL·E 2 ein Bild von „einem Goldfisch, der am Strand Coca-Cola nippt“ zeichnen, und es wird ein surreales Bild ausspucken. Während des Trainings stieß das Programm auf Bilder von Stränden, Goldfischen und Coca-Cola, es war jedoch unwahrscheinlich, dass Bilder von allen drei gleichzeitig angezeigt wurden. Allerdings könnte DALL·E 2 diese Konzepte zu etwas kombinieren, das Dalí stolz gemacht hätte.

DALL·E 2 ist ein generatives Modell – ein System, das versucht, Trainingsdaten zu nutzen, um neue Dinge zu generieren, die in Qualität und Vielfalt mit den Daten vergleichbar sind. Dies ist eines der schwierigsten Probleme beim maschinellen Lernen, und es war ein harter Weg, an diesen Punkt zu gelangen.

Das erste wichtige Bilderzeugungsmodell verwendete eine Methode der künstlichen Intelligenz namens neuronales Netzwerk – ein Programm, das aus mehreren Schichten von Recheneinheiten, sogenannten künstlichen Neuronen, besteht. Doch selbst als sich die Bildqualität verbesserte, erwiesen sich die Modelle als unzuverlässig und schwierig zu trainieren. Unterdessen ruhte ein leistungsstarkes generatives Modell – erstellt von einem Postdoktoranden mit einer Leidenschaft für Physik –, bis zwei Doktoranden einen technologischen Durchbruch schafften, der das Biest wieder zum Leben erweckte.

DALL·E 2 ist so ein Biest. Die wichtigsten Erkenntnisse, die die Bilder von DALL·E 2 sowie denen seiner Konkurrenten Stable Diffusion und Imagen ermöglichen, stammen aus der Welt der Physik. Die ihnen zugrunde liegenden Systeme werden Diffusionsmodelle genannt und sind stark von der Nichtgleichgewichts-Thermodynamik inspiriert, die Phänomene wie die Diffusion von Flüssigkeiten und Gasen regelt. „Es gibt viele Techniken, die ursprünglich von Physikern erfunden wurden und heute für das maschinelle Lernen sehr wichtig sind“, sagte Yang Song, Forscher für maschinelles Lernen bei OpenAI.

Die Leistungsfähigkeit dieser Modelle schockierte die Branche und die Benutzer. „Dies ist eine aufregende Zeit für generative Modelle“, sagte Anima Anandkumar, Informatikerin am California Institute of Technology und Senior Director für maschinelle Lernforschung bei Nvidia. Sie sagte, dass die durch Diffusionsmodelle erzeugten realistischen Bilder zwar manchmal soziale und kulturelle Vorurteile aufrechterhalten, „wir aber gezeigt haben, dass generative Modelle für nachgelagerte Aufgaben nützlich sind, [die] ] die Fairness prädiktiver Modelle der künstlichen Intelligenz verbessert haben 》#🎜🎜.“ #

Hohe Wahrscheinlichkeit

Um zu verstehen, wie Bilder erstellt werden, beginnen wir mit einem einfachen Bild, das nur aus zwei benachbarten Graustufenpixeln besteht . Wir können dieses Bild vollständig mit zwei Werten beschreiben, die auf dem Farbton jedes Pixels basieren (von 0 für volles Schwarz bis 255 für volles Weiß). Mit diesen beiden Werten können Sie das Bild als Punkt im 2D-Raum darstellen.

Wenn wir mehrere Bilder als Punkte darstellen, kann es zu Clusterbildung kommen – einige Bilder und ihre entsprechenden Pixelwerte erscheinen häufiger als andere. Stellen Sie sich nun vor, dass sich über der Ebene eine gekrümmte Fläche befindet, deren Höhe der Dichte der Cluster entspricht. Diese Oberfläche stellt eine Wahrscheinlichkeitsverteilung dar. Am wahrscheinlichsten finden Sie einen einzelnen Datenpunkt unterhalb des höchsten Teils der Oberfläche, seltener jedoch unterhalb des niedrigsten Teils der Oberfläche.

DALL·E 2 hat diese Bilder von „Goldfish Nipping Coca-Cola on the Beach“ erstellt. . Dieses von OpenAI erstellte Programm ist möglicherweise noch nie auf ähnliche Bilder gestoßen, kann sie aber trotzdem selbst generieren. Die physikalischen Prinzipien, die die moderne Kunst der künstlichen Intelligenz inspirieren, und die Erforschung der Möglichkeiten generativer künstlicher Intelligenz haben gerade erst begonnen

Jetzt können Sie diese Wahrscheinlichkeitsverteilung verwenden, um neue Bilder zu generieren. Alles, was Sie tun müssen, ist, neue Datenpunkte nach dem Zufallsprinzip zu generieren und dabei die Einschränkungen einzuhalten, mehr mögliche Daten häufiger zu generieren – ein Prozess, der als „Abtastung“ der Verteilung bezeichnet wird. Jeder neue Punkt ist ein neues Bild.

Die gleiche Analyse gilt für realistischere Graustufenfotos, beispielsweise mit jeweils einem Megapixel. Nur erfordert das Zeichnen jedes Bildes jetzt eine Million anstelle von zwei Achsen. Die Wahrscheinlichkeitsverteilung für ein solches Bild wäre eine komplexe mehrdimensionale Oberfläche. Wenn Sie diese Verteilung abtasten, erhalten Sie eine Million Pixelwerte. Drucken Sie diese Pixel auf ein Blatt Papier und das Bild wird höchstwahrscheinlich wie ein Foto aus dem Originaldatensatz aussehen.

Die Herausforderung der generativen Modellierung besteht darin, diese komplexe Wahrscheinlichkeitsverteilung für einige Bilder zu lernen, aus denen die Trainingsdaten bestehen. Die Verteilung ist zum Teil deshalb nützlich, weil sie ein breites Spektrum an Informationen über die Daten erfasst, und zum Teil, weil Forscher Wahrscheinlichkeitsverteilungen aus verschiedenen Datentypen wie Text und Bildern kombinieren können, um ultrarealistische Ergebnisse zu erstellen, etwa einen Goldfisch, der daran nippt ein Strandgetränk Coca-Cola. „Man kann verschiedene Konzepte kombinieren … um völlig neue Szenarien zu erstellen, die noch nie in den Trainingsdaten zu sehen waren“, sagte Anandkumar.

Im Jahr 2014 war ein Modell namens Generative Adversarial Network (GAN) das erste Modell, das realistische Bilder generierte. „Es ist so aufregend“, sagte Anandkumar. Aber GANs sind schwer zu trainieren: Sie lernen möglicherweise nicht die vollständige Wahrscheinlichkeitsverteilung und generieren möglicherweise nur Bilder aus einer Teilmenge der Verteilung. Beispielsweise könnte ein GAN, das auf Bildern verschiedener Tiere trainiert wurde, möglicherweise nur Bilder von Hunden erzeugen.

Maschinelles Lernen erfordert ein leistungsfähigeres Modell. Eine Antwort gibt Jascha Sohl-Dickstein, dessen Arbeit von der Physik inspiriert ist.

Die physikalischen Prinzipien, die die moderne Kunst der künstlichen Intelligenz inspirieren, und die Erforschung der Möglichkeiten generativer künstlicher Intelligenz haben gerade erst begonnen

Jascha Sohl-Dickstein.

Aufregende Orte

Ungefähr zu der Zeit, als GANs erfunden wurden, war Sohl-Dickstein Postdoc an der Stanford University, wo er generative Modelle studierte und sich auch für Nichtgleichgewichts-Thermodynamik interessierte. Dieser Zweig der Physik untersucht Systeme, die sich nicht im thermischen Gleichgewicht befinden – solche, die intern und mit ihrer Umgebung Materie und Energie austauschen.

Ein anschauliches Beispiel ist ein Tropfen blauer Tinte, der sich in einem Wasserbehälter ausbreitet. Zunächst bildet sich an einer Stelle ein schwarzer Fleck. Wenn Sie an dieser Stelle die Wahrscheinlichkeit berechnen möchten, Tintenmoleküle in einem kleinen Volumen des Behälters zu finden, benötigen Sie eine Wahrscheinlichkeitsverteilung, die den Anfangszustand vor Beginn der Ausbreitung der Tinte klar modelliert. Diese Verteilung ist jedoch komplex und daher schwer zu beproben.

Irgendwann verteilt sich die Tinte jedoch im Wasser und färbt das Wasser hellblau. Dies ermöglicht eine einfachere und gleichmäßigere Wahrscheinlichkeitsverteilung von Molekülen, die durch einfache mathematische Ausdrücke beschrieben werden. Die Nichtgleichgewichtsthermodynamik beschreibt die Wahrscheinlichkeitsverteilung bei jedem Schritt im Diffusionsprozess. Entscheidend ist, dass jeder Schritt umkehrbar ist – in ausreichend kleinen Schritten können Sie von einer einfachen Verteilung zu einer komplexen Verteilung zurückkehren.

Die physikalischen Prinzipien, die die moderne Kunst der künstlichen Intelligenz inspirieren, und die Erforschung der Möglichkeiten generativer künstlicher Intelligenz haben gerade erst begonnen

Jascha Sohl-Dickstein hat einen neuen generativen Modellierungsansatz basierend auf Diffusionsprinzipien entwickelt. ——Asako Miyakawa

Sohl-Dickstein entwickelte generative Modellierungsalgorithmen unter Verwendung von Diffusionsprinzipien. Die Idee ist einfach: Der Algorithmus wandelt zunächst die komplexen Bilder im Trainingsdatensatz in einfaches Rauschen um – ähnlich dem Wechsel von einem Tintentropfen zu einem diffusen hellblauen Wasser – und bringt dem System dann bei, den Prozess umzukehren, indem es das umwandelt Rauschen in für Bilder.

So funktioniert es. Zunächst erhält der Algorithmus Bilder aus dem Trainingssatz. Unter der Annahme, dass jedes der Millionen Pixel einen bestimmten Wert hat, können wir das Bild wie zuvor als Punkt in einem millionendimensionalen Raum darstellen. Der Algorithmus fügt jedem Pixel bei jedem Zeitschritt etwas Rauschen hinzu, was der Tintenausbreitung nach einem kleinen Zeitschritt entspricht. Während dieser Prozess fortschreitet, werden die Pixelwerte immer weniger mit ihren Werten im Originalbild verknüpft und die Pixel sehen eher wie eine einfache Rauschverteilung aus. (Der Algorithmus verschiebt außerdem jeden Pixelwert bei jedem Schritt ein wenig in Richtung des Ursprungs, der der Nullwert auf allen diesen Achsen ist. Dieser Schub verhindert, dass die Pixelwerte zu groß werden, als dass der Computer sie problemlos verarbeiten könnte.)

Wenn Sie dies für alle Bilder im Datensatz tun, wird die anfängliche komplexe Verteilung von Punkten in einem millionendimensionalen Raum (die nicht einfach beschrieben und abgetastet werden kann) zu einem einfachen, normalverteilten Punkt um den Ursprung herum.

Sohl-Dickstein sagte: „Eine sehr langsame Transformation der Sequenz verwandelt Ihre Datenverteilung in einen großen Rauschball.“ Dieser „Vorwärtsprozess“ ergibt eine Verteilung, die leicht abgetastet werden kann.

Als nächstes kommt der Teil des maschinellen Lernens: Geben Sie dem neuronalen Netzwerk die verrauschten Bilder aus dem Vorwärtsdurchlauf und trainieren Sie es, weniger verrauschte Bilder vorherzusagen, die einen Schritt früher kamen. Da es zunächst Fehler macht, passen Sie die Parameter des Netzwerks an, um es besser zu machen. Letztendlich können neuronale Netze verrauschte Bilder, die Stichproben aus einfachen Verteilungen darstellen, zuverlässig in Bilder umwandeln, die Stichproben aus komplexen Verteilungen darstellen.

Das trainierte Netzwerk ist ein ausgereiftes generatives Modell. Jetzt benötigen Sie für den Vorwärtsdurchlauf nicht einmal das Originalbild: Sie verfügen über eine vollständige mathematische Beschreibung der einfachen Verteilung, sodass Sie direkt daraus Stichproben durchführen können. Das neuronale Netzwerk kann diese Probe – die im Wesentlichen nur statisch ist – in ein endgültiges Bild umwandeln, das den Bildern im Trainingsdatensatz ähnelt.

Sohl-Dickstein erinnert sich an die erste Ausgabe seines Diffusionsmodells. „Sie blinzeln und sagen: ‚Ich glaube, dieser farbige Klecks sieht aus wie ein Lastwagen‘“, sagte er. „Ich habe viele Monate damit verbracht, auf verschiedene Pixelmuster zu starren und zu versuchen, eine Struktur zu finden, die mir gefällt, [und diese ist organisierter als je zuvor.] Ich bin super aufgeregt

Der Blick nach vorne

Sohl-Dickstein veröffentlichte seinen Diffusionsmodellalgorithmus im Jahr 2015, aber er bleibt immer noch weit hinter den Fähigkeiten von GANs zurück. Während das Diffusionsmodell die gesamte Verteilung abtasten kann und niemals nur eine Teilmenge des Bildes ausspuckt, sieht das Bild schlechter aus und der Prozess ist zu langsam. „Ich glaube nicht, dass es damals aufregend war“, sagte Sohl-Dickstein. 🔜 von Ihrem Originalwerk bis hin zu modernen Diffusionsmodellen wie DALL·E 2. Der erste war Song, damals Doktorand an der Stanford University. Im Jahr 2019 veröffentlichten er und sein Mentor eine neue Methode zum Aufbau generativer Modelle, die keine Wahrscheinlichkeitsverteilungen von Daten (hochdimensionale Oberflächen) schätzt. Stattdessen wird der Gradient der Verteilung geschätzt (stellen Sie sich das als die Steigung einer hochdimensionalen Oberfläche vor).

Die physikalischen Prinzipien, die die moderne Kunst der künstlichen Intelligenz inspirieren, und die Erforschung der Möglichkeiten generativer künstlicher Intelligenz haben gerade erst begonnen

Yang Song half dabei, eine neue Technik zur Bilderzeugung vorzuschlagen, indem er ein Netzwerk darauf trainierte, verrauschte Bilder effizient zu interpretieren.

Song entdeckte, dass seine Technik seine Technik effektiv entrauschte, wenn er zuerst jedes Bild im Trainingsdatensatz mit steigenden Rauschpegeln störte und dann sein neuronales Netzwerk das Originalbild mithilfe von Verteilungsgradienten vorhersagen ließ. Nach dem Training kann sein neuronales Netzwerk verrauschte Bilder aus einer einfachen Verteilung ziehen und sie nach und nach wieder in Bilder umwandeln, die den Trainingsdatensatz repräsentieren. Die Bildqualität ist großartig, aber die Abtastung seines maschinellen Lernmodells ist sehr langsam. Und er tat es, ohne etwas über Sohl-Dicksteins Arbeit zu wissen. „Ich wusste nichts über Diffusionsmodelle“, sagte Song. „Nachdem unsere Arbeit aus dem Jahr 2019 veröffentlicht wurde, erhielt ich eine E-Mail von Jascha. Er wies mich darauf hin, dass [unsere Modelle] sehr eng miteinander verbunden seien.“ Die Arbeit könnte das Sohl-Dickstein-Diffusionsmodell verbessern. Jonathan Ho hat kürzlich seine Doktorarbeit in generativer Modellierung an der University of California, Berkeley abgeschlossen, setzt seine Forschung jedoch fort. „Ich denke, das ist die mathematisch schönste Teildisziplin des maschinellen Lernens“, sagte er.

Ho hat das Sohl-Dickstein-Diffusionsmodell unter Verwendung einiger Ideen von Song und anderer Fortschritte auf dem Gebiet der neuronalen Netze neu entworfen und aktualisiert. „Ich wusste, dass ich das Modell brauchte, um schöne Beispiele zu generieren, um die Aufmerksamkeit der Community zu erregen“, sagte er. „Ich war überzeugt, dass es das Wichtigste war, was ich damals tun konnte.“

Die physikalischen Prinzipien, die die moderne Kunst der künstlichen Intelligenz inspirieren, und die Erforschung der Möglichkeiten generativer künstlicher Intelligenz haben gerade erst begonnen

Seine Intuition war richtig. Ho und Kollegen kündigten dieses neue und verbesserte Diffusionsmodell in einem Artikel aus dem Jahr 2020 mit dem Titel „Denoising Probabilistic Diffusion Models“ an. Es wurde schnell zu einem solchen Meilenstein, dass Forscher es jetzt einfach als DDPM bezeichnen. Bei einem Bildqualitäts-Benchmark, der die Verteilung der generierten Bilder mit der Verteilung der Trainingsbilder vergleicht, erreichten oder übertrafen diese Modelle alle konkurrierenden generativen Modelle, einschließlich GANs. Es dauerte nicht lange, bis große Unternehmen darauf aufmerksam wurden. Heutzutage verwenden DALL·E 2, Stable Diffusion, Imagen und andere kommerzielle Modelle einige Variationen von DDPM.

Die physikalischen Prinzipien, die die moderne Kunst der künstlichen Intelligenz inspirieren, und die Erforschung der Möglichkeiten generativer künstlicher Intelligenz haben gerade erst begonnen

Jonathan Ho und Kollegen kombinierten die Methoden von Sohl-Dickstein und Song, um moderne Diffusionsmodelle zu erstellen sind möglich, etwa DALL·E 2.

Es gibt ein weiteres Schlüsselelement moderner Diffusionsmodelle: große Sprachmodelle (LLMs) wie GPT-3. Hierbei handelt es sich um generative Modelle, die auf Internettext trainiert werden, um Wahrscheinlichkeitsverteilungen über Wörter und nicht über Bilder zu lernen. Im Jahr 2021 zeigten Ho (heute Forschungswissenschaftler bei einem Stealth-Unternehmen) und sein Kollege Tim Salimans bei Google Research und anderen Gruppen anderswo, wie man Informationen aus LLM und bildgenerierenden Diffusionsmodellen mithilfe von Text kombinieren kann (z. B. „Goldfisch nippt an Coca-Cola“) on the Beach"), um den Diffusionsprozess und damit die Bilderzeugung zu steuern. Dieser Prozess der „geführten Diffusion“ ist der Grund für den Erfolg von Text-zu-Bild-Modellen wie DALL·E 2. „Sie haben meine kühnsten Erwartungen weit übertroffen“, sagte Ho. „Ich werde nicht so tun, als hätte ich alles gesehen.“ Erfolgreich, aber die Grafik des DALL·E 2 und seinesgleichen ist noch lange nicht perfekt. Große Sprachmodelle können in den von ihnen generierten Texten kulturelle und soziale Vorurteile wie Rassismus und Sexismus widerspiegeln. Das liegt daran, dass sie anhand von Texten aus dem Internet geschult wurden, die häufig rassistische und sexistische Sprache enthalten. LLMs, die Wahrscheinlichkeitsverteilungen für solche Texte lernen, sind mit denselben Vorurteilen behaftet. Diffusionsmodelle werden auch auf nicht kuratierten Bildern aus dem Internet trainiert, die möglicherweise ähnlich verzerrte Daten enthalten. Es ist kein Wunder, dass die Kombination eines LLM mit heutigen Kommunikationsmodellen manchmal Bilder hervorbringt, die soziale Missstände widerspiegeln.

Anandkumar hat persönliche Erfahrung. Sie war schockiert, als sie versuchte, mithilfe einer auf Diffusionsmodellen basierenden Anwendung einen stilisierten Avatar ihrer selbst zu erstellen. „Viele Bilder sind stark sexualisiert“, sagte sie, „und was sie Männern präsentieren, ist nicht allein.“

Dies kann durch Sortieren und Filtern der Daten (eine äußerst schwierige Aufgabe angesichts der schieren Größe des Datensatzes) oder durch Untersuchen der Eingabehinweise und Ausgaben dieser Modelle erfolgen um diese Abweichungen zu reduzieren. „Natürlich gibt es keinen Ersatz für sorgfältige und umfassende Sicherheitstests“ eines Modells, sagte Ho. „Dies ist eine wichtige Herausforderung für das Fachgebiet.“

Trotz dieser Bedenken glaubt Anandkumar immer noch an die Kraft der generativen Modellierung. „Ich mag Richard Feynmans Zitat wirklich: ‚Was ich nicht erschaffen kann, verstehe ich nicht‘“, sagt sie. Das verbesserte Verständnis ermöglicht es ihrem Team, generative Modelle zu entwickeln, die beispielsweise synthetische Trainingsdaten für unterrepräsentierte Klassen für Vorhersageaufgaben generieren, etwa dunklere Hauttöne für die Gesichtserkennung, und so zur Verbesserung der Fairness beitragen. Generative Modelle können uns auch Einblicke in die Art und Weise geben, wie unser Gehirn verrauschte Eingaben verarbeitet oder wie es mentale Bilder hervorruft und über zukünftige Aktionen nachdenkt. Der Aufbau komplexerer Modelle könnte der KI ähnliche Fähigkeiten verleihen.

Anandkumar sagte: „Ich denke, wir fangen gerade erst an, die Möglichkeiten der generativen künstlichen Intelligenz zu erkunden.“

Das obige ist der detaillierte Inhalt vonDie physikalischen Prinzipien, die die moderne Kunst der künstlichen Intelligenz inspirieren, und die Erforschung der Möglichkeiten generativer künstlicher Intelligenz haben gerade erst begonnen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen