Heim >Technologie-Peripheriegeräte >KI >Googles neue KI ist heiß! Sie können das längste Wort der Welt zeichnen

Googles neue KI ist heiß! Sie können das längste Wort der Welt zeichnen

王林nach vorne: 2023-04-09 21:51:051631Durchsuche

Freund, weißt du, was dieses englische Wort ist?

Pneumonoultramicroscopicsilicovolcanoconiosis.

Dies gilt als das längste Wort der Welt – bestehend aus 45 Buchstaben, was „Krankheit, die durch die Ablagerung von vulkanischen Kieselsäurepartikeln in der Lunge verursacht wird“ bedeutet. (Allgemein bekannt als vulkanische Silikose).

Aber was wäre, wenn Sie dieses Wort nicht buchstabieren, sondern ... zeichnen würden?

(Du kannst nicht einmal lesen, aber du zeichnest trotzdem???)

Googles neueste KI, Parti, kann das problemlos halten.

Nachdem dieses Wort an Parti „gefüttert“ wurde, können mehrere vernünftige Bilder von Lungenerkrankungen generiert werden:

Googles neue KI ist heiß! Sie können das längste Wort der Welt zeichnen

Aber Dies ist nur ein kleiner Test der Fähigkeiten von Parti. Laut Google handelt es sich um die derzeit fortschrittlichste „Text-zu-Bild“-KI.

Wenn Sie zum Beispiel sagen: „Kombinieren Sie das Sydney Opera House mit dem Eiffelturm“, sieht die Ausgabe so aus:

Googles neue KI ist heiß! Sie können das längste Wort der Welt zeichnen #🎜🎜 #

(Für diejenigen, die es nicht wissen, ich dachte wirklich, es sei ein Bild)

Darüber hinaus unterscheidet es sich auch in Bezug auf den Algorithmus von Googles eigenem Imagen „KI-Malerei“ zu neuen Höhen geführt zu haben.

Googles neue KI ist heiß! Sie können das längste Wort der Welt zeichnen

Sogar Jeff Dean, der Chef von Google AI, hat mehrmals getwittert und hatte eine tolle Zeit:

#🎜🎜 ##🎜🎜 #

Erweiterbar auf 20 Milliarden Parameter: realistischer und „intelligenter“ Googles neue KI ist heiß! Sie können das längste Wort der Welt zeichnen

Tatsächlich hören die Fähigkeiten von Parti hier nicht auf.

Dank der Skalierbarkeit des Modells auf 20 Milliarden Parameter sind die erzeugten Bilder einerseits detaillierter und realistischer.

Ob es sich nur um ein paar Wörter oder einen kurzen Absatz mit mehr als fünfzig Wörtern handelt, es kann klar dargestellt werden.

Zum Beispiel: Der Rücken einer Geige, die Rückseite der Geige.

Oder es kann als Nachtszene basierend auf Van Goghs „Sternennacht“ beschrieben werden. PS: Dieser Absatz besteht aus 67 Wörtern. Googles neue KI ist heiß! Sie können das längste Wort der Welt zeichnen

Daher ist Parti kein Problem und ich habe alle Bilder verschiedener Stilrichtungen für Sie in einem Paket gezeichnet~ Googles neue KI ist heiß! Sie können das längste Wort der Welt zeichnen # 🎜🎜## 🎜🎜#

Dies ist auch Partis zweitgrößte Fähigkeit. Nicht nur die Details sind vorhanden, auch der Stil kann variiert werden.

Es gibt auch seltsame Beschreibungen wie „Ein Waschbär trägt einen formellen Anzug, einen Zylinder, einen Gehstock und einen Müllsack“. Es kann auch ein blumiges Werk entstehen, ohne dass Details fehlen. Googles neue KI ist heiß! Sie können das längste Wort der Welt zeichnen

In Bezug auf den Stil gibt es Van-Gogh-Stil, ägyptischen Pharaonenstil, Pixelstil, traditionellen chinesischen Malstil, abstrakten Stil ...

#🎜 🎜#

Manchmal werden sogar Wortspielwitze erzählt.

Googles neue KI ist heiß! Sie können das längste Wort der Welt zeichnen

（Toad'ay，癞蟆）

Insbesondere in den Testergebnissen, MS-COCO, Localized Narrative (LN , 4-mal längere Beschreibung) auf FID-Scores erzielt Parti Ergebnisse auf dem neuesten Stand der Technik.

Googles neue KI ist heiß! Sie können das längste Wort der Welt zeichnen

Insbesondere der FID-Score der MS-COCO-Nullprobe beträgt nur 7,23, und der fein abgestimmte FID-Score beträgt 3,22 und übertrifft damit die vorherigen Imagen und DALL -E 2 .

Alle Komponenten sind Transformer

Googles neue KI ist heiß! Sie können das längste Wort der Welt zeichnen Nach einem Monat hat Google die KI-Malerei auf ein neues Niveau gehoben, aber der Autor sagte: Das Geheimnis ist einfach.

Googles neue KI ist heiß! Sie können das längste Wort der Welt zeichnen

Parti behandelt hauptsächlich textgenerierte Bilder als Sequenz-zu-Sequenz-Modellierung. Dies ähnelt in gewisser Weise der maschinellen Übersetzung, bei der Text-Tokens als Eingabe an den Encoder übergeben werden und sich die Zielausgabe von Text in ein Bild ändert.

Strukturell bestehen alle seine Komponenten nur aus drei Teilen: Encoder, Decoder und Bild-Tagger, und alle basieren auf dem Standard-Transformer.

Googles neue KI ist heiß! Sie können das längste Wort der Welt zeichnen

Zuerst wird das Bild mithilfe des Transformer-basierten Bild-Taggers ViT-VQGAN in eine diskrete Folge von Tags codiert.

Dann werden die Parameter durch die Codierungs-Decodierungsstruktur von Transformer auf 20 Milliarden erweitert.

Frühere Forschungen zur Bilderzeugung aus Text, mit Ausnahme des frühesten GAN, lassen sich grob in zwei Ideen unterteilen.

Eines basiert auf dem autoregressiven Modell. Zuerst werden Textmerkmale auf Bildmerkmale abgebildet, und dann wird eine Sequenzarchitektur ähnlich der von Transformer verwendet, um die Beziehung zwischen Spracheingabe und Bildausgabe zu lernen.

Eine Schlüsselkomponente dieses Ansatzes ist der Bild-Tagger, der jedes Bild in eine Folge diskreter Einheiten umwandelt. Beispielsweise übernehmen DALL-E und CogView diese Idee.

Der andere Weg hat in dieser Zeit häufig Fortschritte gemacht – Text-zu-Bild-Modelle, die auf Diffusion basieren, wie DALL-E 2 und Imagen.

Sie haben den Bild-Tagger aufgegeben und stattdessen ein Diffusionsmodell verwendet, um Bilder direkt zu generieren. Es ist zu erkennen, dass diese Modelle qualitativ hochwertigere Bilder erzeugen und beim MS-COCO-Zero-Shot-FID besser abschneiden.

Googles neue KI ist heiß! Sie können das längste Wort der Welt zeichnen

Der Erfolg des Parti-Modells beweist, dass das autoregressive Modell verwendet werden kann, um die Wirkung von textgenerierten Bildern zu verbessern.

Gleichzeitig hat Parti auch einen neuen Benchmark-Test eingeführt und veröffentlicht – PartiPrompts, mit dem die Fähigkeiten des Modells in 12 Kategorien und 11 Herausforderungen gemessen werden.

Googles neue KI ist heiß! Sie können das längste Wort der Welt zeichnen

Aber Parti hat immer noch gewisse Einschränkungen, und die Forscher zeigten auch einige Fehler:

Zum Beispiel ist die negative Beschreibung nutzlos~

Ein Teller ohne Bananen und daneben ein Glas ohne Orangensaft und eine Tasse.

Googles neue KI ist heiß! Sie können das längste Wort der Welt zeichnen

Machen Sie auch einige vernünftige Fehler, wie zum Beispiel eine unangemessene Skalierung. Auf diesem Bild ist der Roboter beispielsweise um ein Vielfaches größer als ein Rennwagen.

Googles neue KI ist heiß! Sie können das längste Wort der Welt zeichnen

Ein glänzender Roboter im Rennanzug und schwarzem Visier steht stolz vor einem F1-Auto. Die Sonne geht über dem Stadtbild unter. Comic-Illustration.

Google „rollen Sie sich“

Diese Studie stammt von Google Research und die meisten Teammitglieder sind Chinesen.

Googles neue KI ist heiß! Sie können das längste Wort der Welt zeichnen

Zu den Kernforschungsmitarbeitern gehören Yuanzhong Xu, Thang Luong usw., die derzeit bei Google in der KI-bezogenen Forschung arbeiten.

(Thang Luong wurde bis zu 20.000 Mal auf Google Scholar zitiert)

Googles neue KI ist heiß! Sie können das längste Wort der Welt zeichnen

△Links: Yuanzhong Xu; Rechts: Thang Luong

Aber das Interessante ist, dass beide „ein Wort sagen, um die KI zeichnen zu lassen“ , und das gleiche Imagen wird von Google erstellt und hat viel mit Parti zu tun.

Es wird in der GitHub-Projektdokumentation von Parti erwähnt:

Vielen Dank an das Imagen-Team, das uns seine aktuellen vollständigen Ergebnisse vor der Veröffentlichung von Imagen mitgeteilt hat.

Ihre wichtigen Entdeckungen in der CF-Anleitung waren besonders hilfreich für das endgültige Parti-Modell.

Googles neue KI ist heiß! Sie können das längste Wort der Welt zeichnen

Und Burcu Karagol Ayan, einer der Autoren von Imagen, beteiligte sich ebenfalls am Parti-Projekt.

(Es ist wie bei Google „roll it yourself“)

Nicht nur das, auch Aditya Ramesh, der Autor des „von nebenan“ DALL-E 2, diskutierte auch die MS-COCO-Bewertung für Parti.

und die Autoren von DALL-Eval leisteten auch Hilfe bei der Parti-Datenarbeit.

Noch etwas

Eines lässt sich sagen: „Textgeneriertes Bild“ ist nicht nur der Liebling der Forscher.

Internetnutzer werden nie müde, damit zu „spielen“ (seien Sie nicht zu einfallsreich).

Vor einiger Zeit habe ich Imagen gebeten, einen „Tiger in VR“ aus der Song-Dynastie zu zeichnen, der sich direkt zu einem KI-Malkampf entwickelte.

Googles neue KI ist heiß! Sie können das längste Wort der Welt zeichnen

△Bild: Kunst von Imagen

DALL·E, MidJourney und andere „kamen, nachdem sie die Neuigkeiten gehört hatten“, um teilzunehmen.

Googles neue KI ist heiß! Sie können das längste Wort der Welt zeichnen

△ Zeichnung von DALL·E

Es gibt sogar eine Kombination aus Wordle und DALL-E 2:

Googles neue KI ist heiß! Sie können das längste Wort der Welt zeichnen

...

Aber diesmal zurück nach Parti, es macht Spaß, aber immer noch Einige Internetnutzer stellte eine Frage, die „direkt in die Seele schneidet“:

Googles neue KI ist heiß! Sie können das längste Wort der Welt zeichnen

Wann wird es kommerzialisiert? Es wäre sinnlos, alleine „hinter verschlossenen Türen zu spielen“.

Parti-Paper-Adresse:

https://parti.research.google/

GitHub-Projektadresse:

https://github.com/google-research/parti

Referenzlink :

[1]https://twitter.com/lmthang/status/1539664610596225024[2]https://gizmodo.com/new-browser-game-combines-dall-e-mini-and-wordle-1849105289 [3]https://imagen.research.google/

Das obige ist der detaillierte Inhalt vonGoogles neue KI ist heiß! Sie können das längste Wort der Welt zeichnen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme：

Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Vorheriger Artikel：Warum ist künstliche Intelligenz für die Biotechnologie von entscheidender Bedeutung?Nächster Artikel：Warum ist künstliche Intelligenz für die Biotechnologie von entscheidender Bedeutung?

In Verbindung stehende Artikel

Mehr sehen