Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  „MiniGPT-4 beweist seine erstaunlichen Bilderkennungsfähigkeiten und vielfältigen Funktionen: Chatten mit Bildern, Erstellen von Websites mit Skizzen usw.“

„MiniGPT-4 beweist seine erstaunlichen Bilderkennungsfähigkeiten und vielfältigen Funktionen: Chatten mit Bildern, Erstellen von Websites mit Skizzen usw.“

WBOY
WBOYnach vorne
2023-04-24 11:16:15894Durchsuche

Für Menschen ist das Verstehen der Informationen eines Bildes nichts weiter als eine triviale Angelegenheit. Menschen können die Bedeutung eines Bildes beiläufig erkennen, ohne darüber nachzudenken. Genau wie auf dem Bild unten ist das Ladegerät, an das das Telefon angeschlossen ist, etwas ungeeignet. Menschen können das Problem auf einen Blick erkennen, aber für KI ist es immer noch sehr schwierig.

„MiniGPT-4 beweist seine erstaunlichen Bilderkennungsfähigkeiten und vielfältigen Funktionen: Chatten mit Bildern, Erstellen von Websites mit Skizzen usw.“

Das Aufkommen von GPT-4 hat begonnen, diese Probleme zu erleichtern, und es kann schnell auf die Bilder hinweisen . Das Problem: VGA-Kabel zum Aufladen des iPhone.

Tatsächlich ist der Charme von GPT-4 weitaus geringer. Noch aufregender ist es, handgezeichnete Skizzen zu verwenden, um Websites direkt zu erstellen Gekritzeltes Diagramm auf dem Entwurfspapier und machen Sie ein Foto. Senden Sie dann das Foto an GPT-4 und lassen Sie es den Website-Code gemäß dem Diagramm schreiben. Whoosh, GPT-4 hat den Webseiten-Code geschrieben.

Leider ist diese Funktion von GPT-4 noch nicht für die Öffentlichkeit zugänglich und es ist unmöglich, damit anzufangen und sie zu erleben. Einige Leute können jedoch nicht länger warten und ein Team der King Abdullah University of Science and Technology (KAUST) hat ein ähnliches Produkt wie GPT-4 entwickelt – MiniGPT-4. Zu den Teamforschern gehören Zhu Deyao, Chen Jun, Shen Xiaoqian, Li Xiang und Mohamed H. Elhoseiny, die alle der Vision-CAIR-Forschungsgruppe von KAUST angehören.

„MiniGPT-4 beweist seine erstaunlichen Bilderkennungsfähigkeiten und vielfältigen Funktionen: Chatten mit Bildern, Erstellen von Websites mit Skizzen usw.“

  • Papieradresse: https:/ /github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf
  • Paper-Homepage: https:/ /minigpt-4.github.io/
  • Code-Adresse: https://github.com/Vision-CAIR/MiniGPT- MiniGPT-4 verfügt über viele GPT-4-ähnliche Funktionen, z. B. das Generieren detaillierter Bildbeschreibungen und das Erstellen einer Website aus handschriftlichen Entwürfen. Darüber hinaus beobachteten die Autoren andere neue Funktionen von MiniGPT-4, darunter das Erstellen von Geschichten und Gedichten auf der Grundlage vorgegebener Bilder, die Bereitstellung von Lösungen für in Bildern gezeigte Probleme, das Erlernen des Kochens für Benutzer anhand von Lebensmittelfotos usw.
  • MiniGPT-4 Es ist leicht zu reden, wenn man sich nur die Bilder ansieht

MiniGPT-4 Was ist der Effekt? Beginnen wir mit ein paar Beispielen. Um eine bessere Erfahrung mit MiniGPT-4 zu erzielen, wird außerdem empfohlen, zum Testen die englische Eingabe zu verwenden.

Lassen Sie uns zunächst die Fähigkeit von MiniGPT-4 untersuchen, Bilder zu beschreiben. Für das Bild links lautet die Antwort von MiniGPT-4 ungefähr: „Das Bild beschreibt einen Kaktus, der auf einem zugefrorenen See wächst. Um den Kaktus herum befinden sich riesige Eiskristalle und in der Ferne sind schneebedeckte Gipfel zu sehen …“ „Wenn Sie als nächstes fragen: Könnte dieses Szenario in der realen Welt passieren? Die Antwort von MiniGPT-4 lautet, dass dieses Bild in der realen Welt nicht häufig vorkommt und warum.

Als nächstes werfen wir einen Blick auf die MiniGPT-4-Bildfrage und Antwortfähigkeit. Frage: „Was stimmt mit dieser Pflanze nicht? Was soll ich tun?“ MiniGPT-4 wies nicht nur auf das Problem hin, sondern gab auch an, dass die Blätter mit braunen Flecken durch eine Pilzinfektion verursacht werden könnten, und gab Behandlungsschritte an:

„MiniGPT-4 beweist seine erstaunlichen Bilderkennungsfähigkeiten und vielfältigen Funktionen: Chatten mit Bildern, Erstellen von Websites mit Skizzen usw.“

Betrachtet man einige Beispiele, ist die Bild-Chat-Funktion von MiniGPT-4 bereits sehr leistungsstark. Darüber hinaus kann MiniGPT-4 Websites aus Skizzen erstellen. Lassen Sie MiniGPT-4 beispielsweise eine Webseite gemäß dem Entwurfsdiagramm auf der linken Seite zeichnen. Nach Erhalt der Anweisung gibt MiniGPT-4 den entsprechenden HTML-Code und die entsprechende Website nach Bedarf aus:

„MiniGPT-4 beweist seine erstaunlichen Bilderkennungsfähigkeiten und vielfältigen Funktionen: Chatten mit Bildern, Erstellen von Websites mit Skizzen usw.“#🎜 🎜## 🎜🎜#

Mit MiniGPT-4 ist das Schreiben von Werbeslogans für Bilder ganz einfach geworden. Bitten Sie MiniGPT-4, einen Werbetext für die Tasse links zu schreiben. MiniGPT-4 hat das verschlafene Katzenmuster auf der Tasse genau hervorgehoben, was für Kaffeeliebhaber und Katzenliebhaber sehr gut geeignet ist. Es hat auch auf das Material der Tasse usw. hingewiesen:

„MiniGPT-4 beweist seine erstaunlichen Bilderkennungsfähigkeiten und vielfältigen Funktionen: Chatten mit Bildern, Erstellen von Websites mit Skizzen usw.“

MiniGPT-4 Kann auch ein Rezept aus einem Bild erzeugen und ein Küchenexperte werden:

„MiniGPT-4 beweist seine erstaunlichen Bilderkennungsfähigkeiten und vielfältigen Funktionen: Chatten mit Bildern, Erstellen von Websites mit Skizzen usw.“

Erklären Sie das weit verbreitete Meme:

„MiniGPT-4 beweist seine erstaunlichen Bilderkennungsfähigkeiten und vielfältigen Funktionen: Chatten mit Bildern, Erstellen von Websites mit Skizzen usw.“

Rite ein Gedicht basierend auf dem Bild:

„MiniGPT-4 beweist seine erstaunlichen Bilderkennungsfähigkeiten und vielfältigen Funktionen: Chatten mit Bildern, Erstellen von Websites mit Skizzen usw.“

Erwähnenswert ist außerdem, dass die MiniGPT-4-Demo jetzt geöffnet ist und online gespielt werden kann (es wird empfohlen, den Test auf Englisch durchzuführen):

„MiniGPT-4 beweist seine erstaunlichen Bilderkennungsfähigkeiten und vielfältigen Funktionen: Chatten mit Bildern, Erstellen von Websites mit Skizzen usw.“

Demo-Adresse: https://0810e8582bcad31944.gradio.live/

Nach der Veröffentlichung des Projekts erregte es große Aufmerksamkeit bei den Internetnutzern. Lassen Sie zum Beispiel MiniGPT-4 die Objekte im Bild erklären:

„MiniGPT-4 beweist seine erstaunlichen Bilderkennungsfähigkeiten und vielfältigen Funktionen: Chatten mit Bildern, Erstellen von Websites mit Skizzen usw.“

Weitere Testerfahrungen von Internetnutzern finden Sie unten:

„MiniGPT-4 beweist seine erstaunlichen Bilderkennungsfähigkeiten und vielfältigen Funktionen: Chatten mit Bildern, Erstellen von Websites mit Skizzen usw.“

„MiniGPT-4 beweist seine erstaunlichen Bilderkennungsfähigkeiten und vielfältigen Funktionen: Chatten mit Bildern, Erstellen von Websites mit Skizzen usw.“

Methode. Einführung

Autor Es wird angenommen, dass das fortschrittliche Large Language Model (LLM) von GPT-4 der Hauptgrund für seine fortschrittlichen multimodalen Generierungsfunktionen ist. Um dieses Phänomen zu untersuchen, schlagen die Autoren MiniGPT-4 vor, das eine Projektionsebene verwendet, um einen eingefrorenen visuellen Encoder und ein eingefrorenes LLM (Vicuna) auszurichten.

MiniGPT-4 besteht aus einem vorab trainierten visuellen ViT- und Q-Former-Encoder, einer separaten linearen Projektionsschicht und einem erweiterten Vicuna-Sprachmodell in großem Maßstab. MiniGPT-4 erfordert lediglich das Training linearer Ebenen, um visuelle Merkmale an Vicuna auszurichten.

„MiniGPT-4 beweist seine erstaunlichen Bilderkennungsfähigkeiten und vielfältigen Funktionen: Chatten mit Bildern, Erstellen von Websites mit Skizzen usw.“

MiniGPT-4 wurde in zwei Stufen trainiert. Die erste herkömmliche Vortrainingsphase dauerte 10 Stunden, um auf 4 A100-GPUs mit etwa 5 Millionen ausgerichteten Bild-Text-Paaren zu trainieren. Nach der ersten Stufe war Vicuna in der Lage, Bilder zu verstehen. Aber Vicunas Textgenerierungsfähigkeiten waren stark beeinträchtigt.

Um dieses Problem zu lösen und die Benutzerfreundlichkeit zu verbessern, schlugen Forscher eine neuartige Möglichkeit vor, mithilfe des Modells selbst und ChatGPT hochwertige Bild-Text-Paare zu erstellen. Auf dieser Grundlage erstellte die Studie einen kleinen, aber qualitativ hochwertigen Datensatz (insgesamt 3500 Paare).

In der zweiten Feinabstimmungsstufe wird dieser Datensatz mithilfe von Konversationsvorlagen trainiert, um dessen Generierungszuverlässigkeit und allgemeine Benutzerfreundlichkeit deutlich zu verbessern. Diese Phase ist recheneffizient und erfordert nur eine A100GPU in etwa 7 Minuten.

Andere verwandte Arbeiten:

  • VisualGPT: https://github.com/ Vision-CAIR/VisualGPT
  • ChatCaptioner: https://github.com/Vision-CAIR/ChatCaptioner
#🎜 🎜#

Darüber hinaus werden im Projekt auch Open-Source-Codebibliotheken wie BLIP2, Lavis und Vicuna verwendet.

Das obige ist der detaillierte Inhalt von„MiniGPT-4 beweist seine erstaunlichen Bilderkennungsfähigkeiten und vielfältigen Funktionen: Chatten mit Bildern, Erstellen von Websites mit Skizzen usw.“. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen