Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Kommt der GPT-Moment der universellen Vision? Zhiyuan führt das universelle Segmentierungsmodell SegGPT ein

Kommt der GPT-Moment der universellen Vision? Zhiyuan führt das universelle Segmentierungsmodell SegGPT ein

WBOY
WBOYnach vorne
2023-04-10 14:41:101601Durchsuche

ChatGPT hat eine Begeisterung für große Sprachmodelle ausgelöst. Wann kommt der GPT-Moment für einen weiteren wichtigen Bereich der KI – Vision?

Vor zwei Tagen stellte Machine Heart Metas neueste Forschungsergebnisse Segment Anything Model (SAM) vor. Diese Forschung hat in der KI-Community für breite Diskussionen gesorgt.

Soweit wir wissen, hat das Vision-Team des Intelligent Source Research Institute fast zeitgleich auch das allgemeine Segmentierungsmodell SegGPT (Segment Everything) auf den Markt gebracht Im Kontext) – Ein allgemeines visuelles Modell, das visuelle Eingabeaufforderungen verwendet, um beliebige Segmentierungsaufgaben auszuführen.

Kommt der GPT-Moment der universellen Vision? Zhiyuan führt das universelle Segmentierungsmodell SegGPT ein

  • Papieradresse: https://arxiv.org/abs/2304.03284
  • Code-Adresse: https://github.com/baaivision/Painter
  • Demo: https://huggingface.co/spaces/BAAI/SegGPT

#🎜🎜 #SegGPT wurde gleichzeitig mit dem Meta AI-Bildsegmentierungs-Basismodell SAM veröffentlicht. Der Unterschied zwischen den beiden ist:

  • SegGPT „Ein Durchgang, „Einhundert Lösungen“: Geben Sie ein oder mehrere Beispielbilder und Absichtsmasken an, damit das Modell die Absicht des Benutzers ermitteln und ähnliche Segmentierungsaufgaben „auf die gleiche Weise“ ausführen kann. Benutzer markieren und erkennen einen Objekttyp auf dem Bildschirm und können dann ähnliche Objekte in Stapeln identifizieren und segmentieren, sei es auf dem aktuellen Bildschirm oder in anderen Bildschirmen oder Videoumgebungen.
  • SAM „One Touch and Go“: Durch einen Punkt oder Begrenzungsrahmen werden interaktive Eingabeaufforderungen auf das vorherzusagende Bild und das angegebene Objekt auf dem geteilten Bildschirm gegeben identifiziert wird.

Ob „One Touch and Go“ oder „One Pass, One Hundert Connections“, Das bedeutet alles: Das Vision-Modell „versteht“ bereits die Bildstruktur. Durch die Kombination der Feinanmerkungsfunktionen von SAM und der universellen Segmentierungsannotationsfunktionen von SegGPT kann jedes Bild aus einem Pixelarray in eine visuelle Struktureinheit analysiert und jede Szene wie biologisches Sehen verstanden werden. Der Beginn der universellen visuellen GPT ist da.

SegGPT ist ein abgeleitetes Modell des Intelligent Source General Vision Model Painter (CVPR 2023), optimiert für das Ziel, alle Objekte zu segmentieren. Nach Abschluss des SegGPT-Trainings ist keine Feinabstimmung erforderlich. Geben Sie einfach Beispiele an, um die entsprechenden Segmentierungsaufgaben automatisch zu begründen und abzuschließen, einschließlich Instanzen, Kategorien, Komponenten, Konturen, Text, Gesichtern usw. in Bildern und Videos.

Dieses Modell verfügt über die folgenden Vorteilsfähigkeiten:

1. Universelle Fähigkeit : Das Modell verfügt über kontextbezogene Argumentationsfunktionen, die auf den bereitgestellten Segmentierungsbeispielen (Eingabeaufforderung) basieren, um eine Segmentierung von „allem“ zu erreichen, einschließlich Instanzen , Kategorien, Komponenten, Konturen, Text, Gesichter, medizinische Bilder, Fernerkundungsbilder usw.

2. Flexible Denkfähigkeit: Unterstützt jede Zahleneingabe ; unterstützt abgestimmte Eingabeaufforderungen für bestimmte Szenarien; Masken unterschiedlicher Farbe können verwendet werden, um verschiedene Ziele darzustellen, um eine parallele Segmentierungsbegründung zu erreichen.

3. Automatische Videosegmentierungs- und Trackingfunktionen: Die Das erste Bild und die entsprechende Objektmaske werden als Kontextbeispiele verwendet. SegGPT kann nachfolgende Videobilder automatisch segmentieren und die Farbe der Maske als ID des Objekts verwenden, um eine automatische Verfolgung zu erreichen.

Fallpräsentation

1 Der Autor bewertete SegGPT anhand einer Vielzahl von Aufgaben, einschließlich semantischer Segmentierung mit wenigen Aufnahmen, Segmentierung von Videoobjekten, Semantische Segmentierung und Panoramasegmentierung. Die folgende Abbildung zeigt speziell die Segmentierungsergebnisse von SegGPT für Instanzen, Kategorien, Komponenten, Umrisse, Text und beliebig geformte Objekte.

Kommt der GPT-Moment der universellen Vision? Zhiyuan führt das universelle Segmentierungsmodell SegGPT ein

Kommt der GPT-Moment der universellen Vision? Zhiyuan führt das universelle Segmentierungsmodell SegGPT ein

2. Markieren Sie den Regenbogen in einem Bild (Bild oben) und teilen Sie die Regenbögen stapelweise auf (Bild unten) 3. Kreisen Sie ihn mit einem Pinsel grob ein Planetenringgürtel (oberes Bild) und geben Sie den Planetenringgürtel im Zielbild (unteres Bild) in der Vorhersagekarte genau aus.

Kommt der GPT-Moment der universellen Vision? Zhiyuan führt das universelle Segmentierungsmodell SegGPT ein

Kommt der GPT-Moment der universellen Vision? Zhiyuan führt das universelle Segmentierungsmodell SegGPT ein

4. SegGPT kann den entsprechenden Astronautenhelmbereich im neuen Bild (rechts) basierend auf dem Kontext der vom Benutzer bereitgestellten Astronautenhelmmaske (linkes Bild) vorhersagen. .

Kommt der GPT-Moment der universellen Vision? Zhiyuan führt das universelle Segmentierungsmodell SegGPT ein

Trainingsmethode

SegGPT vereint verschiedene Segmentierungsaufgaben in einem gemeinsamen Kontext-Lernrahmen und vereinheitlicht verschiedene Datenformen durch Konvertieren verschiedener Segmentierungsdaten in Bilder desselben Formats.

Kommt der GPT-Moment der universellen Vision? Zhiyuan führt das universelle Segmentierungsmodell SegGPT ein

Konkret wird das Training von SegGPT als kontextbezogenes Farbproblem mit einer zufälligen Farbzuordnung für jede Datenprobe definiert. Das Ziel besteht darin, eine Vielzahl von Aufgaben kontextabhängig zu erledigen, anstatt sich auf bestimmte Farben zu verlassen. Nach dem Training kann SegGPT durch kontextbezogenes Denken beliebige Segmentierungsaufgaben in Bildern oder Videos ausführen, z. B. Instanzen, Kategorien, Komponenten, Konturen, Text usw.

Testzeittechniken

Wie man durch Testzeittechniken verschiedene Fähigkeiten freischaltet, ist ein Highlight des universellen Modells. Das SegGPT-Papier schlägt mehrere Technologien vor, um verschiedene Segmentierungsfunktionen freizuschalten und zu verbessern, wie beispielsweise die verschiedenen Kontext-Ensemble-Methoden, die in der folgenden Abbildung dargestellt sind. Die vorgeschlagene Feature-Ensemble-Methode kann eine beliebige Anzahl von Eingabeaufforderungsbeispielen unterstützen, um einen benutzerfreundlichen Argumentationseffekt zu erzielen.

Darüber hinaus unterstützt SegGPT auch dedizierte Eingabeaufforderungen, die für bestimmte Szenarien optimiert sind. Für gezielte Nutzungsszenarien kann SegGPT durch Prompt-Tuning entsprechende Eingabeaufforderungen erhalten, ohne die Modellparameter an bestimmte Szenarien anzupassen. Erstellen Sie beispielsweise automatisch eine entsprechende Eingabeaufforderung für einen bestimmten Datensatz oder eine dedizierte Eingabeaufforderung für einen Raum. Wie in der folgenden Abbildung dargestellt:

Kommt der GPT-Moment der universellen Vision? Zhiyuan führt das universelle Segmentierungsmodell SegGPT ein

Ergebnisanzeige

Das Modell erfordert nur wenige sofortige Beispiele und erzielt eine optimale Leistung bei den COCO- und PASCAL-Datensätzen. SegGPT weist starke Zero-Shot-Szenenübertragungsfähigkeiten auf, wie z. B. das Erreichen modernster Leistung auf dem semantischen Segmentierungstestset FSS-1000 mit wenigen Aufnahmen ohne Training.

Kommt der GPT-Moment der universellen Vision? Zhiyuan führt das universelle Segmentierungsmodell SegGPT ein

Kommt der GPT-Moment der universellen Vision? Zhiyuan führt das universelle Segmentierungsmodell SegGPT ein

Ohne Video-Trainingsdaten kann SegGPT die Videoobjektsegmentierung direkt durchführen und eine Leistung erzielen, die mit Modellen vergleichbar ist, die speziell für die Videoobjektsegmentierung optimiert wurden.

Kommt der GPT-Moment der universellen Vision? Zhiyuan führt das universelle Segmentierungsmodell SegGPT ein

Das Folgende ist eine Demonstration der Auswirkung einer abgestimmten Eingabeaufforderung auf semantische Segmentierungs- und Instanzsegmentierungsaufgaben:

Kommt der GPT-Moment der universellen Vision? Zhiyuan führt das universelle Segmentierungsmodell SegGPT ein

Kommt der GPT-Moment der universellen Vision? Zhiyuan führt das universelle Segmentierungsmodell SegGPT ein

Das obige ist der detaillierte Inhalt vonKommt der GPT-Moment der universellen Vision? Zhiyuan führt das universelle Segmentierungsmodell SegGPT ein. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen