Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Das Neueste von der Universität Oxford |. Fast 400 Zusammenfassungen! Sprechen Sie über die neueste Überprüfung großer Sprachmodelle und der dreidimensionalen Welt

Das Neueste von der Universität Oxford |. Fast 400 Zusammenfassungen! Sprechen Sie über die neueste Überprüfung großer Sprachmodelle und der dreidimensionalen Welt

WBOY
WBOYOriginal
2024-06-02 19:41:32415Durchsuche

Geschrieben im Vorfeld und nach persönlichem Verständnis des Autors

Mit der Entwicklung großer Sprachmodelle (LLM) wurden schnelle Fortschritte bei der Integration zwischen ihnen und 3D-Geodaten (3D-LLM) erzielt, die eine Grundlage für das Verständnis physischer Daten bieten Raum und Physik bieten beispiellose Möglichkeiten. Dieser Artikel bietet einen umfassenden Überblick über den LLM-Ansatz zur Verarbeitung, zum Verständnis und zur Generierung von 3D-Daten. Wir heben die einzigartigen Vorteile von LLMs hervor, wie kontextuelles Lernen, schrittweises Denken, offene Vokabelfähigkeiten und umfassendes Weltwissen, und betonen ihr Potenzial, das räumliche Verständnis und die Interaktion mit eingebetteten Systemen der künstlichen Intelligenz (KI) zu fördern. Unsere Forschung umfasst verschiedene 3D-Datendarstellungen von Punktwolken bis hin zu Neural Rendering Fields (NeRF). Wir analysieren ihre Integration mit LLM für Aufgaben wie 3D-Szenenverständnis, Untertitel, Beantwortung von Fragen und Dialog sowie mit LLM-basierten Agenten für räumliches Denken, Planung und Navigation. Das Papier geht auch kurz auf andere relevante kombinierte 3D- und Sprachansätze ein und verdeutlicht die erheblichen Fortschritte, betont jedoch die Notwendigkeit, das volle Potenzial von 3D-LLMs auszuschöpfen. Daher möchten wir mit diesem Diskussionspapier einen Weg für zukünftige Forschung aufzeigen, um die Fähigkeiten von 3D-LLM beim Verständnis und der Interaktion mit komplexen 3D-Welten zu erkunden und zu erweitern.

Open-Source-Link: https://github.com/ActiveVisionLab/Awesome-LLM-3D

牛津大学最新 | 近400篇总结!畅谈大语言模型与三维世界最新综述

Verwandter Hintergrund

Dieser Abschnitt enthält Informationen zur dreidimensionalen Darstellung, zum Large Language Model (LLM) und zweidimensionales visuelles Sprachmodell (VLM) und das Vision Foundation Model (VFM).

3D-Darstellungen

Die Auswahl von 3D-Darstellungen zur Beschreibung, Modellierung und zum Verständnis unserer Welt ist ein entscheidendes Thema, das hilft, den aktuellen Fortschritt von 3D-LLM zu verstehen. Es ist auch ein grundlegendes Forschungsgebiet in der Computer Vision. Dieser Bereich hat in letzter Zeit aufgrund der Fortschritte beim Deep Learning, den Rechenressourcen und der Verfügbarkeit von 3D-Daten ein enormes Wachstum erlebt. Wir stellen kurz die derzeit gebräuchlichsten dreidimensionalen Darstellungen vor.

Punktwolke: Stellen Sie eine dreidimensionale Form als eine Reihe von Datenpunkten im Raum dar und speichern Sie die Position jedes Punkts in einem dreidimensionalen kartesischen Koordinatensystem. Zusätzlich zur Speicherung des Standorts können weitere Informationen zu jedem Punkt gespeichert werden (z. B. Farbe, Normal). Punktwolkenbasierte Methoden sind für ihren geringen Speicherbedarf bekannt, es mangelt ihnen jedoch an Informationen zur Oberflächentopologie. Typische Quellen zur Gewinnung von Punktwolken sind Lidar-Sensoren, Streifenlichtscanner, Flugzeitkameras, Stereoansichten, Photogrammetrie usw.

Voxel Grid: Es besteht aus Einheitswürfeln im dreidimensionalen Raum, ähnlich der Pixeldarstellung im zweidimensionalen Raum. Jedes Voxel kodiert minimal die Belegungsinformationen (binär oder probabilistisch), kann aber zusätzlich den Abstand zur Oberfläche kodieren, wie in einer vorzeichenbehafteten Distanzfunktion (SDF) oder einer abgeschnittenen vorzeichenbehafteten Distanzfunktion (TSDF). Wenn jedoch hochauflösende Details erforderlich sind, kann der Speicherbedarf übermäßig groß werden.

Polygonnetz: Darstellung bestehend aus Eckpunkten und Flächen, die komplexe dreidimensionale Formen kompakt beschreiben können. Ihre unstrukturierte und nicht differenzierbare Natur stellt jedoch Herausforderungen bei der Integration in neuronale Netze dar, um durchgängig differenzierbare Pipelines zu erreichen. Einige Lösungen für dieses Problem, beispielsweise Methoden, die auf der Gradientennäherung basieren, können nur handgefertigte Gradientenberechnungen verwenden. Andere Lösungen, wie beispielsweise differenzierbare Rasterisierer, können zu ungenauen Rendering-Ergebnissen wie unscharfen Inhalten führen.

In den letzten Jahren hat die 3D-Forschungsgemeinschaft der neuronalen Szene im Gegensatz zu traditionellen Darstellungen, die auf geometrischen Elementen basieren, zunehmendes Interesse geweckt. Neuronale Szenen sind Abbildungen von Raumkoordinaten auf Szeneneigenschaften (wie Belegung, Farbe, Intensität usw.), aber im Gegensatz zu Materialgittern ist die Abbildung in neuronalen Szenen eine erlernte Funktion, typischerweise ein mehrschichtiges Perzeptron. Auf diese Weise erlernt Neural Scenes implizit die Fähigkeit, geometrische, kontinuierliche und differenzierbare 3D-Form- und Szenendarstellungen zu lernen.

Eine Reihe neuronaler Netze konzentriert sich auf die implizite Oberflächendarstellung. Belegungsnetzwerke kodieren die Form in einer kontinuierlichen 3D-Belegungsfunktion, die durch ein neuronales Netzwerk dargestellt wird, und verwenden dabei 3D-Punktpositionen und Merkmale aus Punktwolken, Voxeln mit niedriger Auflösung oder Bildern, um Belegungswahrscheinlichkeiten abzuschätzen. Unterdessen verwendet das tiefe SDF-Netzwerk ein neuronales Netzwerk, um die SDF aus 3D-Koordinaten und -Gradienten zu schätzen. Neuere Methoden wie NeuS und NeuS2 verbessern nachweislich die Genauigkeit und Effizienz der Oberflächenrekonstruktion sowohl für statische als auch für dynamische Ziele.

Eine weitere Gruppe von Methoden namens Neural Radiation Fields (NeRF) hat leistungsstarke fotorealistische Rendering-Fähigkeiten für 3D-Welten gezeigt. Diese Methoden verwenden Positionskodierungstechniken, um Szenendetails zu kodieren, und nutzen MLP, um die Strahlungswerte (Farbe und Opazität) der Kamerastrahlen vorherzusagen. Die Notwendigkeit von MLP, die Farb- und Belegungsdetails jedes Abtastpunkts im Raum (einschließlich Abtastpunkten im leeren Raum) abzuleiten, erfordert jedoch erhebliche Rechenressourcen. Daher besteht ein starker Anreiz, den Rechenaufwand von NeRF für Echtzeitanwendungen zu reduzieren.

Hybriddarstellung versucht, NeRF-Technologie mit traditionellen volumenbasierten Methoden zu kombinieren, um hochwertiges Echtzeit-Rendering zu ermöglichen. Beispielsweise reduziert die Kombination von Voxelgittern oder Hashgittern mit mehreren Auflösungen mit neuronalen Netzen die NeRF-Trainings- und Inferenzzeiten erheblich.

3D-Gaußsche Streuung ist eine Variation von Punktwolken, bei der jeder Punkt zusätzliche Informationen enthält, die die Strahlung darstellen, die in der diesen Punkt umgebenden Raumregion als anisotrope 3D-Gaußsche „Blobs“ emittiert wird. Diese 3D-Gauß-Funktionen werden typischerweise aus SfM-Punktwolken initialisiert und mithilfe differenzierbaren Renderings optimiert. Die 3D-Gaußsche Streuung ermöglicht eine hochmoderne Synthese neuer Ansichten mit einem Bruchteil der NeRF-Berechnung, indem sie eine effiziente Rasterung anstelle von Raytracing nutzt.

LLM

Traditionelle Verarbeitung natürlicher Sprache (NLP) umfasst eine breite Palette von Aufgaben, die es Systemen ermöglichen sollen, Text zu verstehen, zu generieren und zu bearbeiten. Frühe NLP-Ansätze stützten sich auf Techniken wie regelbasierte Systeme, statistische Modelle und frühe neuronale Architekturen wie rekurrente neuronale Netze. Das kürzlich eingeführte Large Language Model (LLM) verwendet eine Transformatorarchitektur und wird auf einem großen Textkorpus trainiert, wodurch eine beispiellose Leistung erzielt und eine neue Begeisterung auf diesem Gebiet ausgelöst wird. Da der Schwerpunkt dieses Artikels auf dem dreidimensionalen LLM liegt, stellen wir hier relevantes Hintergrundwissen zum LLM zur Verfügung. Um LLM eingehend zu untersuchen, beziehen wir uns auf aktuelle Umfragen in der Region.

LLM-Struktur

Im Kontext von LLM werden hauptsächlich „Encoder-Decoder“- und „Decoder-only“-Architekturen für NLP-Aufgaben verwendet.

  • Encoder-Decoder-Architekturen;
  • Nur-Decoder-Architekturen;
  • Tokenisierung: Tokenisierung ist eine Vorverarbeitungsmethode, die Eingabetext in Token-Sequenzen zerlegt, die die grundlegenden Dateneinheiten in Sprachmodellen sind. Die Anzahl der Token ist begrenzt und jeder Token kann einem Wort, einem Unterwort oder einem einzelnen Buchstaben entsprechen. Während der Inferenz wird der Eingabetext in eine Folge von Token umgewandelt und dem Modell zugeführt, das Ausgabe-Token vorhersagt und die Ausgabe-Token dann wieder in Text umwandelt. Die Tokenisierung hat einen starken Einfluss auf die Leistung von Sprachmodellen, da sie die Textwahrnehmung des Modells beeinflusst. Es werden verschiedene Tokenisierungstechniken verwendet, wie z. B. die Tokenisierung auf Wortebene, die Tokenisierung auf Unterwortebene (z. B. Bytepaarkodierung, WordPiece, PencePiece) und die Tokenisierung auf Zeichenebene.

LLM-Emergent-Fähigkeiten

Ein wesentlicher Unterschied zwischen LLM und herkömmlichen Nicht-LLM-Methoden sind die neuen Fähigkeiten, die in großen Modellen verfügbar, in kleinen Modellen jedoch nicht vorhanden sind. Der Begriff „Notfallfähigkeiten“ bezieht sich auf neue komplexe Fähigkeiten, die mit zunehmender Größe und Komplexität von LLMs entstehen. Diese Fähigkeiten ermöglichen es Menschen, natürliche Sprache tiefgreifend zu verstehen und zu generieren, Probleme in verschiedenen Bereichen ohne spezielle Schulung zu lösen und sich durch kontextbezogenes Lernen an neue Aufgaben anzupassen. Im Folgenden stellen wir einige gängige neue Fähigkeiten im Rahmen von LLM vor.

Kontextuelles Lernen bezieht sich auf die Fähigkeit von LLM, neue Aufgaben oder Abfragen basierend auf dem in den Eingabeaufforderungen bereitgestellten Kontext zu verstehen und darauf zu reagieren, ohne dass eine explizite Umschulung oder Feinabstimmung erforderlich ist. Die wegweisenden Arbeiten (GPT-2/GPT-3) demonstrieren kontextuelles Lernen in einem Multi-Shot-Ansatz, bei dem dem Modell mehrere Aufgabenbeispiele in einer Aufforderung gegeben werden und es dann aufgefordert wird, verschiedene Beispiele ohne vorheriges explizites Training zu verarbeiten. Hochmoderne LLMs wie GPT-4 verfügen über außergewöhnliche kontextbezogene Lernfähigkeiten, verstehen komplexe Anweisungen und führen eine breite Palette von Aufgaben aus, von einfacher Übersetzung über Codegenerierung bis hin zu kreativem Schreiben, alles basierend auf dem in den Eingabeaufforderungen bereitgestellten Kontext .

Argumentation im LLM, oft auch als „Denkketten“-Eingabeaufforderungen bezeichnet, umfasst Modelle, die Zwischenschritte oder Argumentationspfade generieren, wenn mit komplexen Problemen oder Problemen umgegangen wird. Dieser Ansatz ermöglicht es LLM, Aufgaben in kleinere, überschaubare Teile zu zerlegen und so einen strukturierteren und verständlicheren Lösungsprozess zu fördern. Um dies zu erreichen, umfasst das Training Datensätze, die verschiedene Problemlösungsaufgaben, Logikrätsel und Datensätze umfassen, die das Denken unter Unsicherheit simulieren sollen. Aktuelle hochmoderne LLMs weisen typischerweise erweiterte Inferenzfähigkeiten auf, wenn die Modellgrößen größer als 60 B bis 100 B Parameter sind.

Anweisungskonformität bezieht sich auf die Fähigkeit des Modells, Befehle zu verstehen und auszuführen, oder auf die Fähigkeit, vom Benutzer angegebene Anweisungen auszuführen. Dazu gehört das Analysieren der Anweisung, das Verstehen ihrer Absicht und das Generieren einer geeigneten Antwort oder Aktion. Methoden zur Anpassung dieser Fähigkeit an neue Aufgaben erfordern möglicherweise die Anpassung von Anweisungen aus einem Datensatz, der eine Vielzahl von Anweisungen gepaart mit der richtigen Antwort oder Aktion enthält. Techniken wie überwachtes Lernen, verstärkendes Lernen durch menschliches Feedback und interaktives Lernen können die Leistung weiter verbessern.

LLM-Feinabstimmung

Im Kontext von 3D-LLM wird LLM entweder direkt im vortrainierten Zustand verwendet oder feinabgestimmt, um sich an neue multimodale Aufgaben anzupassen. Allerdings stellt die Feinabstimmung der gesamten Parameter von LLM aufgrund der großen Anzahl beteiligter Parameter erhebliche Rechen- und Speicherherausforderungen dar. Daher erfreut sich die Parametereffektive Feinabstimmung (PEFT) bei der Anpassung von LLMs an bestimmte Aufgaben immer größerer Beliebtheit, indem nur eine relativ kleine Teilmenge der Modellparameter aktualisiert wird, anstatt das gesamte Modell neu zu trainieren. Im folgenden Abschnitt werden vier gängige PEFT-Methoden aufgeführt, die im LLM verwendet werden.

Low-Rank Adaptation (LoRA) und Varianten aktualisieren Parameter über Low-Rank-Matrizen. Mathematisch kann der Vorwärtsdurchlauf von LoRA während der Feinabstimmung als h=W0x+BAx ausgedrückt werden. W0 ist das eingefrorene Gewicht von LLM, während BA eine Matrix mit niedrigem Rang ist, die durch die neu eingeführten Matrizen a und B parametrisiert wird, die in der Feinabstimmungsphase aktualisiert werden. Dieser Ansatz hat mehrere klare Vorteile. Während des Feinabstimmungsprozesses werden nur B und A optimiert, wodurch der Rechenaufwand für Gradientenberechnungen und Parameteraktualisierungen erheblich reduziert wird. Sobald die Feinabstimmung abgeschlossen ist und die Gewichte zusammengeführt sind, fallen im Vergleich zum ursprünglichen Modell keine zusätzlichen Inferenzkosten an, wie in der Gleichung gezeigt: h = (W0 + BA) x. Darüber hinaus besteht keine Notwendigkeit, mehrere Kopien von LLM für verschiedene Aufgaben zu speichern, da mehrere LoRA-Instanzen gespeichert werden können, wodurch der Speicherbedarf reduziert wird.

Layer Freeze: Friert ausgewählte Layer eines vorab trainierten Modells ein, während andere Layer während des Trainings aktualisiert werden. Dies gilt in der Regel für Schichten, die näher an der Modelleingabe oder -ausgabe liegen, abhängig von der Art der Aufgabe und der Modellarchitektur. Beispielsweise können beim 3D-LLM-Ansatz alle Ebenen außer Ein- und Ausgabeeinbettungen eingefroren werden, um das Risiko einer Überanpassung an aufgabenspezifische Datensätze zu verringern, vorab trainiertes Allgemeinwissen beizubehalten und die zu optimierenden Parameter zu reduzieren.

Prompt Tuning Leitet LLM bei der Ausführung spezifischer Aufgaben an, indem es das LLM-Framework in Prompts festlegt und Modelleingaben im Vergleich zur herkömmlichen Feinabstimmung der Anpassung von Modellparametern anpasst. Die manuelle Cue-Entwicklung ist die intuitivste Methode, aber für erfahrene Cue-Tuning-Ingenieure kann es schwierig sein, die besten Cues zu finden. Ein weiterer Ansatz ist die automatisierte Generierung und Optimierung von Trinkgeldern. Eine beliebte Methode ist die Suche nach dem genau besten Eingabeaufforderungstext, der beispielsweise als Hard Prompt bezeichnet wird. Alternativ können Optimierungsverfahren eingesetzt werden, um die Einbettung von Hinweisen (Soft Hints) zu optimieren.

Adaptive FeinabstimmungPassen Sie die Modellarchitektur für bestimmte Aufgaben an, indem Sie Ebenen oder Module hinzufügen oder entfernen. Dies kann die Integration neuer Datenmodalitäten wie visuelle Informationen und Textdaten umfassen. Die Kernidee der adaptiven Feinabstimmung besteht darin, kleine neuronale Netzwerkmodule zu verwenden, die zwischen den Schichten eines vorab trainierten Modells eingefügt werden. Bei der adaptiven Feinabstimmung werden nur die Parameter dieser Adaptermodule aktualisiert, während die ursprünglichen Modellgewichte unverändert bleiben.

2D Vision-Language-Modelle

Visual-Language-Modelle sind eine Familie von Modellen, die dazu dienen, die Beziehung zwischen Text und Bildern/Videos zu erfassen und zu nutzen und interaktive Aufgaben zwischen den beiden Modalitäten ausführen zu können. Die meisten VLMs verfügen über eine Transformer-basierte Architektur. Durch die Nutzung des Aufmerksamkeitsmoduls bedingen sich visuelle und textliche Inhalte gegenseitig, um eine gegenseitige Interaktion zu erreichen. In den folgenden Abschnitten werden wir kurz die Anwendung von VLM bei diskriminierenden und generativen Aufgaben vorstellen. Bei der

Diskriminierungsaufgabe geht es darum, ein bestimmtes Merkmal der Daten vorherzusagen. VLMs wie CLIP und ALIGN haben eine außergewöhnliche Leistung im Hinblick auf die Zero-Shot-Übertragbarkeit auf unsichtbare Daten bei der Bildklassifizierung gezeigt. Beide Modelle umfassen zwei Module: Visual Encoder und Text Encoder. Bei einem gegebenen Bild und seiner Kategorie werden CLIP und ALIGN trainiert, indem die Ähnlichkeit zwischen der Bildeinbettung und der Texteinbettung des Satzes „Foto von {Bildkategorie}“ maximiert wird. Eine Zero-Shot-Übertragbarkeit wird erreicht, indem „{Bildkategorie}“ während der Inferenz durch mögliche Kandidaten ersetzt und nach Sätzen gesucht wird, die am besten zum Bild passen. Diese beiden Arbeiten inspirierten zahlreiche Folgearbeiten und verbesserten die Genauigkeit der Bildklassifizierung weiter. Diese Modelle können auch erlerntes Wissen zur Verwendung in anderen Aufgaben extrahieren, einschließlich Objekterkennung, Bildsegmentierung, Dokumentverständnis und Videoerkennung.

Aufgaben generieren Nutzen Sie VLM, um Text oder Bilder aus Eingabedaten zu generieren. Durch die Nutzung umfangreicher Trainingsdaten kann ein einzelner VLM häufig mehrere Bild-zu-Text-Generierungsaufgaben ausführen, wie z. B. Bildunterschriften und visuelle Fragenbeantwortung (VQA). Bemerkenswerte Beispiele sind unter anderem SimVLM, BLIP und OFA. Leistungsstärkere VLMs wie BLIP-2, Flamingo und LLaVA sind in der Lage, Multi-Turn-Dialoge und Argumentationen basierend auf Eingabebildern zu verarbeiten. Mit der Einführung von Diffusionsmodellen ist auch die Text-zu-Bild-Generierung in den Fokus der Forschungsgemeinschaft gerückt. Durch das Training einer großen Anzahl von Bild-Text-Paaren können Diffusionsmodelle auf der Grundlage der Texteingabe qualitativ hochwertige Bilder erzeugen. Diese Funktionalität erstreckt sich auch auf die Generierung von Videos, 3D-Szenen und dynamischen 3D-Zielen. Neben der Generierung von Aufgaben können vorhandene Bilder auch über Texteingaben bearbeitet werden.

Vision Foundation-Modelle

Das Vision Foundation-Modell (VFM) ist ein groß angelegtes neuronales Netzwerk, das darauf ausgelegt ist, Bilddarstellungen zu extrahieren, die vielfältig und ausdrucksstark genug sind, um direkt in einer Vielzahl nachgelagerter Aufgaben eingesetzt zu werden und das vorab trainierte LLM widerzuspiegeln Rolle bei nachgelagerten NLP-Aufgaben. Ein bemerkenswertes Beispiel ist DINO, das ein selbstüberwachtes Lehrer-Schüler-Ausbildungsmodell verwendet. Die erlernten Darstellungen erzielen gute Ergebnisse sowohl bei der Bildklassifizierung als auch beim semantischen Bildabgleich. Aufmerksamkeitsgewichte in DINO können auch als Segmentierungsmasken für die semantischen Komponenten der beobachteten Szene verwendet werden. Nachfolgende Arbeiten wie iBOT und DINOv2 verbesserten die Darstellung weiter, indem sie einen MIM-Verlust (Masked Image Modeling) einführten. SAM ist ein transformatorbasiertes Bildsegmentierungsmodell, das auf einem Datensatz trainiert wird, der aus 1,1 Milliarden Bildern mit semantischen Masken besteht und starke Zero-Shot-Übertragungsfunktionen aufweist. DINO (Zhang et al.) – nicht zu verwechseln mit DINO (Caron et al.) – verwendet eine DETR-ähnliche Architektur und eine hybride Abfrageauswahl zur Objekterkennung. Die Nachfolgearbeit Grounding DINO führt eine Textüberwachung ein, um die Genauigkeit zu verbessern. Stable Diffusion ist ein Text-zu-Bild-Generator, der auch als Merkmalsextrahierer für „echte“ Bilder verwendet wird, indem er einen einzelnen Diffusionsschritt auf einem sauberen oder künstlich verrauschten Bild ausführt und Zwischenmerkmale oder Aufmerksamkeitsmasken extrahiert. Aufgrund der Größe und Vielfalt der für Diffusionsmodelle verwendeten Trainingssätze und der beobachteten emergenten Eigenschaften von Diffusionsmerkmalen, wie z. B. Null-Schuss-Korrespondenz zwischen Bildern, wurden diese Merkmale kürzlich für Segmentierungs- und Bildanpassungsaufgaben genutzt.

Aufgabe

3D-Untertitel (3D → Text)

  • Untertitel auf Objektebene
  • Untertitel auf Szenenebene
  • 3D-Untertitel

3D-Erdung (3D + Text →. 3D-Position)

  • Einzelobjekt-Erdung
  • Mehrobjekt-Erdung

3D-Konversation (3D + Text → Text)

  • 3D-Fragenbeantwortung (3D-QA)
  • 3D-basierte Fragebeantwortung (3D-SQA)
  • 3D-Dialog

3D-Objektgenerierung3D-Szenengenerierung

    3D-Bearbeitung
  • 3D-AUFGABEN MIT LLMS
3D-Szenenverständnisaufgaben wurden umfassend untersucht. Der Kern des Szenenverständnisses besteht darin, alle Objekte in einer bestimmten dreidimensionalen Umgebung zu identifizieren und zu klassifizieren. Dieser Prozess wird als semantisches Verständnis oder Verständnis auf Instanzebene bezeichnet. Diese Phase ist von entscheidender Bedeutung, da sie die Grundlage für die Entwicklung subtilerer Interpretationen bildet. Anschließend konzentriert sich das übergeordnete Szenenverständnis auf das räumliche Verständnis, das sich auf die Konstruktion räumlicher Szenendiagramme und die Semantik von Zielbeziehungen bezieht. Geht man noch einen Schritt weiter, ist es möglich, potenzielle Interaktionen wie Erschwinglichkeiten und Szenenwechsel vorherzusagen und den breiteren Kontext der Szene wie Funktionalität und ästhetischen Stil zu verstehen. 3D-Daten stellen auch einzigartige Herausforderungen dar, die es in 2D nicht gibt, wie z. B. die relativ hohen Kosten für die Beschaffung und Kennzeichnung von 3D-Daten, spärliche 3D-Datenstrukturen, die nicht gleichmäßig dicht oder am Raster ausgerichtet sind, und die Notwendigkeit, mehrere (möglicherweise verdeckte) zu koordinieren ) Standpunkt. Zu diesem Zweck nutzten die Forscher die Macht der Sprache, um Semantik und Beziehungen in die 3D-Welt einzubetten. Jüngste Bemühungen zur Integration großer Sprachmodelle (LLMs) mit 3D-Daten haben gezeigt, dass die Nutzung der inhärenten Stärken von LLMs, nämlich Zero-Shot-Lernen, kontextuelles Lernen, schrittweises Denken und umfassendes Weltwissen, vielversprechend ist, um mehrstufiges Verständnis und Interaktion zu erreichen.

  • Wie verarbeiten LLMs 3D-Szeneninformationen?
  • Traditionelles LLM beschränkt sich auf Text als Eingabe und Ausgabe, weshalb die Fähigkeit zur Aufnahme von 3D-Informationen im Mittelpunkt aller 3D-LLM-Methoden steht. Die allgemeine Idee besteht darin, 3D-Objekt- oder Szeneninformationen im Sprachraum abzubilden, damit LLM diese 3D-Eingaben verstehen und verarbeiten kann. Konkret umfasst dies normalerweise zwei Schritte: (i) Verwendung eines vorab trainierten 3D-Encoders zur Verarbeitung der entsprechenden 3D-Darstellung, um rohe 3D-Features zu erzeugen; (ii) Verwendung eines Ausrichtungsmoduls zur Umwandlung dieser 3D-Features in 3D-Tags, die das LLM verarbeiten kann; , ähnlich dem beschriebenen Tokenisierungsprozess. Das vorab trainierte LLM kann diese ausgerichteten 3D-Marker dann beim Generieren der Ausgabe verwenden.

Wie bereits erwähnt, gibt es angesichts der Vielfalt der 3D-Darstellungen mehrere Möglichkeiten, 3D-Features zu erhalten. Wie in der Spalte „3D-Geometrie“ in Tabelle 1 gezeigt, sind Punktwolken aufgrund ihrer Einfachheit und Kompatibilität mit verschiedenen vorab trainierten 3D-Encodern am häufigsten anzutreffen, was sie zu einer beliebten Wahl für Multitasking- und multimodale Lernmethoden macht. Mehrfachansichtsbilder werden auch häufig verwendet, da die Forschung zur 2D-Merkmalsextraktion ausgereift ist, was bedeutet, dass für die 3D-Merkmalsextraktion nur noch zusätzliche 2D-zu-3D-Lifting-Schemata erforderlich sind. RGB-D-Daten, die mithilfe von Tiefenkameras leicht gewonnen werden können, werden häufig in eingebetteten 3D-Agentensystemen verwendet, um aussichtsbezogene Informationen für die Navigation und das Verständnis zu extrahieren. Ein 3D-Szenendiagramm ist eine abstraktere 3D-Darstellung, mit der sich die Existenz von Objekten und deren Beziehungen gut modellieren und allgemeine Informationen der Szene erfassen lassen. Sie werden häufig für 3D-Szenenklassifizierungs- und Planungsaufgaben verwendet. NeRF wird derzeit weniger in 3D-LLM-Methoden verwendet. Wir glauben, dass dies auf ihre implizite Natur zurückzuführen ist, die es schwieriger macht, sie zu tokenisieren und in Feedforward-Neuronale Netze zu integrieren.

LLMs zur Verbesserung der 3D-Aufgabenleistung

LLMs, die auf großen Datenmengen trainiert werden, können nachweislich vernünftiges Wissen über die Welt erlangen. Das Potenzial des Weltwissens und der Denkfähigkeiten von LLM wurde untersucht, um das Verständnis von 3D-Szenen zu verbessern und die Pipeline für mehrere 3D-Aufgaben neu zu formulieren. In diesem Abschnitt konzentrieren wir uns auf Methoden, die darauf abzielen, mithilfe von LLM die Leistung vorhandener Methoden bei visuellen 3D-Sprachaufgaben zu verbessern. Bei der Anwendung von LLM auf 3D-Aufgaben können wir seine Verwendung in zwei Gruppen einteilen: Wissenserweiterungs- und Inferenzerweiterungsmethoden. Methoden zur Wissenserweiterung nutzen das umfangreiche Weltwissen, das in LLM eingebettet ist, um die Leistung von 3D-Aufgaben zu verbessern. Dies kann kontextbezogene Einblicke liefern, Wissenslücken schließen oder das semantische Verständnis der 3D-Umgebung verbessern. Alternativ stützen sich Methoden zur Verbesserung der Inferenz nicht auf ihr Weltwissen, sondern nutzen die Fähigkeit von LLM, Inferenz Schritt für Schritt durchzuführen und so bessere Generalisierungsmöglichkeiten für komplexere 3D-Herausforderungen bereitzustellen. Die folgenden zwei Abschnitte beschreiben jede dieser Methoden.

  • Wissensgestützte Ansätze: Es gibt mehrere Möglichkeiten, das LLM-Weltwissen zu nutzen. Chen et al. verwendeten LLM für die 3D-Raumklassifizierung aus RGB-D-Bildern. Dabei wird das in LLM eingebettete Wissen genutzt, um anhand der im Raum enthaltenen Objektkategorieinformationen die Raumkategorie zu bestimmen. Dieser Ansatz erstellt zunächst einen Szenengraphen aus den Matterport3D-Daten, der Knoten für Bereiche und Objekte sowie mit Raumknoten verknüpfte Objektknoten enthält. Wählen Sie als Nächstes Schlüsselobjekte aus, um eine Abfrage für jeden Zimmertyp zu erstellen. Beschreibung der aus den ausgewählten Objekten extrahierten LLM-Scores, wobei der höchste Score die Raumbezeichnung vorhersagt. Auch räumliche Informationen wie Größe oder Lage können angegeben werden.
  • Reasoning-Enhanced-Ansätze: Zusätzlich zum Weltwissen helfen die Argumentationsfähigkeiten von LLM auch bei der Bewältigung anderer 3D-Aufgaben, insbesondere der Grundlagen des Sehens in komplexen 3D-Szenen mit detaillierter Geometrie und mehreren Objekten. In diesem Fall sollten textliche Beschreibungen von Objekten deren Aussehen und räumliche Beziehung zu umgebenden Objekten umfassen. Gewöhnliche Erdungsmethoden sind in dieser Situation oft schwierig, da detaillierte Textbeschreibungen nicht verstanden werden können. LLM-Grounder, Transcribe3D und Zero-shot 3DVG lösen dieses Problem, indem sie die Inferenzfunktionen von LLM nutzen, um Textbeschreibungen zu analysieren und eine Reihe von Anweisungen zum Lokalisieren von Objekten mithilfe der vorhandenen Erdungs-Toolbox zu generieren.

LLMs für 3D-Multi-Task-Lernen

Viele Arbeiten konzentrieren sich auf die Verwendung der Anweisungen des LLM und der kontextbezogenen Lernfähigkeiten, um mehrere 3D-Aufgaben in einem Sprachraum zu vereinen. Durch die Verwendung verschiedener Textaufforderungen zur Darstellung unterschiedlicher Aufgaben zielen diese Studien darauf ab, LLM zu einer einheitlichen Konversationsschnittstelle zu machen. Die Implementierung von Multitasking-Lernen mithilfe von LLM umfasst normalerweise mehrere wichtige Schritte, beginnend mit der Erstellung von 3D-Textdatenpaaren. Diese Paarungen erfordern die Erstellung von Aufgabenanweisungen in Textform und die Definition der Ausgabe für jede einzelne Aufgabe. Anschließend werden die 3D-Daten (normalerweise in Form von Punktwolken) einem 3D-Encoder zugeführt, um 3D-Merkmale zu extrahieren. Das Ausrichtungsmodul wird dann verwendet, um (i) 3D-Features mit Texteinbettungen von LLM auf mehreren Ebenen (Objektebene, Beziehungsebene und Szenenebene) auszurichten und (ii) 3D-Features in LLM-interpretierbare Token zu übersetzen. Abschließend muss eine geeignete Trainingsstrategie ausgewählt werden, z. B. ein einstufiges oder mehrstufiges 3D-Sprachausrichtungstraining und eine Feinabstimmung der Anweisungen für mehrere Aufgaben.

牛津大学最新 | 近400篇总结!畅谈大语言模型与三维世界最新综述

Im Rest dieses Abschnitts werden wir diese Aspekte im Detail untersuchen. Wir fassen außerdem den Umfang und die Fähigkeiten jeder in diesem Abschnitt besprochenen Methode in Tabelle 2 zusammen.

  • Daten für Multitasking-Lernen: Wie in Tabelle 2 gezeigt, klassifizieren wir Aufgaben in vier Kategorien: Untertitel, Grundlagen, Fragebeantwortung (QA) und spezifische Agentenaufgaben (d. h. Planung, Navigation und Betrieb). Daher folgt die Textausgabe jeder Aufgabe einem vordefinierten Format. Bei Untertiteln und Qualitätssicherungsaufgaben erfolgt die Ausgabe im Klartext und ist nicht auf ein bestimmtes Format beschränkt. Die Ausgabe der Grundaufgabe ist ein 3D-Begrenzungsrahmen, normalerweise die Mittelpunktkoordinaten des Referenzobjekts und seine 3D-Größe. Typischerweise werden die Werte von Punkten und Größen so normalisiert, dass sie in den Bereich von 0 bis 255 fallen, was den Bereich der Token einschränkt, die LLM vorhersagen muss. Für die Planung gibt das Modell eine Abfolge von Schritten zur Ausführung einer Aufgabe in Textform aus, während die Ausgabe für die Navigation eine Abfolge von Raumkoordinaten ist. Bei Aktionen ist die Ausgabe eine Textsequenz von Aktionen. Bestehende Methoden folgen diesen Richtlinien, um ihre Datensätze zur Feinabstimmung von Multitasking-Anweisungen zu erstellen.
  • Training eines LLM für mehrere 3D-Aufgaben: Der erste Schritt beim Training eines LLM für mehrere 3D-Aufgaben besteht darin, aussagekräftige 3D-Features zu erhalten, wobei die Extraktionsmethode je nach Art der 3D-Szene variiert. Für Einzelobjekt-Punktwolken verwenden Punkt-LLM, Chat-3D und GPT4Point Punkt-BERT, um 3D-Objektmerkmale zu extrahieren. Für Innenszenen verwendet LEO PointNet++ zur Merkmalsextraktion, während Chat-3D v2 und 3DMIT die Szene segmentieren und Uni-3D verwenden, um Merkmale für jeden segmentierten Teil zu extrahieren. Gleichzeitig integriert MultiPLY die extrahierten Objektmerkmale in das Szenendiagramm, um die gesamte Szene darzustellen. 3D-LLM und Szenen-LLM heben Funktionen von 2D-Mehrfachansichtsbildern in 3D-Darstellungen um. 3D-LLM extrahiert 2D-semantische Merkmale aus Mask2Former oder SAM. Scene LLM folgt ConceptFusion, um globale Informationen und lokale Details zu verschmelzen und Pixel-für-Pixel-CLIP-Features in Punkt-für-Punkt-3D-Features abzubilden. Für 3D-Szenen im Freien verwendet LiDAR LLM VoxelNet, um 3D-Voxel-Features zu extrahieren.

LLMs als multimodale 3D-Schnittstellen

Neben der Erforschung von 3D-Multitasking-Lernenden haben einige neuere Studien auch Informationen aus verschiedenen Modalitäten kombiniert, um die Fähigkeiten des Modells weiter zu verbessern und neue Interaktionen zu ermöglichen. Neben Text und 3D-Szenen kann multimodales 3D-LLM auch 2D-Bilder, Audio oder Berührungsinformationen als Eingabe in die Szene einbeziehen.

Die meisten Arbeiten zielen darauf ab, einen gemeinsamen Darstellungsraum über verschiedene Modalitäten hinweg zu schaffen. Da einige bestehende Werke bereits vorab trainierte Encoder bereitstellen, die Text, Bilder oder Audio einem gemeinsamen Raum zuordnen, entscheiden sich einige Werke dafür, 3D-Kodierungen zu erlernen, die die 3D-Einbettungen mit den Einbettungsräumen vorab trainierter Encoder für andere Modalitäten ausrichten. JM3D-LLM lernt einen 3D-Punktwolken-Encoder, der den Einbettungsraum von Punktwolken mit dem Einbettungsraum von Textbildern von SLIP ausrichtet. Es rendert Bildsequenzen von Punktwolken und erstellt während des Trainings hierarchische Textbäume, um eine detaillierte Ausrichtung zu erreichen. Point Bind lernt auch einen ähnlichen 3D-Encoder und richtet ihn an ImageBind aus, um den Einbettungsraum für Bilder, Text, Audio und Punktwolken zu vereinheitlichen. Dies ermöglicht die Verwendung unterschiedlicher Aufgabenköpfe zur Abwicklung unterschiedlicher Aufgaben wie Abruf, Klassifizierung und Generierung zwischen verschiedenen Modi. Eine bemerkenswerte Einschränkung besteht jedoch darin, dass dieser Ansatz nur für kleine Szenen auf Objektebene geeignet ist, da die Verarbeitung großer Szenen mit Millionen von Punkten für 3D-Encoder rechenintensiv ist. Darüber hinaus sind die meisten vorab trainierten multimodalen Encoder wie CLIP für Einzelobjektszenen konzipiert und eignen sich nicht für groß angelegte Szenen mit mehreren Objekten und lokalen Details.

Im Gegensatz dazu erfordern große Szenen eine detailliertere Gestaltung, um mehrere Modi zu integrieren. ConceptFusion erstellt eine erweiterte Feature-Map, die globale Informationen und lokale Details jedes Komponentenbildes einer großen Szene zusammenführt. Dies wird durch die Verwendung vorab trainierter Feature-Extraktoren erreicht, die bereits auf verschiedene Modalitäten, einschließlich Text und Audio, abgestimmt sind. Anschließend werden herkömmliche SLAM-Methoden verwendet, um die Feature-Map der Punktwolke der Szene zuzuordnen. MultiPLY verwendet eine ähnliche Darstellung wie ConceptGraph. Es identifiziert alle hervorstechenden Objekte in der Szene, ermittelt die globale Einbettung jedes Objekts und erstellt schließlich den Szenengraphen. Die resultierende Darstellung ist eine Szeneneinbettung, die auf den Einbettungsraum von Llama ausgerichtet ist. Durch lineare Projektionen können auch Einbettungen anderer Modalitäten, einschließlich Audio, Temperatur und Haptik, in denselben Raum abgebildet werden. Alle Einbettungen werden tokenisiert und sofort an LLM gesendet. Im Vergleich zu Methoden für Szenen auf Objektebene reduzieren Methoden, die große Szenen verarbeiten können, die Kosten, indem sie sich auf vorab trainierte Encoder verlassen, um die modalen Lücken zu schließen, anstatt neue Encoder von Grund auf zu erlernen.

LLMs für verkörperte Agenten

Sie können die Planungs-, Werkzeugnutzungs- und Entscheidungsfunktionen von LLM nutzen, um konkrete 3D-Agenten zu erstellen. Diese Fähigkeiten ermöglichen es LLM, intelligente Entscheidungen zu treffen, einschließlich der Navigation in 3D-Umgebungen, der Interaktion mit Objekten und der Auswahl geeigneter Werkzeuge zur Ausführung bestimmter Aufgaben. In diesem Abschnitt wird beschrieben, wie 3D-Betonagenten Planungs-, Navigations- und Manipulationsaufgaben ausführen.

  • 3D-Aufgabenplanung: Für einen bestimmten Agenten bezieht sich „Aufgabenplanung“ auf die Fähigkeit, Schritte zur Ausführung einer bestimmten Aufgabe anhand einer Aufgabenbeschreibung und einer 3D-Umgebung zu generieren. Missionsplanung ist oft eine Voraussetzung für Navigations- und Manövriermissionen, da die Genauigkeit der Planung direkten Einfluss auf die Leistung nachfolgender Missionen hat. LEO und LLM Planner nutzen LLM, um Schritt-für-Schritt-Pläne zu erstellen und diese dynamisch an das Umweltbewusstsein anzupassen. LEO legt Wert auf eine szenenbewusste Planung basierend auf der aktuellen Szenenkonfiguration, während LLM Planner GPT3 verwendet, um die Planung in Unterziele auf hoher Ebene und Aktionen auf niedriger Ebene zu unterteilen und neu zu planen, wenn der Agent während der Aufgabenausführung in Schwierigkeiten gerät. 3D-VLA kombiniert 3D-Wahrnehmung, Argumentation und Aktion durch generierte Weltmodelle. Der Schwerpunkt liegt auf der Verbesserung der Planungsfähigkeiten durch die Nutzung generativer Modelle zur Vorhersage zukünftiger Zustandsdarstellungen wie Zielbilder und Punktwolken.
  • 3D-Navigation: 3D-Navigation bezieht sich auf die Fähigkeit eines eingebetteten Agenten, sich in einer 3D-Umgebung zu bewegen und zu positionieren, normalerweise basierend auf visuellen Eingaben und verbalen Anweisungen. Jede der beschriebenen Methoden – LEO, Agent3D Zero, LLM Planner und NaviLLM – implementiert die 3D-Navigation auf unterschiedliche Weise. LEO verarbeitet fahrzeugzentrierte 2D-Bilder und zielzentrierte 3D-Punktwolken sowie Textanweisungen.
  • 3D-Objektmanipulation: Im Zusammenhang mit 3D-Betonagenten bezieht sich Manipulation auf ihre Fähigkeit, physisch mit Objekten zu interagieren, von der Bewegung von Objekten bis hin zu komplexen Sequenzen wie dem Zusammenbau von Teilen oder dem Öffnen von Türen. Die Kernidee, mit der LLM operative Aufgaben ausführen kann, ist die Tokenisierung von Aktionssequenzen. Damit LLM eine bestimmte Aktion ausgeben kann, müssen Sie zunächst ein Aktionstoken definieren, das es LLM ermöglicht, diese Aktion basierend auf der Aufgabe und dem 3D-Szenenkontext zu generieren. Plattformen wie CLIPort oder das Bewegungsplanungsmodul im Roboterarm übersetzen diese tokenisierten Aktionen dann in physische Aktionen, die vom Agenten ausgeführt werden.

LLMs für die 3D-Generierung

Traditionell war die 3D-Modellierung ein komplexer, zeitintensiver Prozess mit einer hohen Eintrittsbarriere, der detaillierte Aufmerksamkeit auf Geometrie, Texturen und Beleuchtung erforderte, um realistische Ergebnisse zu erzielen. In diesem Abschnitt werfen wir einen genaueren Blick auf die Integration von LLM mit generativen 3D-Technologien und zeigen, wie die Sprache eine Möglichkeit bietet, kontextualisierte Objekte in einer Szene zu generieren und innovative Lösungen für die Erstellung und Bearbeitung von 3D-Inhalten bereitzustellen.

  • Generierung auf Objektebene: Shape GPT verwendet formspezifisches 3D-VQ-VAE, um 3D-Formen in diskrete „Formwort“-Marker zu quantisieren. Dies ermöglicht die Integration von Formdaten zusammen mit Text und Bildern in die multimodale Eingabe des T5-Sprachmodells. Diese multimodale Darstellung ermöglicht es T5, modalübergreifende Interaktionen wie die Generierung von Text in Formen und die Bearbeitung/Vervollständigung von Formen zu erlernen. GPT4Point verwendet einen Zwei-Strömungs-Ansatz: Die Punktwolkengeometrie wird über einen Punkt-QFormer mit Text abgeglichen, der dann in gekoppelte LLM- und Diffusionspfade eingespeist wird, um Text zu verstehen und hochauflösende 3D-Objekte zu generieren, die der Texteingabe entsprechen.
  • Generierung im Szenenmaßstab: Holodeck und GALA-3D verwenden eine mehrstufige Pipeline, um ein anfängliches grobes 3D-Szenenlayout schrittweise vom Text zu einer detaillierten und realistischen 3D-Umgebung zu verfeinern. Holodeck verwendet spezielle Module, um grundlegende Layouts zu erstellen, Materialien auszuwählen und Elemente wie Türen und Fenster zu integrieren, basierend auf den räumlichen Überlegungen und Layout-/Stilempfehlungen von GPT-4. Anschließend wird das Layout mit unerwünschten Elementen gefüllt, die der Textbeschreibung von GPT-4 entsprechen. Der Optimierer ordnet diese Ziele gemäß den räumlichen Beziehungsbeschränkungen aus GPT-4 an, um ein realistisches Ziellayout und eine realistische Interaktion zu fördern.
  • Prozedurale Generierung und Manipulation: LLMR, 3D-GPT und SceneCraft übernehmen eine modulare Architektur mit speziellen Komponenten/Agenten für die interaktive 3D-Welterstellung und Codegenerierung aus natürlicher Sprache. LLMR besteht aus verschiedenen Komponenten, die zum Generieren von Code zum Erstellen von Szenen in Unity, zum Verstehen vorhandener Szenenziele und Eigenschaften zur Änderung, zum Identifizieren der zum Ausführen von Anweisungen erforderlichen Funktionalität und zum Bewerten der endgültigen Codequalität verwendet werden. Ebenso verfügt 3D-GPT über Komponenten zum Interpretieren von Anweisungen und zum Bestimmen der erforderlichen Generierungsfunktion, zum Anreichern der Beschreibung mit detaillierten Modellierungseigenschaften und zum Konvertieren der umfangreichen Beschreibung in Python-Code für die Blender-API. Zusammengenommen demonstrieren diese Ansätze die Aufgabenzerlegung und Spezialisierung von LLM-Komponenten zur Handhabung der Befehlsinterpretation, Funktionszuordnung und robusten Codegenerierung. 3D-Aufgaben mit VLMS OpenScene verwendet einen Zero-Shot-Ansatz, um dichte Merkmale von 3D-Szenenpunkten vorherzusagen, die zusammen mit den Text- und Bildpixeleinbettungen von CLIP in einen gemeinsamen Merkmalsraum eingebettet sind, und ermöglicht so Aufgabenerkennungstraining und offene Vokabularabfragen zur Identifizierung von Objekten, Materialien, Angeboten, Aktivitäten usw Zimmertyp. CLIP-FO3D verfolgt einen ähnlichen Ansatz, indem es CLIP modifiziert, um dichte Pixelmerkmale aus in Punktwolken projizierten 3D-Szenen zu extrahieren, und dann das 3D-Modell durch Destillation trainiert, um das Wissen von CLIP zu übertragen. Die semantische Abstraktion extrahiert Assoziationsgraphen aus CLIP als abstrakte Zieldarstellungen, um sie auf neue Semantiken, Vokabeln und Domänen zu verallgemeinern. Open Fusion kombiniert das visuelle Sprachmodell SEEM mit TSDF-3D-Mapping und nutzt regionalbasierte Einbettungen und Konfidenzkarten für die Erstellung und Abfrage offener Vokabularszenen in Echtzeit.
  • Textgesteuerte 3D-Generierung

    Hier untersuchen wir Methoden zur Text-zu-3D-Generierung unter Verwendung von 2D-VLM und Anleitung mithilfe eines differenzierbaren Rendering-Text-zu-Bild-Diffusionsmodells. Frühe Arbeiten wie DreamFields, CLIP-Mesh, CLIP-Forge und Text2Mesh erforschten die CLIP-gesteuerte Zero-Shot-3D-Generierung.

    DreamFusion führt Score Distriction Sampling (SDS) ein, bei dem die Parameter einer 3D-Darstellung optimiert werden, indem Renderings aus jedem Winkel äußerst realistisch aussehen, wie durch ein vorab trainiertes 2D-Diffusionsmodell bewertet. Es verwendet ein Text-zu-Bild-Imagen-Modell, um die NeRF-Darstellung über SDS zu optimieren. Magic3D schlägt ein zweistufiges Framework vor: Generieren eines groben Modells mit einem Diffusionsprior mit niedriger Auflösung und einem spärlichen 3D-Hash-Netz und anschließendes Optimieren des texturierten 3D-Netzmodells mithilfe eines effizienten differenzierbaren Renderers und eines latenten Diffusionsmodells mit hoher Auflösung. Fantasia3D verwendet eine hybride DMET-Darstellung und räumlich variierendes BRDF, um Geometrie und Erscheinungsbild zu entschlüsseln. ProlificDreamer führt die Variationsfraktionelle Destillation (VSD) ein, ein partikelbasiertes Framework, das 3D-Parameter als Zufallsvariablen behandelt, um die Genauigkeit und Vielfalt zu erhöhen. Dream3D nutzt explizite 3D-Formprioritäten und Text-zu-Bild-Diffusionsmodelle, um die textgesteuerte 3D-Synthese zu verbessern. MVDream verwendet ein konsistentes Multi-View-Diffusionsmodell, das auf einer kleinen Menge von Schussdaten für die personalisierte Generierung trainiert werden kann. Text2NeRF kombiniert NeRF-Darstellungen mit vorab trainierten Text-zu-Bild-Diffusionsmodellen, um basierend auf der Sprache verschiedene 3D-Szenen im Innen- und Außenbereich zu generieren. Neben der gleichzeitigen Erzeugung von Geometrie und Erscheinungsbild wurde in einigen Untersuchungen auch die Möglichkeit untersucht, Texturen nur auf der Grundlage einer bestimmten Geometrie zu synthetisieren.

    End-to-End-Architekturen für 3D-Vision und -Sprache

    Auf großen 3D-Textdatensätzen vorab trainierte Transformer-Modelle erlernen leistungsstarke gemeinsame Darstellungen, die visuelle und sprachliche Modalitäten verbinden. 3D VisTA ist ein Transformer-Modell, das Selbstaufmerksamkeit nutzt, um 3D-Bild- und Textdaten gemeinsam zu modellieren, um ein effektives Vortraining für Ziele wie maskierte Sprach-/Zielmodellierung und Szenentext-Matching zu erreichen. UniT3D verwendet eine einheitliche Transformer-Methode in Kombination mit dem PointGroup 3D-Erkennungs-Backbone, dem BERT-Text-Encoder und dem multimodalen Fusionsmodul, um die synthetisierten 3D-Sprachdaten gemeinsam vorab zu trainieren. SpatialVLM verfolgt eine andere Strategie, um VLM gemeinsam an einem großen synthetischen 3D-Datensatz zum räumlichen Denken zu trainieren, wodurch die Leistung von 3D-räumlichen visuellen Fragebeantwortungsaufgaben verbessert und Anwendungen wie das Denken in der Roboter-Denkkette unterstützt werden. Multi CLIP trainiert einen 3D-Szenenencoder vorab, um Szenenmerkmale an den Text- und Bildeinbettungen von CLIP auszurichten. Ziel ist es, das Wissen von CLIP zu übertragen, um das 3D-Verständnis für Aufgaben wie die visuelle Beantwortung von Fragen zu verbessern.

    Datensätze

    牛津大学最新 | 近400篇总结!畅谈大语言模型与三维世界最新综述

    牛津大学最新 | 近400篇总结!畅谈大语言模型与三维世界最新综述

    Herausforderungen und zukünftige Chancen

    Trotz der Fortschritte bei der Integration von LLM mit 3D-Daten gibt es immer noch Herausforderungen bei der Datendarstellung, Recheneffizienz und Benchmarks, die innovative Lösungen erfordern.

    Die Wahl der Darstellung hat einen starken Einfluss auf die Leistung visueller 3D-Sprachmodelle. Derzeit werden Punktwolken aufgrund ihrer Einfachheit und Kompatibilität mit neuronalen Netzwerken hauptsächlich zur Darstellung von Innenumgebungen (z. B. Scheitelpunkte eines Netzes) und Außenumgebungen (z. B. Lidar-Punktwolken) verwendet. Es fällt ihnen jedoch schwer, die Details zu erfassen, die für genaue, umfassende räumliche Modelle entscheidend sind. Die Entwicklung neuer 3D-Szenendarstellungen, die die Lücke zwischen räumlichen Informationen und Sprache effektiver schließen, kann neue Ebenen des Verständnisses und der Interaktion eröffnen. Durch die Suche nach innovativen Wegen zur Kodierung sprachlicher und semantischer Informationen in 3D-Darstellungen, beispielsweise durch die Verwendung extrahierter sprachlicher und semantischer Einbettungen, können wir dazu beitragen, die Lücke zwischen diesen beiden Modalitäten zu schließen.

    Sowohl die 3D-Datenverarbeitung als auch die Rechenanforderungen von LLM stellen erhebliche Herausforderungen dar. Da die Komplexität von 3D-Umgebungen und die Größe von Sprachmodellen zunehmen, bleibt die Skalierbarkeit ein Problem. Fortschritte bei LLM-Architekturen, die auf Anpassungsfähigkeit und Recheneffizienz ausgelegt sind, können die Basis für ihre Verbesserung erheblich erweitern und sind entscheidend für die umfassende Bewertung und Verbesserung der Fähigkeiten multimodaler LLMs bei 3D-Aufgaben. Der begrenzte Umfang aktueller Benchmarks, insbesondere im Bereich des dreidimensionalen Denkens, behindert die Beurteilung räumlicher Denkfähigkeiten und die Entwicklung dreidimensionaler Entscheidungs-/Interaktionssysteme. Darüber hinaus erfassen die derzeit verwendeten Metriken die Fähigkeiten von LLM in 3D-Umgebungen nicht vollständig. Es ist von entscheidender Bedeutung, aufgabenspezifische Metriken zu entwickeln, um die Leistung verschiedener 3D-Aufgaben genauer zu messen. Schließlich ist die Granularität der aktuellen Benchmarks für das Szenenverständnis zu einfach, was ein tiefgreifendes Verständnis komplexer 3D-Umgebungen einschränkt. Es sind vielfältigere Aufgaben erforderlich.

    Die Verbesserung der Benchmarks ist entscheidend, um die Fähigkeiten des multimodalen LLM bei 3D-Aufgaben vollständig zu bewerten und zu verbessern. Der begrenzte Umfang aktueller Benchmarks, insbesondere im Bereich des dreidimensionalen Denkens, behindert die Beurteilung räumlicher Denkfähigkeiten und die Entwicklung dreidimensionaler Entscheidungs-/Interaktionssysteme. Darüber hinaus erfassen derzeit verwendete Metriken die Funktionalität von LLM in 3D-Umgebungen nicht vollständig. Es ist von entscheidender Bedeutung, aufgabenspezifische Metriken zu entwickeln, um die Leistung verschiedener 3D-Aufgaben genauer zu messen. Schließlich ist die Granularität der aktuellen Benchmarks zum Szenenverständnis zu einfach, was ein tiefgreifendes Verständnis komplexer 3D-Umgebungen einschränkt. Es sind vielfältigere Aufgaben erforderlich.

    Sicherheit und ethische Implikationen müssen bei der Verwendung von LLM für das 3D-Verständnis berücksichtigt werden. LLM kann halluzinieren und ungenaue, unsichere Informationen ausgeben, was zu falschen Entscheidungen in kritischen 3D-Anwendungen führt. Darüber hinaus scheitern LLMs oft auf unvorhersehbare und schwer zu erklärende Weise. Sie können auch soziale Vorurteile übernehmen, die in den Trainingsdaten vorhanden sind und bestimmte Gruppen benachteiligen, wenn sie Vorhersagen in realen 3D-Szenen treffen. Es ist von entscheidender Bedeutung, dass LLMs in 3D-Umgebungen umsichtig eingesetzt werden und Strategien zur Erstellung umfassenderer Datensätze, robuste Bewertungsrahmen zur Erkennung und Korrektur von Verzerrungen sowie Mechanismen zur Minimierung von Halluzinationen einsetzen, um die Verantwortlichkeit und Fairness des Ergebnisses sicherzustellen.

    Fazit

    Dieser Artikel bietet eine detaillierte Untersuchung der Integration von LLM- und 3D-Daten. In dieser Umfrage werden systematisch die Methoden, Anwendungen und neuen Fähigkeiten von LLM bei der Verarbeitung, dem Verständnis und der Generierung von 3D-Daten untersucht und das transformative Potenzial von LLM für eine Reihe von 3D-Aufgaben hervorgehoben. Von der Verbesserung des räumlichen Verständnisses und der Interaktion in dreidimensionalen Umgebungen bis hin zur Weiterentwicklung der Fähigkeiten eingebetteter künstlicher Intelligenzsysteme spielt LLM eine Schlüsselrolle bei der Weiterentwicklung dieses Fachgebiets.

    Zu den wichtigsten Erkenntnissen gehört die Identifizierung der einzigartigen Vorteile von LLM, wie Zero-Shot-Lernen, fortgeschrittenes Denken und umfassendes Weltwissen, die dabei helfen, die Lücke zwischen Textinformationen und räumlicher Interpretation zu schließen. Dieses Dokument demonstriert die LLM-Integration mit 3D-Daten für eine Vielzahl von Aufgaben. Die Erforschung anderer dreidimensionaler visueller Sprachmethoden mit LLM eröffnet vielfältige Forschungsperspektiven, die darauf abzielen, unser Verständnis der 3D-Welt zu vertiefen.

    Darüber hinaus hebt die Umfrage bedeutende Herausforderungen wie Datendarstellung, Modellskalierbarkeit und Recheneffizienz hervor und zeigt, dass die Überwindung dieser Hindernisse entscheidend ist, um das Potenzial von LLM in 3D-Anwendungen voll auszuschöpfen. Zusammenfassend bietet diese Umfrage nicht nur einen umfassenden Überblick über den aktuellen Stand der 3D-Aufgaben mit LLM, sondern legt auch den Grundstein für zukünftige Forschungsrichtungen. Es erfordert eine Zusammenarbeit, um die Fähigkeiten von LLM beim Verstehen und Interagieren mit komplexen 3D-Welten zu erforschen und zu erweitern und so den Weg für weitere Fortschritte auf dem Gebiet der räumlichen Intelligenz zu ebnen.

Das obige ist der detaillierte Inhalt vonDas Neueste von der Universität Oxford |. Fast 400 Zusammenfassungen! Sprechen Sie über die neueste Überprüfung großer Sprachmodelle und der dreidimensionalen Welt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn