Heim > Artikel > Technologie-Peripheriegeräte > Das Neueste von der Universität Oxford |. Fast 400 Zusammenfassungen! Sprechen Sie über die neueste Überprüfung großer Sprachmodelle und der dreidimensionalen Welt
Mit der Entwicklung großer Sprachmodelle (LLM) wurden schnelle Fortschritte bei der Integration zwischen ihnen und 3D-Geodaten (3D-LLM) erzielt, die eine Grundlage für das Verständnis physischer Daten bieten Raum und Physik bieten beispiellose Möglichkeiten. Dieser Artikel bietet einen umfassenden Überblick über den LLM-Ansatz zur Verarbeitung, zum Verständnis und zur Generierung von 3D-Daten. Wir heben die einzigartigen Vorteile von LLMs hervor, wie kontextuelles Lernen, schrittweises Denken, offene Vokabelfähigkeiten und umfassendes Weltwissen, und betonen ihr Potenzial, das räumliche Verständnis und die Interaktion mit eingebetteten Systemen der künstlichen Intelligenz (KI) zu fördern. Unsere Forschung umfasst verschiedene 3D-Datendarstellungen von Punktwolken bis hin zu Neural Rendering Fields (NeRF). Wir analysieren ihre Integration mit LLM für Aufgaben wie 3D-Szenenverständnis, Untertitel, Beantwortung von Fragen und Dialog sowie mit LLM-basierten Agenten für räumliches Denken, Planung und Navigation. Das Papier geht auch kurz auf andere relevante kombinierte 3D- und Sprachansätze ein und verdeutlicht die erheblichen Fortschritte, betont jedoch die Notwendigkeit, das volle Potenzial von 3D-LLMs auszuschöpfen. Daher möchten wir mit diesem Diskussionspapier einen Weg für zukünftige Forschung aufzeigen, um die Fähigkeiten von 3D-LLM beim Verständnis und der Interaktion mit komplexen 3D-Welten zu erkunden und zu erweitern.
Open-Source-Link: https://github.com/ActiveVisionLab/Awesome-LLM-3D
Dieser Abschnitt enthält Informationen zur dreidimensionalen Darstellung, zum Large Language Model (LLM) und zweidimensionales visuelles Sprachmodell (VLM) und das Vision Foundation Model (VFM).
Die Auswahl von 3D-Darstellungen zur Beschreibung, Modellierung und zum Verständnis unserer Welt ist ein entscheidendes Thema, das hilft, den aktuellen Fortschritt von 3D-LLM zu verstehen. Es ist auch ein grundlegendes Forschungsgebiet in der Computer Vision. Dieser Bereich hat in letzter Zeit aufgrund der Fortschritte beim Deep Learning, den Rechenressourcen und der Verfügbarkeit von 3D-Daten ein enormes Wachstum erlebt. Wir stellen kurz die derzeit gebräuchlichsten dreidimensionalen Darstellungen vor.
Punktwolke: Stellen Sie eine dreidimensionale Form als eine Reihe von Datenpunkten im Raum dar und speichern Sie die Position jedes Punkts in einem dreidimensionalen kartesischen Koordinatensystem. Zusätzlich zur Speicherung des Standorts können weitere Informationen zu jedem Punkt gespeichert werden (z. B. Farbe, Normal). Punktwolkenbasierte Methoden sind für ihren geringen Speicherbedarf bekannt, es mangelt ihnen jedoch an Informationen zur Oberflächentopologie. Typische Quellen zur Gewinnung von Punktwolken sind Lidar-Sensoren, Streifenlichtscanner, Flugzeitkameras, Stereoansichten, Photogrammetrie usw.
Voxel Grid: Es besteht aus Einheitswürfeln im dreidimensionalen Raum, ähnlich der Pixeldarstellung im zweidimensionalen Raum. Jedes Voxel kodiert minimal die Belegungsinformationen (binär oder probabilistisch), kann aber zusätzlich den Abstand zur Oberfläche kodieren, wie in einer vorzeichenbehafteten Distanzfunktion (SDF) oder einer abgeschnittenen vorzeichenbehafteten Distanzfunktion (TSDF). Wenn jedoch hochauflösende Details erforderlich sind, kann der Speicherbedarf übermäßig groß werden.
Polygonnetz: Darstellung bestehend aus Eckpunkten und Flächen, die komplexe dreidimensionale Formen kompakt beschreiben können. Ihre unstrukturierte und nicht differenzierbare Natur stellt jedoch Herausforderungen bei der Integration in neuronale Netze dar, um durchgängig differenzierbare Pipelines zu erreichen. Einige Lösungen für dieses Problem, beispielsweise Methoden, die auf der Gradientennäherung basieren, können nur handgefertigte Gradientenberechnungen verwenden. Andere Lösungen, wie beispielsweise differenzierbare Rasterisierer, können zu ungenauen Rendering-Ergebnissen wie unscharfen Inhalten führen.
In den letzten Jahren hat die 3D-Forschungsgemeinschaft der neuronalen Szene im Gegensatz zu traditionellen Darstellungen, die auf geometrischen Elementen basieren, zunehmendes Interesse geweckt. Neuronale Szenen sind Abbildungen von Raumkoordinaten auf Szeneneigenschaften (wie Belegung, Farbe, Intensität usw.), aber im Gegensatz zu Materialgittern ist die Abbildung in neuronalen Szenen eine erlernte Funktion, typischerweise ein mehrschichtiges Perzeptron. Auf diese Weise erlernt Neural Scenes implizit die Fähigkeit, geometrische, kontinuierliche und differenzierbare 3D-Form- und Szenendarstellungen zu lernen.
Eine Reihe neuronaler Netze konzentriert sich auf die implizite Oberflächendarstellung. Belegungsnetzwerke kodieren die Form in einer kontinuierlichen 3D-Belegungsfunktion, die durch ein neuronales Netzwerk dargestellt wird, und verwenden dabei 3D-Punktpositionen und Merkmale aus Punktwolken, Voxeln mit niedriger Auflösung oder Bildern, um Belegungswahrscheinlichkeiten abzuschätzen. Unterdessen verwendet das tiefe SDF-Netzwerk ein neuronales Netzwerk, um die SDF aus 3D-Koordinaten und -Gradienten zu schätzen. Neuere Methoden wie NeuS und NeuS2 verbessern nachweislich die Genauigkeit und Effizienz der Oberflächenrekonstruktion sowohl für statische als auch für dynamische Ziele.
Eine weitere Gruppe von Methoden namens Neural Radiation Fields (NeRF) hat leistungsstarke fotorealistische Rendering-Fähigkeiten für 3D-Welten gezeigt. Diese Methoden verwenden Positionskodierungstechniken, um Szenendetails zu kodieren, und nutzen MLP, um die Strahlungswerte (Farbe und Opazität) der Kamerastrahlen vorherzusagen. Die Notwendigkeit von MLP, die Farb- und Belegungsdetails jedes Abtastpunkts im Raum (einschließlich Abtastpunkten im leeren Raum) abzuleiten, erfordert jedoch erhebliche Rechenressourcen. Daher besteht ein starker Anreiz, den Rechenaufwand von NeRF für Echtzeitanwendungen zu reduzieren.
Hybriddarstellung versucht, NeRF-Technologie mit traditionellen volumenbasierten Methoden zu kombinieren, um hochwertiges Echtzeit-Rendering zu ermöglichen. Beispielsweise reduziert die Kombination von Voxelgittern oder Hashgittern mit mehreren Auflösungen mit neuronalen Netzen die NeRF-Trainings- und Inferenzzeiten erheblich.
3D-Gaußsche Streuung ist eine Variation von Punktwolken, bei der jeder Punkt zusätzliche Informationen enthält, die die Strahlung darstellen, die in der diesen Punkt umgebenden Raumregion als anisotrope 3D-Gaußsche „Blobs“ emittiert wird. Diese 3D-Gauß-Funktionen werden typischerweise aus SfM-Punktwolken initialisiert und mithilfe differenzierbaren Renderings optimiert. Die 3D-Gaußsche Streuung ermöglicht eine hochmoderne Synthese neuer Ansichten mit einem Bruchteil der NeRF-Berechnung, indem sie eine effiziente Rasterung anstelle von Raytracing nutzt.
Traditionelle Verarbeitung natürlicher Sprache (NLP) umfasst eine breite Palette von Aufgaben, die es Systemen ermöglichen sollen, Text zu verstehen, zu generieren und zu bearbeiten. Frühe NLP-Ansätze stützten sich auf Techniken wie regelbasierte Systeme, statistische Modelle und frühe neuronale Architekturen wie rekurrente neuronale Netze. Das kürzlich eingeführte Large Language Model (LLM) verwendet eine Transformatorarchitektur und wird auf einem großen Textkorpus trainiert, wodurch eine beispiellose Leistung erzielt und eine neue Begeisterung auf diesem Gebiet ausgelöst wird. Da der Schwerpunkt dieses Artikels auf dem dreidimensionalen LLM liegt, stellen wir hier relevantes Hintergrundwissen zum LLM zur Verfügung. Um LLM eingehend zu untersuchen, beziehen wir uns auf aktuelle Umfragen in der Region.
Im Kontext von LLM werden hauptsächlich „Encoder-Decoder“- und „Decoder-only“-Architekturen für NLP-Aufgaben verwendet.
Ein wesentlicher Unterschied zwischen LLM und herkömmlichen Nicht-LLM-Methoden sind die neuen Fähigkeiten, die in großen Modellen verfügbar, in kleinen Modellen jedoch nicht vorhanden sind. Der Begriff „Notfallfähigkeiten“ bezieht sich auf neue komplexe Fähigkeiten, die mit zunehmender Größe und Komplexität von LLMs entstehen. Diese Fähigkeiten ermöglichen es Menschen, natürliche Sprache tiefgreifend zu verstehen und zu generieren, Probleme in verschiedenen Bereichen ohne spezielle Schulung zu lösen und sich durch kontextbezogenes Lernen an neue Aufgaben anzupassen. Im Folgenden stellen wir einige gängige neue Fähigkeiten im Rahmen von LLM vor.
Kontextuelles Lernen bezieht sich auf die Fähigkeit von LLM, neue Aufgaben oder Abfragen basierend auf dem in den Eingabeaufforderungen bereitgestellten Kontext zu verstehen und darauf zu reagieren, ohne dass eine explizite Umschulung oder Feinabstimmung erforderlich ist. Die wegweisenden Arbeiten (GPT-2/GPT-3) demonstrieren kontextuelles Lernen in einem Multi-Shot-Ansatz, bei dem dem Modell mehrere Aufgabenbeispiele in einer Aufforderung gegeben werden und es dann aufgefordert wird, verschiedene Beispiele ohne vorheriges explizites Training zu verarbeiten. Hochmoderne LLMs wie GPT-4 verfügen über außergewöhnliche kontextbezogene Lernfähigkeiten, verstehen komplexe Anweisungen und führen eine breite Palette von Aufgaben aus, von einfacher Übersetzung über Codegenerierung bis hin zu kreativem Schreiben, alles basierend auf dem in den Eingabeaufforderungen bereitgestellten Kontext .
Argumentation im LLM, oft auch als „Denkketten“-Eingabeaufforderungen bezeichnet, umfasst Modelle, die Zwischenschritte oder Argumentationspfade generieren, wenn mit komplexen Problemen oder Problemen umgegangen wird. Dieser Ansatz ermöglicht es LLM, Aufgaben in kleinere, überschaubare Teile zu zerlegen und so einen strukturierteren und verständlicheren Lösungsprozess zu fördern. Um dies zu erreichen, umfasst das Training Datensätze, die verschiedene Problemlösungsaufgaben, Logikrätsel und Datensätze umfassen, die das Denken unter Unsicherheit simulieren sollen. Aktuelle hochmoderne LLMs weisen typischerweise erweiterte Inferenzfähigkeiten auf, wenn die Modellgrößen größer als 60 B bis 100 B Parameter sind.
Anweisungskonformität bezieht sich auf die Fähigkeit des Modells, Befehle zu verstehen und auszuführen, oder auf die Fähigkeit, vom Benutzer angegebene Anweisungen auszuführen. Dazu gehört das Analysieren der Anweisung, das Verstehen ihrer Absicht und das Generieren einer geeigneten Antwort oder Aktion. Methoden zur Anpassung dieser Fähigkeit an neue Aufgaben erfordern möglicherweise die Anpassung von Anweisungen aus einem Datensatz, der eine Vielzahl von Anweisungen gepaart mit der richtigen Antwort oder Aktion enthält. Techniken wie überwachtes Lernen, verstärkendes Lernen durch menschliches Feedback und interaktives Lernen können die Leistung weiter verbessern.
Im Kontext von 3D-LLM wird LLM entweder direkt im vortrainierten Zustand verwendet oder feinabgestimmt, um sich an neue multimodale Aufgaben anzupassen. Allerdings stellt die Feinabstimmung der gesamten Parameter von LLM aufgrund der großen Anzahl beteiligter Parameter erhebliche Rechen- und Speicherherausforderungen dar. Daher erfreut sich die Parametereffektive Feinabstimmung (PEFT) bei der Anpassung von LLMs an bestimmte Aufgaben immer größerer Beliebtheit, indem nur eine relativ kleine Teilmenge der Modellparameter aktualisiert wird, anstatt das gesamte Modell neu zu trainieren. Im folgenden Abschnitt werden vier gängige PEFT-Methoden aufgeführt, die im LLM verwendet werden.
Low-Rank Adaptation (LoRA) und Varianten aktualisieren Parameter über Low-Rank-Matrizen. Mathematisch kann der Vorwärtsdurchlauf von LoRA während der Feinabstimmung als h=W0x+BAx ausgedrückt werden. W0 ist das eingefrorene Gewicht von LLM, während BA eine Matrix mit niedrigem Rang ist, die durch die neu eingeführten Matrizen a und B parametrisiert wird, die in der Feinabstimmungsphase aktualisiert werden. Dieser Ansatz hat mehrere klare Vorteile. Während des Feinabstimmungsprozesses werden nur B und A optimiert, wodurch der Rechenaufwand für Gradientenberechnungen und Parameteraktualisierungen erheblich reduziert wird. Sobald die Feinabstimmung abgeschlossen ist und die Gewichte zusammengeführt sind, fallen im Vergleich zum ursprünglichen Modell keine zusätzlichen Inferenzkosten an, wie in der Gleichung gezeigt: h = (W0 + BA) x. Darüber hinaus besteht keine Notwendigkeit, mehrere Kopien von LLM für verschiedene Aufgaben zu speichern, da mehrere LoRA-Instanzen gespeichert werden können, wodurch der Speicherbedarf reduziert wird.
Layer Freeze: Friert ausgewählte Layer eines vorab trainierten Modells ein, während andere Layer während des Trainings aktualisiert werden. Dies gilt in der Regel für Schichten, die näher an der Modelleingabe oder -ausgabe liegen, abhängig von der Art der Aufgabe und der Modellarchitektur. Beispielsweise können beim 3D-LLM-Ansatz alle Ebenen außer Ein- und Ausgabeeinbettungen eingefroren werden, um das Risiko einer Überanpassung an aufgabenspezifische Datensätze zu verringern, vorab trainiertes Allgemeinwissen beizubehalten und die zu optimierenden Parameter zu reduzieren.
Prompt Tuning Leitet LLM bei der Ausführung spezifischer Aufgaben an, indem es das LLM-Framework in Prompts festlegt und Modelleingaben im Vergleich zur herkömmlichen Feinabstimmung der Anpassung von Modellparametern anpasst. Die manuelle Cue-Entwicklung ist die intuitivste Methode, aber für erfahrene Cue-Tuning-Ingenieure kann es schwierig sein, die besten Cues zu finden. Ein weiterer Ansatz ist die automatisierte Generierung und Optimierung von Trinkgeldern. Eine beliebte Methode ist die Suche nach dem genau besten Eingabeaufforderungstext, der beispielsweise als Hard Prompt bezeichnet wird. Alternativ können Optimierungsverfahren eingesetzt werden, um die Einbettung von Hinweisen (Soft Hints) zu optimieren.
Adaptive FeinabstimmungPassen Sie die Modellarchitektur für bestimmte Aufgaben an, indem Sie Ebenen oder Module hinzufügen oder entfernen. Dies kann die Integration neuer Datenmodalitäten wie visuelle Informationen und Textdaten umfassen. Die Kernidee der adaptiven Feinabstimmung besteht darin, kleine neuronale Netzwerkmodule zu verwenden, die zwischen den Schichten eines vorab trainierten Modells eingefügt werden. Bei der adaptiven Feinabstimmung werden nur die Parameter dieser Adaptermodule aktualisiert, während die ursprünglichen Modellgewichte unverändert bleiben.
Visual-Language-Modelle sind eine Familie von Modellen, die dazu dienen, die Beziehung zwischen Text und Bildern/Videos zu erfassen und zu nutzen und interaktive Aufgaben zwischen den beiden Modalitäten ausführen zu können. Die meisten VLMs verfügen über eine Transformer-basierte Architektur. Durch die Nutzung des Aufmerksamkeitsmoduls bedingen sich visuelle und textliche Inhalte gegenseitig, um eine gegenseitige Interaktion zu erreichen. In den folgenden Abschnitten werden wir kurz die Anwendung von VLM bei diskriminierenden und generativen Aufgaben vorstellen. Bei der
Diskriminierungsaufgabe geht es darum, ein bestimmtes Merkmal der Daten vorherzusagen. VLMs wie CLIP und ALIGN haben eine außergewöhnliche Leistung im Hinblick auf die Zero-Shot-Übertragbarkeit auf unsichtbare Daten bei der Bildklassifizierung gezeigt. Beide Modelle umfassen zwei Module: Visual Encoder und Text Encoder. Bei einem gegebenen Bild und seiner Kategorie werden CLIP und ALIGN trainiert, indem die Ähnlichkeit zwischen der Bildeinbettung und der Texteinbettung des Satzes „Foto von {Bildkategorie}“ maximiert wird. Eine Zero-Shot-Übertragbarkeit wird erreicht, indem „{Bildkategorie}“ während der Inferenz durch mögliche Kandidaten ersetzt und nach Sätzen gesucht wird, die am besten zum Bild passen. Diese beiden Arbeiten inspirierten zahlreiche Folgearbeiten und verbesserten die Genauigkeit der Bildklassifizierung weiter. Diese Modelle können auch erlerntes Wissen zur Verwendung in anderen Aufgaben extrahieren, einschließlich Objekterkennung, Bildsegmentierung, Dokumentverständnis und Videoerkennung.
Aufgaben generieren Nutzen Sie VLM, um Text oder Bilder aus Eingabedaten zu generieren. Durch die Nutzung umfangreicher Trainingsdaten kann ein einzelner VLM häufig mehrere Bild-zu-Text-Generierungsaufgaben ausführen, wie z. B. Bildunterschriften und visuelle Fragenbeantwortung (VQA). Bemerkenswerte Beispiele sind unter anderem SimVLM, BLIP und OFA. Leistungsstärkere VLMs wie BLIP-2, Flamingo und LLaVA sind in der Lage, Multi-Turn-Dialoge und Argumentationen basierend auf Eingabebildern zu verarbeiten. Mit der Einführung von Diffusionsmodellen ist auch die Text-zu-Bild-Generierung in den Fokus der Forschungsgemeinschaft gerückt. Durch das Training einer großen Anzahl von Bild-Text-Paaren können Diffusionsmodelle auf der Grundlage der Texteingabe qualitativ hochwertige Bilder erzeugen. Diese Funktionalität erstreckt sich auch auf die Generierung von Videos, 3D-Szenen und dynamischen 3D-Zielen. Neben der Generierung von Aufgaben können vorhandene Bilder auch über Texteingaben bearbeitet werden.
Das Vision Foundation-Modell (VFM) ist ein groß angelegtes neuronales Netzwerk, das darauf ausgelegt ist, Bilddarstellungen zu extrahieren, die vielfältig und ausdrucksstark genug sind, um direkt in einer Vielzahl nachgelagerter Aufgaben eingesetzt zu werden und das vorab trainierte LLM widerzuspiegeln Rolle bei nachgelagerten NLP-Aufgaben. Ein bemerkenswertes Beispiel ist DINO, das ein selbstüberwachtes Lehrer-Schüler-Ausbildungsmodell verwendet. Die erlernten Darstellungen erzielen gute Ergebnisse sowohl bei der Bildklassifizierung als auch beim semantischen Bildabgleich. Aufmerksamkeitsgewichte in DINO können auch als Segmentierungsmasken für die semantischen Komponenten der beobachteten Szene verwendet werden. Nachfolgende Arbeiten wie iBOT und DINOv2 verbesserten die Darstellung weiter, indem sie einen MIM-Verlust (Masked Image Modeling) einführten. SAM ist ein transformatorbasiertes Bildsegmentierungsmodell, das auf einem Datensatz trainiert wird, der aus 1,1 Milliarden Bildern mit semantischen Masken besteht und starke Zero-Shot-Übertragungsfunktionen aufweist. DINO (Zhang et al.) – nicht zu verwechseln mit DINO (Caron et al.) – verwendet eine DETR-ähnliche Architektur und eine hybride Abfrageauswahl zur Objekterkennung. Die Nachfolgearbeit Grounding DINO führt eine Textüberwachung ein, um die Genauigkeit zu verbessern. Stable Diffusion ist ein Text-zu-Bild-Generator, der auch als Merkmalsextrahierer für „echte“ Bilder verwendet wird, indem er einen einzelnen Diffusionsschritt auf einem sauberen oder künstlich verrauschten Bild ausführt und Zwischenmerkmale oder Aufmerksamkeitsmasken extrahiert. Aufgrund der Größe und Vielfalt der für Diffusionsmodelle verwendeten Trainingssätze und der beobachteten emergenten Eigenschaften von Diffusionsmerkmalen, wie z. B. Null-Schuss-Korrespondenz zwischen Bildern, wurden diese Merkmale kürzlich für Segmentierungs- und Bildanpassungsaufgaben genutzt.
Wie bereits erwähnt, gibt es angesichts der Vielfalt der 3D-Darstellungen mehrere Möglichkeiten, 3D-Features zu erhalten. Wie in der Spalte „3D-Geometrie“ in Tabelle 1 gezeigt, sind Punktwolken aufgrund ihrer Einfachheit und Kompatibilität mit verschiedenen vorab trainierten 3D-Encodern am häufigsten anzutreffen, was sie zu einer beliebten Wahl für Multitasking- und multimodale Lernmethoden macht. Mehrfachansichtsbilder werden auch häufig verwendet, da die Forschung zur 2D-Merkmalsextraktion ausgereift ist, was bedeutet, dass für die 3D-Merkmalsextraktion nur noch zusätzliche 2D-zu-3D-Lifting-Schemata erforderlich sind. RGB-D-Daten, die mithilfe von Tiefenkameras leicht gewonnen werden können, werden häufig in eingebetteten 3D-Agentensystemen verwendet, um aussichtsbezogene Informationen für die Navigation und das Verständnis zu extrahieren. Ein 3D-Szenendiagramm ist eine abstraktere 3D-Darstellung, mit der sich die Existenz von Objekten und deren Beziehungen gut modellieren und allgemeine Informationen der Szene erfassen lassen. Sie werden häufig für 3D-Szenenklassifizierungs- und Planungsaufgaben verwendet. NeRF wird derzeit weniger in 3D-LLM-Methoden verwendet. Wir glauben, dass dies auf ihre implizite Natur zurückzuführen ist, die es schwieriger macht, sie zu tokenisieren und in Feedforward-Neuronale Netze zu integrieren.
LLMs, die auf großen Datenmengen trainiert werden, können nachweislich vernünftiges Wissen über die Welt erlangen. Das Potenzial des Weltwissens und der Denkfähigkeiten von LLM wurde untersucht, um das Verständnis von 3D-Szenen zu verbessern und die Pipeline für mehrere 3D-Aufgaben neu zu formulieren. In diesem Abschnitt konzentrieren wir uns auf Methoden, die darauf abzielen, mithilfe von LLM die Leistung vorhandener Methoden bei visuellen 3D-Sprachaufgaben zu verbessern. Bei der Anwendung von LLM auf 3D-Aufgaben können wir seine Verwendung in zwei Gruppen einteilen: Wissenserweiterungs- und Inferenzerweiterungsmethoden. Methoden zur Wissenserweiterung nutzen das umfangreiche Weltwissen, das in LLM eingebettet ist, um die Leistung von 3D-Aufgaben zu verbessern. Dies kann kontextbezogene Einblicke liefern, Wissenslücken schließen oder das semantische Verständnis der 3D-Umgebung verbessern. Alternativ stützen sich Methoden zur Verbesserung der Inferenz nicht auf ihr Weltwissen, sondern nutzen die Fähigkeit von LLM, Inferenz Schritt für Schritt durchzuführen und so bessere Generalisierungsmöglichkeiten für komplexere 3D-Herausforderungen bereitzustellen. Die folgenden zwei Abschnitte beschreiben jede dieser Methoden.
Viele Arbeiten konzentrieren sich auf die Verwendung der Anweisungen des LLM und der kontextbezogenen Lernfähigkeiten, um mehrere 3D-Aufgaben in einem Sprachraum zu vereinen. Durch die Verwendung verschiedener Textaufforderungen zur Darstellung unterschiedlicher Aufgaben zielen diese Studien darauf ab, LLM zu einer einheitlichen Konversationsschnittstelle zu machen. Die Implementierung von Multitasking-Lernen mithilfe von LLM umfasst normalerweise mehrere wichtige Schritte, beginnend mit der Erstellung von 3D-Textdatenpaaren. Diese Paarungen erfordern die Erstellung von Aufgabenanweisungen in Textform und die Definition der Ausgabe für jede einzelne Aufgabe. Anschließend werden die 3D-Daten (normalerweise in Form von Punktwolken) einem 3D-Encoder zugeführt, um 3D-Merkmale zu extrahieren. Das Ausrichtungsmodul wird dann verwendet, um (i) 3D-Features mit Texteinbettungen von LLM auf mehreren Ebenen (Objektebene, Beziehungsebene und Szenenebene) auszurichten und (ii) 3D-Features in LLM-interpretierbare Token zu übersetzen. Abschließend muss eine geeignete Trainingsstrategie ausgewählt werden, z. B. ein einstufiges oder mehrstufiges 3D-Sprachausrichtungstraining und eine Feinabstimmung der Anweisungen für mehrere Aufgaben.
Im Rest dieses Abschnitts werden wir diese Aspekte im Detail untersuchen. Wir fassen außerdem den Umfang und die Fähigkeiten jeder in diesem Abschnitt besprochenen Methode in Tabelle 2 zusammen.
Neben der Erforschung von 3D-Multitasking-Lernenden haben einige neuere Studien auch Informationen aus verschiedenen Modalitäten kombiniert, um die Fähigkeiten des Modells weiter zu verbessern und neue Interaktionen zu ermöglichen. Neben Text und 3D-Szenen kann multimodales 3D-LLM auch 2D-Bilder, Audio oder Berührungsinformationen als Eingabe in die Szene einbeziehen.
Die meisten Arbeiten zielen darauf ab, einen gemeinsamen Darstellungsraum über verschiedene Modalitäten hinweg zu schaffen. Da einige bestehende Werke bereits vorab trainierte Encoder bereitstellen, die Text, Bilder oder Audio einem gemeinsamen Raum zuordnen, entscheiden sich einige Werke dafür, 3D-Kodierungen zu erlernen, die die 3D-Einbettungen mit den Einbettungsräumen vorab trainierter Encoder für andere Modalitäten ausrichten. JM3D-LLM lernt einen 3D-Punktwolken-Encoder, der den Einbettungsraum von Punktwolken mit dem Einbettungsraum von Textbildern von SLIP ausrichtet. Es rendert Bildsequenzen von Punktwolken und erstellt während des Trainings hierarchische Textbäume, um eine detaillierte Ausrichtung zu erreichen. Point Bind lernt auch einen ähnlichen 3D-Encoder und richtet ihn an ImageBind aus, um den Einbettungsraum für Bilder, Text, Audio und Punktwolken zu vereinheitlichen. Dies ermöglicht die Verwendung unterschiedlicher Aufgabenköpfe zur Abwicklung unterschiedlicher Aufgaben wie Abruf, Klassifizierung und Generierung zwischen verschiedenen Modi. Eine bemerkenswerte Einschränkung besteht jedoch darin, dass dieser Ansatz nur für kleine Szenen auf Objektebene geeignet ist, da die Verarbeitung großer Szenen mit Millionen von Punkten für 3D-Encoder rechenintensiv ist. Darüber hinaus sind die meisten vorab trainierten multimodalen Encoder wie CLIP für Einzelobjektszenen konzipiert und eignen sich nicht für groß angelegte Szenen mit mehreren Objekten und lokalen Details.
Im Gegensatz dazu erfordern große Szenen eine detailliertere Gestaltung, um mehrere Modi zu integrieren. ConceptFusion erstellt eine erweiterte Feature-Map, die globale Informationen und lokale Details jedes Komponentenbildes einer großen Szene zusammenführt. Dies wird durch die Verwendung vorab trainierter Feature-Extraktoren erreicht, die bereits auf verschiedene Modalitäten, einschließlich Text und Audio, abgestimmt sind. Anschließend werden herkömmliche SLAM-Methoden verwendet, um die Feature-Map der Punktwolke der Szene zuzuordnen. MultiPLY verwendet eine ähnliche Darstellung wie ConceptGraph. Es identifiziert alle hervorstechenden Objekte in der Szene, ermittelt die globale Einbettung jedes Objekts und erstellt schließlich den Szenengraphen. Die resultierende Darstellung ist eine Szeneneinbettung, die auf den Einbettungsraum von Llama ausgerichtet ist. Durch lineare Projektionen können auch Einbettungen anderer Modalitäten, einschließlich Audio, Temperatur und Haptik, in denselben Raum abgebildet werden. Alle Einbettungen werden tokenisiert und sofort an LLM gesendet. Im Vergleich zu Methoden für Szenen auf Objektebene reduzieren Methoden, die große Szenen verarbeiten können, die Kosten, indem sie sich auf vorab trainierte Encoder verlassen, um die modalen Lücken zu schließen, anstatt neue Encoder von Grund auf zu erlernen.
Sie können die Planungs-, Werkzeugnutzungs- und Entscheidungsfunktionen von LLM nutzen, um konkrete 3D-Agenten zu erstellen. Diese Fähigkeiten ermöglichen es LLM, intelligente Entscheidungen zu treffen, einschließlich der Navigation in 3D-Umgebungen, der Interaktion mit Objekten und der Auswahl geeigneter Werkzeuge zur Ausführung bestimmter Aufgaben. In diesem Abschnitt wird beschrieben, wie 3D-Betonagenten Planungs-, Navigations- und Manipulationsaufgaben ausführen.
Traditionell war die 3D-Modellierung ein komplexer, zeitintensiver Prozess mit einer hohen Eintrittsbarriere, der detaillierte Aufmerksamkeit auf Geometrie, Texturen und Beleuchtung erforderte, um realistische Ergebnisse zu erzielen. In diesem Abschnitt werfen wir einen genaueren Blick auf die Integration von LLM mit generativen 3D-Technologien und zeigen, wie die Sprache eine Möglichkeit bietet, kontextualisierte Objekte in einer Szene zu generieren und innovative Lösungen für die Erstellung und Bearbeitung von 3D-Inhalten bereitzustellen.
Hier untersuchen wir Methoden zur Text-zu-3D-Generierung unter Verwendung von 2D-VLM und Anleitung mithilfe eines differenzierbaren Rendering-Text-zu-Bild-Diffusionsmodells. Frühe Arbeiten wie DreamFields, CLIP-Mesh, CLIP-Forge und Text2Mesh erforschten die CLIP-gesteuerte Zero-Shot-3D-Generierung.
DreamFusion führt Score Distriction Sampling (SDS) ein, bei dem die Parameter einer 3D-Darstellung optimiert werden, indem Renderings aus jedem Winkel äußerst realistisch aussehen, wie durch ein vorab trainiertes 2D-Diffusionsmodell bewertet. Es verwendet ein Text-zu-Bild-Imagen-Modell, um die NeRF-Darstellung über SDS zu optimieren. Magic3D schlägt ein zweistufiges Framework vor: Generieren eines groben Modells mit einem Diffusionsprior mit niedriger Auflösung und einem spärlichen 3D-Hash-Netz und anschließendes Optimieren des texturierten 3D-Netzmodells mithilfe eines effizienten differenzierbaren Renderers und eines latenten Diffusionsmodells mit hoher Auflösung. Fantasia3D verwendet eine hybride DMET-Darstellung und räumlich variierendes BRDF, um Geometrie und Erscheinungsbild zu entschlüsseln. ProlificDreamer führt die Variationsfraktionelle Destillation (VSD) ein, ein partikelbasiertes Framework, das 3D-Parameter als Zufallsvariablen behandelt, um die Genauigkeit und Vielfalt zu erhöhen. Dream3D nutzt explizite 3D-Formprioritäten und Text-zu-Bild-Diffusionsmodelle, um die textgesteuerte 3D-Synthese zu verbessern. MVDream verwendet ein konsistentes Multi-View-Diffusionsmodell, das auf einer kleinen Menge von Schussdaten für die personalisierte Generierung trainiert werden kann. Text2NeRF kombiniert NeRF-Darstellungen mit vorab trainierten Text-zu-Bild-Diffusionsmodellen, um basierend auf der Sprache verschiedene 3D-Szenen im Innen- und Außenbereich zu generieren. Neben der gleichzeitigen Erzeugung von Geometrie und Erscheinungsbild wurde in einigen Untersuchungen auch die Möglichkeit untersucht, Texturen nur auf der Grundlage einer bestimmten Geometrie zu synthetisieren.
Auf großen 3D-Textdatensätzen vorab trainierte Transformer-Modelle erlernen leistungsstarke gemeinsame Darstellungen, die visuelle und sprachliche Modalitäten verbinden. 3D VisTA ist ein Transformer-Modell, das Selbstaufmerksamkeit nutzt, um 3D-Bild- und Textdaten gemeinsam zu modellieren, um ein effektives Vortraining für Ziele wie maskierte Sprach-/Zielmodellierung und Szenentext-Matching zu erreichen. UniT3D verwendet eine einheitliche Transformer-Methode in Kombination mit dem PointGroup 3D-Erkennungs-Backbone, dem BERT-Text-Encoder und dem multimodalen Fusionsmodul, um die synthetisierten 3D-Sprachdaten gemeinsam vorab zu trainieren. SpatialVLM verfolgt eine andere Strategie, um VLM gemeinsam an einem großen synthetischen 3D-Datensatz zum räumlichen Denken zu trainieren, wodurch die Leistung von 3D-räumlichen visuellen Fragebeantwortungsaufgaben verbessert und Anwendungen wie das Denken in der Roboter-Denkkette unterstützt werden. Multi CLIP trainiert einen 3D-Szenenencoder vorab, um Szenenmerkmale an den Text- und Bildeinbettungen von CLIP auszurichten. Ziel ist es, das Wissen von CLIP zu übertragen, um das 3D-Verständnis für Aufgaben wie die visuelle Beantwortung von Fragen zu verbessern.
Trotz der Fortschritte bei der Integration von LLM mit 3D-Daten gibt es immer noch Herausforderungen bei der Datendarstellung, Recheneffizienz und Benchmarks, die innovative Lösungen erfordern.
Die Wahl der Darstellung hat einen starken Einfluss auf die Leistung visueller 3D-Sprachmodelle. Derzeit werden Punktwolken aufgrund ihrer Einfachheit und Kompatibilität mit neuronalen Netzwerken hauptsächlich zur Darstellung von Innenumgebungen (z. B. Scheitelpunkte eines Netzes) und Außenumgebungen (z. B. Lidar-Punktwolken) verwendet. Es fällt ihnen jedoch schwer, die Details zu erfassen, die für genaue, umfassende räumliche Modelle entscheidend sind. Die Entwicklung neuer 3D-Szenendarstellungen, die die Lücke zwischen räumlichen Informationen und Sprache effektiver schließen, kann neue Ebenen des Verständnisses und der Interaktion eröffnen. Durch die Suche nach innovativen Wegen zur Kodierung sprachlicher und semantischer Informationen in 3D-Darstellungen, beispielsweise durch die Verwendung extrahierter sprachlicher und semantischer Einbettungen, können wir dazu beitragen, die Lücke zwischen diesen beiden Modalitäten zu schließen.
Sowohl die 3D-Datenverarbeitung als auch die Rechenanforderungen von LLM stellen erhebliche Herausforderungen dar. Da die Komplexität von 3D-Umgebungen und die Größe von Sprachmodellen zunehmen, bleibt die Skalierbarkeit ein Problem. Fortschritte bei LLM-Architekturen, die auf Anpassungsfähigkeit und Recheneffizienz ausgelegt sind, können die Basis für ihre Verbesserung erheblich erweitern und sind entscheidend für die umfassende Bewertung und Verbesserung der Fähigkeiten multimodaler LLMs bei 3D-Aufgaben. Der begrenzte Umfang aktueller Benchmarks, insbesondere im Bereich des dreidimensionalen Denkens, behindert die Beurteilung räumlicher Denkfähigkeiten und die Entwicklung dreidimensionaler Entscheidungs-/Interaktionssysteme. Darüber hinaus erfassen die derzeit verwendeten Metriken die Fähigkeiten von LLM in 3D-Umgebungen nicht vollständig. Es ist von entscheidender Bedeutung, aufgabenspezifische Metriken zu entwickeln, um die Leistung verschiedener 3D-Aufgaben genauer zu messen. Schließlich ist die Granularität der aktuellen Benchmarks für das Szenenverständnis zu einfach, was ein tiefgreifendes Verständnis komplexer 3D-Umgebungen einschränkt. Es sind vielfältigere Aufgaben erforderlich.
Die Verbesserung der Benchmarks ist entscheidend, um die Fähigkeiten des multimodalen LLM bei 3D-Aufgaben vollständig zu bewerten und zu verbessern. Der begrenzte Umfang aktueller Benchmarks, insbesondere im Bereich des dreidimensionalen Denkens, behindert die Beurteilung räumlicher Denkfähigkeiten und die Entwicklung dreidimensionaler Entscheidungs-/Interaktionssysteme. Darüber hinaus erfassen derzeit verwendete Metriken die Funktionalität von LLM in 3D-Umgebungen nicht vollständig. Es ist von entscheidender Bedeutung, aufgabenspezifische Metriken zu entwickeln, um die Leistung verschiedener 3D-Aufgaben genauer zu messen. Schließlich ist die Granularität der aktuellen Benchmarks zum Szenenverständnis zu einfach, was ein tiefgreifendes Verständnis komplexer 3D-Umgebungen einschränkt. Es sind vielfältigere Aufgaben erforderlich.
Sicherheit und ethische Implikationen müssen bei der Verwendung von LLM für das 3D-Verständnis berücksichtigt werden. LLM kann halluzinieren und ungenaue, unsichere Informationen ausgeben, was zu falschen Entscheidungen in kritischen 3D-Anwendungen führt. Darüber hinaus scheitern LLMs oft auf unvorhersehbare und schwer zu erklärende Weise. Sie können auch soziale Vorurteile übernehmen, die in den Trainingsdaten vorhanden sind und bestimmte Gruppen benachteiligen, wenn sie Vorhersagen in realen 3D-Szenen treffen. Es ist von entscheidender Bedeutung, dass LLMs in 3D-Umgebungen umsichtig eingesetzt werden und Strategien zur Erstellung umfassenderer Datensätze, robuste Bewertungsrahmen zur Erkennung und Korrektur von Verzerrungen sowie Mechanismen zur Minimierung von Halluzinationen einsetzen, um die Verantwortlichkeit und Fairness des Ergebnisses sicherzustellen.
Dieser Artikel bietet eine detaillierte Untersuchung der Integration von LLM- und 3D-Daten. In dieser Umfrage werden systematisch die Methoden, Anwendungen und neuen Fähigkeiten von LLM bei der Verarbeitung, dem Verständnis und der Generierung von 3D-Daten untersucht und das transformative Potenzial von LLM für eine Reihe von 3D-Aufgaben hervorgehoben. Von der Verbesserung des räumlichen Verständnisses und der Interaktion in dreidimensionalen Umgebungen bis hin zur Weiterentwicklung der Fähigkeiten eingebetteter künstlicher Intelligenzsysteme spielt LLM eine Schlüsselrolle bei der Weiterentwicklung dieses Fachgebiets.
Zu den wichtigsten Erkenntnissen gehört die Identifizierung der einzigartigen Vorteile von LLM, wie Zero-Shot-Lernen, fortgeschrittenes Denken und umfassendes Weltwissen, die dabei helfen, die Lücke zwischen Textinformationen und räumlicher Interpretation zu schließen. Dieses Dokument demonstriert die LLM-Integration mit 3D-Daten für eine Vielzahl von Aufgaben. Die Erforschung anderer dreidimensionaler visueller Sprachmethoden mit LLM eröffnet vielfältige Forschungsperspektiven, die darauf abzielen, unser Verständnis der 3D-Welt zu vertiefen.
Darüber hinaus hebt die Umfrage bedeutende Herausforderungen wie Datendarstellung, Modellskalierbarkeit und Recheneffizienz hervor und zeigt, dass die Überwindung dieser Hindernisse entscheidend ist, um das Potenzial von LLM in 3D-Anwendungen voll auszuschöpfen. Zusammenfassend bietet diese Umfrage nicht nur einen umfassenden Überblick über den aktuellen Stand der 3D-Aufgaben mit LLM, sondern legt auch den Grundstein für zukünftige Forschungsrichtungen. Es erfordert eine Zusammenarbeit, um die Fähigkeiten von LLM beim Verstehen und Interagieren mit komplexen 3D-Welten zu erforschen und zu erweitern und so den Weg für weitere Fortschritte auf dem Gebiet der räumlichen Intelligenz zu ebnen.
Das obige ist der detaillierte Inhalt vonDas Neueste von der Universität Oxford |. Fast 400 Zusammenfassungen! Sprechen Sie über die neueste Überprüfung großer Sprachmodelle und der dreidimensionalen Welt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!