Heim >Technologie-Peripheriegeräte >KI >Neuer Fortschritt in Li Feifeis „Spatial Intelligence'-Reihe: Die neue „BVS'-Suite des Teams von Wu Jiajun evaluiert Computer-Vision-Modelle

Neuer Fortschritt in Li Feifeis „Spatial Intelligence'-Reihe: Die neue „BVS'-Suite des Teams von Wu Jiajun evaluiert Computer-Vision-Modelle

PHPz
PHPzOriginal
2024-06-10 14:04:571167Durchsuche

In der TED-Rede 2024 vor nicht allzu langer Zeit erklärte Li Feifei das Konzept der Räumlichen Intelligenz im Detail. Sie ist erfreut und äußerst enthusiastisch über die rasante Entwicklung des Bereichs Computer Vision in den letzten Jahren und gründet zu diesem Zweck ein Start-up-Unternehmen

In dieser Rede erwähnte sie BEHAVIOR, ein Forschungsergebnis von Das Stanford-Team hat einen Verhaltens- und Bewegungsdatensatz erstellt, um Computern und Robotern beizubringen, wie sie sich in einer dreidimensionalen Welt verhalten sollen. VERHALTEN ist ein riesiger Datensatz, der menschliche Verhaltensweisen und Handlungen in verschiedenen Szenarien enthält. Der Zweck dieses Datensatzes besteht darin, Computern und Robotern zu ermöglichen, menschliches Verhalten besser zu verstehen und nachzuahmen. Durch die Analyse einer großen Datenmenge in BEHAVIOR können Forscher

erhalten. Nun leitete Wu Jiajun das Team zur Veröffentlichung einer Folgestudie – „BEHAVIOR Vision Suite (BVS) “. Das Papier erhielt außerdem das CVPR 2024 Highlight.

Neuer Fortschritt in Li Feifeis „Spatial Intelligence-Reihe: Die neue „BVS-Suite des Teams von Wu Jiajun evaluiert Computer-Vision-Modelle

Im Bereich Computer Vision erfordern die systematische Bewertung und das Verständnis der Modellleistung unter verschiedenen Bedingungen quantitative Daten und umfassende, maßgeschneiderte Etiketten. Visuelle Datensätze aus der realen Welt können diese Anforderungen jedoch oft nicht erfüllen. Obwohl vielversprechende Alternativen wie KI-Aufgaben vielversprechende Alternativen bieten, gibt es immer noch viele Mängel in Bezug auf Ressourcen- und Rendering-Qualität, Datenvielfalt und Realismus der physikalischen Eigenschaften.

Um diese Probleme zu lösen, hat das Forschungsteam „BEHAVIOR Vision Suite (BVS)“ ins Leben gerufen.

BVS ist eine Reihe von Tools und Ressourcen zur systematischen Bewertung von Computer-Vision-Modellen. Basierend auf dem neu entwickelten KI-Benchmark BEHAVIOR-1K kann BVS Parameter anpassen, die Szenenebene (wie Beleuchtung, Objektplatzierung), Objektebene (wie Gelenkkonfiguration, Attribute) und Kameraebene (wie Sichtfeld, Brennweite) abdecken ). Forscher können diese Parameter während der Datenerfassung anpassen, um Experimente noch präziser zu steuern.

Dieses Modell demonstriert auch die Vorteile von BVS in verschiedenen Modellbewertungs- und Trainingsanwendungen, einschließlich der parametergesteuerten Bewertung visueller Modelle hinsichtlich der Robustheit gegenüber kontinuierlichen Änderungen der Umgebungsparameter , systematische Auswertung von Szenenverständnismodellen (reiche visuelle Annotation) und Modelltraining für neue Sehaufgaben

Neuer Fortschritt in Li Feifeis „Spatial Intelligence-Reihe: Die neue „BVS-Suite des Teams von Wu Jiajun evaluiert Computer-Vision-Modelle


  • Projektlink: https ://behavior-vision-suite.github. io/
  • Papierlink: https://arxiv.org/pdf/2405.09546
  • Codelink: . https://github.com/behavi oder-Vision -suite/behavior-vision-suite.github.io

Neuer Fortschritt in Li Feifeis „Spatial Intelligence-Reihe: Die neue „BVS-Suite des Teams von Wu Jiajun evaluiert Computer-Vision-Modelle

BEHAVIOR Vision Suite

BVS besteht aus zwei Teilen: dem Datenteil und dem darauf basierenden anpassbaren Datengenerator

Der Datenteil von BVS wird basierend auf den Assets von BEHAVIOR-1K erweitert, einschließlich insgesamt 8841 3D-Objektmodellen und Innenszenen, die auf 1000 Szeneninstanzen erweitert wurden Das Forschungsteam stellt außerdem ein Skript zur Verfügung, mit dem Benutzer automatisch erweiterte Szeneninstanzen generieren können.

Anpassbarer Datengenerator Ermöglicht Benutzern die einfache Nutzung des Datenteils von BVS zur Erfüllung ihrer Anforderungen an Bilddatensätze, z. B. Innenszenen bei dunklem Licht

.

BVS kann dafür sorgen, dass der generierte Datensatz eine hohe semantische Vielfalt aufweist und gleichzeitig die Anforderungen erfüllt und gleichzeitig seine Wiedergabetreue und physikalische Rationalität gewährleistet. Konkret können Benutzer die folgenden fünf Aspekte steuern: Kameraposition, Beleuchtung, Objekteigenschaften (z. B. Größe), Objektstatus (z. B. ein, aus) und räumliche Beziehungen zwischen Objekten.

Anwendungsszenarien

Die Forscher demonstrierten die Funktionsweise der von BVS generierten Daten in drei Anwendungsszenarien, darunter:

  • Parametersteuerbare Auswertung visueller Modelle in Umgebungsparametern Robustheit bei kontinuierlichen Änderungen: Erkunden Sie die Leistung des Modells unter kontinuierlichen Änderungen verschiedener Umgebungsparameter (Okklusionsgrad, Umgebungshelligkeit, Aufnahmewinkel, Objektgelenkbewegung, Sichtfeld), wie z. B. die Auswertung des Objekterkennungsmodells beim Wechsel der Kühlschranktür von vollständig geschlossen zu Während des vollständigen Öffnungsvorgangs , kann das Modell das Vorhandensein eines Kühlschranks korrekt erkennen und so sicherstellen, dass das Modell mit verschiedenen Umgebungsveränderungen in tatsächlichen Anwendungen zurechtkommt. Die Fähigkeitsgrenzen des Modells unter verschiedenen Grenzparameterbedingungen können ebenfalls untersucht werden.
  • Szenenverständnismodelle bewerten: Anhand vollständig kommentierter Bilder wird die Leistung verschiedener Szenenverständnismodelle systematisch bewertet.
  • Trainieren Sie ein neues Vision-Aufgabenmodell: Trainieren Sie ein neues Vision-Aufgabenmodell für die Objektzustands- und Beziehungsvorhersage anhand synthetischer Daten und bewerten Sie seine Übertragbarkeit von der Simulation auf reale Anwendungen, um sicherzustellen, dass das Modell in realen Umgebungen effektiv ist.

Parameter bewerten kontrollierbar die Robustheit des visuellen Modells, wenn sich Umgebungsparameter kontinuierlich ändern

Durch die Generierung von Daten, die sich in einer bestimmten Dimension kontinuierlich ändern, bewerten Forscher hier systematisch die Robustheit des visuellen Modells unter Veränderung. Beispielsweise werden Daten mit allmählich zunehmenden Objektverdeckungsgraden in derselben Szene generiert, um die Leistung des visuellen Modells unter teilweise verdeckten Objekten zu bewerten.

Durch die Auswertung verschiedener SOTA-Modelle stellten Forscher fest, dass bestehende Modelle bei Daten außerhalb allgemeiner Verteilungen immer noch schlecht abschneiden. Da diese Daten in der realen Welt schwer zu erhalten oder zu beschriften sind, ist es schwierig, diese Schlussfolgerungen direkt aus realen Bilddatensätzen zu ziehen. Daher kann BVS Forschern dabei helfen, die Robustheit des Modells unter den für sie interessanten Bedingungen zu bewerten, um das Modell besser zu entwickeln und zu verbessern.

Neuer Fortschritt in Li Feifeis „Spatial Intelligence-Reihe: Die neue „BVS-Suite des Teams von Wu Jiajun evaluiert Computer-Vision-Modelle

Das bestehende SOTA-Modell bietet noch Raum für Verbesserungen in der Robustheit unter sich ändernden Bedingungen (z. B. Kamerahöhe)

Neuer Fortschritt in Li Feifeis „Spatial Intelligence-Reihe: Die neue „BVS-Suite des Teams von Wu Jiajun evaluiert Computer-Vision-Modelle

Leistung verschiedener Erkennungsmodelle, wenn sich fünf Umgebungsparameter kontinuierlich ändern

Bewertung von Szenenverständnismodellen

Ein weiteres Merkmal des von BVS gebildeten Datensatzes ist, dass er multimodale reale Beschriftungen wie Tiefe, semantische Segmentierung und Zielgrenzen enthält. Dadurch können Forscher die von BVS generierten Daten verwenden, um Vorhersagemodelle für verschiedene Aufgaben auf demselben Bild auszuwerten.

Das Forschungsteam bewertete das SOTA-Modell für vier Aufgaben: Erkennung und Segmentierung offener Wörter, Tiefenschätzung und Punktwolkenrekonstruktion und stellte fest, dass die Leistung des Modells beim BVS-Datensatz mit seiner Leistung beim realen Datenbenchmark übereinstimmte der entsprechenden Aufgabe. Dies zeigt, dass die von BVS generierten hochwertigen Daten wirklich reale Daten widerspiegeln und darstellen, und die Forscher hoffen, dass solche Datensätze die Entwicklung von Multitasking-Vorhersagemodellen fördern können.

Im Open-Source-Code stellt das Forschungsteam auch ein Skript bereit, um Benutzern das Abtasten von Flugbahnen in der Szene zu erleichtern.

Neuer Fortschritt in Li Feifeis „Spatial Intelligence-Reihe: Die neue „BVS-Suite des Teams von Wu Jiajun evaluiert Computer-Vision-Modelle

Die Forscher sammelten viele Videos zum Durchsuchen von Szenen, um das Szenenverständnismodell zu bewerten. Die Forscher erstellten eine große Anzahl von Traversierungsvideos in repräsentativen Szenen, die jeweils mehr als 10 Kamerabahnen enthielten. Für jedes Bild generiert BVS verschiedene Beschriftungen (z. B. Szenenkarte, Segmentierungsmaske, Tiefenkarte)

Neuer Fortschritt in Li Feifeis „Spatial Intelligence-Reihe: Die neue „BVS-Suite des Teams von Wu Jiajun evaluiert Computer-Vision-Modelle

Die relative Leistungsreihenfolge des SOTA-Modells auf BVS-Daten stimmt mit dem Benchmark für reale Aufgaben überein

Training neuer Vision-Aufgabenmodelle

Der Datenbeitrag von BVS beschränkt sich nicht nur auf die Modellbewertung , aber auch für diejenigen, die in realen Szenarien schwer zu verwenden sind Für die Aufgabe, Daten zu sammeln oder zu kennzeichnen, können BVS-Daten auch für das Modelltraining verwendet werden.

Der Autor verwendete BVS zum Generieren von 12,5.000 Bildern und verwendete es nur zum Trainieren eines räumlichen Objektbeziehungs- und Zustandsvorhersagemodells. Dieses Modell erreichte in realen Szenarien einen F1-Wert von 0,839, ohne dass reale Daten für das Training verwendet wurden, was hervorragende Transferfähigkeiten von der Simulation in die Realität widerspiegelt.

Neuer Fortschritt in Li Feifeis „Spatial Intelligence-Reihe: Die neue „BVS-Suite des Teams von Wu Jiajun evaluiert Computer-Vision-Modelle

Beispieldiagramm eines simulierten Trainingsdatensatzes und eines realen Testdatensatzes

Neuer Fortschritt in Li Feifeis „Spatial Intelligence-Reihe: Die neue „BVS-Suite des Teams von Wu Jiajun evaluiert Computer-Vision-Modelle

Verwendung der von BVS generierten Daten zum Trainieren der räumlichen Objektbeziehung und des Zustandsvorhersagemodells

Zusammenfassung

BVS bietet leistungsstarke Tools und Ressourcen, die Computer-Vision-Forschern neue Möglichkeiten zur Generierung maßgeschneiderter synthetischer Datensätze bieten.

Durch die systematische Steuerung und Anpassung verschiedener Parameter im Datengenerierungsprozess können Forscher die Leistung von Computer-Vision-Modellen umfassender bewerten und verbessern und so eine solide Grundlage für zukünftige Forschung und Anwendungen legen.

Das obige ist der detaillierte Inhalt vonNeuer Fortschritt in Li Feifeis „Spatial Intelligence'-Reihe: Die neue „BVS'-Suite des Teams von Wu Jiajun evaluiert Computer-Vision-Modelle. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn