Heim >Technologie-Peripheriegeräte >KI >CVPR 2024 |. Zero-Sample-6D-Objekthaltungsschätzungs-Framework SAM-6D, ein Schritt näher an der verkörperten Intelligenz
Die Schätzung der Objekthaltung spielt in vielen praktischen Anwendungen eine Schlüsselrolle, beispielsweise in Bereichen wie verkörperte Intelligenz, Roboterbetrieb und Augmented Reality.
In diesem Bereich ist die Aufgabe, die zuerst Aufmerksamkeit erregte, die 6D-Posenschätzung auf Instanzebene, die annotierte Daten über das Zielobjekt für das Modelltraining erfordert, wodurch das tiefe Modell objektspezifisch wird und nicht auf neue Objekte übertragen werden kann. Vorgesetzter. Später verlagerte sich der Forschungsschwerpunkt nach und nach auf die „6D-Posenschätzung auf Kategorieebene“, die zur Verarbeitung unsichtbarer Objekte verwendet wird, aber erfordert, dass das Objekt zu einer bekannten Kategorie von Interesse gehört. Und Zero-Shot 6D-Poseschätzung ist eine allgemeinere Aufgabenstellung, bei der ein CAD-Modell eines beliebigen Objekts gegeben wird und die darauf abzielt, das Zielobjekt in der Szene zu erkennen und seine 6D-Pose abzuschätzen. Trotz ihrer Bedeutung steht diese Zero-Shot-Aufgabeneinstellung vor erheblichen Herausforderungen sowohl bei der Objekterkennung als auch bei der Posenschätzung.
Abbildung 1. 6D-Objektposition ohne Stichprobe ationsaufgabe
In letzter Zeit hat das Segmentierungs-All-Model-SAM [1] viel Aufmerksamkeit auf sich gezogen und seine hervorragende Null-Probe-Segmentierungsfähigkeit ist ein Blickfang. SAM erreicht eine hochpräzise Segmentierung durch verschiedene Hinweise wie Pixel, Begrenzungsrahmen, Text und Masken usw., was auch eine zuverlässige Unterstützung für die Null-Probe-6D-Objekthaltungsschätzungsaufgabe bietet und sein vielversprechendes Potenzial demonstriert. Daher wurde von Forschern von Cross-Dimensional Intelligence, der Chinese University of Hong Kong (Shenzhen) und der South China University of Technology ein neues Zero-Sample-Framework zur 6D-Objekthaltungsschätzung SAM-6D vorgeschlagen. Diese Forschung wurde vom CVPR 2024 anerkannt.
Papier-Link: https://arxiv.org/pdf/2311.15707.pdf
Code-Link: https://github.com/JiehongLin/SAM-6D
SAM-6D Die Posenschätzung von 6D-Objekten ohne Stichprobe wird durch zwei Schritte erreicht, einschließlich Instanzsegmentierung und Posenschätzung. Dementsprechend nutzt SAM-6D bei jedem Zielobjekt zwei dedizierte Subnetzwerke, nämlich
Instance Segmentation Model (ISM) und Pose Estimation Model (PEM)
andere AM-6D ist ein innovatives Zero-Sample-6D-Posenschätzungs-Framework, das anhand des CAD-Modells eines beliebigen Objekts eine Instanzsegmentierung und Posenschätzung von Zielobjekten aus RGB-D-Bildern erreicht und eine hervorragende Leistung erbringt zu den sieben Kerndatensätzen von BOP [2].
SAM-6D nutzt die Zero-Shot-Segmentierungsfähigkeit des Segment Everything-Modells, um alle möglichen Kandidaten zu generieren, und entwirft einen neuartigen Objekt-Matching-Score, um Kandidaten zu identifizieren, die Zielobjekten entsprechen.
SAM-6D behandelt die Posenschätzung als ein lokales Punktmengen-Matching-Problem, übernimmt ein einfaches, aber effektives Hintergrund-Token-Design und schlägt zunächst ein zweistufiges Punktmengen-Matching-Modell für beliebige Objekte vor. Die erste Stufe wird implementiert Grober Punktsatzabgleich, um die anfängliche Objektpose zu erhalten, und die zweite Stufe verwendet einen neuartigen Punktsatztransformator von dünner bis dichter Dichte, um einen feinen Punktsatzabgleich durchzuführen, um die Pose weiter zu optimieren.
SAM-6D verwendet das Instance Segmentation Model (ISM), um Masken beliebiger Objekte zu erkennen und zu segmentieren.
Der Objekt-Matching-Score wird durch die gewichtete Summe von drei Matching-Termen berechnet:
– Für das Zielobjekt rendert ISM Objektvorlagen aus mehreren Perspektiven und verwendet DINOv2 [3] für das Vortraining des ViT-Modells Extrahiert semantische Merkmale von Kandidatenobjekten und Objektvorlagen und berechnet Korrelationswerte zwischen ihnen. Die semantische Übereinstimmungsbewertung wird durch Mitteln der höchsten K-Bewertungen erhalten, und die Objektvorlage, die der höchsten Korrelationsbewertung entspricht, wird als die am besten übereinstimmende Vorlage angesehen. Aussehensübereinstimmung – Für die beste Übereinstimmungsvorlage wird das ViT-Modell verwendet, um Bildblockmerkmale zu extrahieren und die Korrelation zwischen ihnen und den Blockmerkmalen des Kandidatenobjekts zu berechnen, um den Aussehensübereinstimmungswert zu erhalten, der zur Unterscheidung semantisch ähnlicher Elemente verwendet wird aber äußerlich passende Gegenstände. Geometrische Übereinstimmungen – Unter Berücksichtigung von Faktoren wie den Unterschieden in Form und Größe verschiedener Objekte hat ISM auch einen geometrischen Übereinstimmungswert entwickelt. Der Durchschnitt der Drehung entsprechend der am besten passenden Vorlage und der Punktwolke des Kandidatenobjekts kann eine grobe Objekthaltung ergeben, und der Begrenzungsrahmen kann durch starre Transformation und Projektion des Objekt-CAD-Modells unter Verwendung dieser Haltung erhalten werden. Durch Berechnen des Schnittmengen-über-Union-Verhältnisses (IoU) zwischen dem Begrenzungsrahmen und dem Kandidaten-Begrenzungsrahmen kann der geometrische Übereinstimmungswert ermittelt werden. Pose Estimation Model (PEM) Für jedes Kandidatenobjekt, das mit einem Zielobjekt übereinstimmt, verwendet SAM-6D ein Pose Estimation Model (PEM), um seine 6D-Pose relativ zum CAD-Modell des Objekts vorherzusagen. Bezeichnen Sie die Abtastpunktsätze segmentierter Kandidatenobjekte und Objekt-CAD-Modelle als bzw. , wobei N_m und N_o gleichzeitig die Anzahl ihrer Punkte darstellen und die Eigenschaften dieser beiden Punktsätze als und darstellen. C steht für die Anzahl der Kanäle der Funktion. Das Ziel von PEM besteht darin, eine Zuordnungsmatrix zu erhalten, die die örtliche Korrespondenz von P_m zu P_o darstellt. Aufgrund der Okklusion stimmt P_o nur teilweise mit P_m überein, und aufgrund von Segmentierungsungenauigkeiten und Sensorrauschen stimmt P_m nur teilweise überein. Teilweise UND-Übereinstimmungen P_o. Um das Problem der Zuweisung nicht überlappender Punkte in zwei Punktmengen zu lösen, stattet ISM sie mit Hintergrund-Tokens aus, die als und bezeichnet werden und auf der Grundlage der Merkmalsähnlichkeit effektiv eine lokale Korrespondenz herstellen können. Konkret kann die Aufmerksamkeitsmatrix zunächst wie folgt berechnet werden: Dann stellen die Verteilungsmatrix und die Softmax-Operation entlang der Zeilen bzw. Spalten dar und stellt eine Konstante dar. Der Wert jeder Zeile in (mit Ausnahme der ersten Zeile) stellt die Übereinstimmungswahrscheinlichkeit jedes Punktes P_m in der Punktmenge P_m mit dem Hintergrund und dem Mittelpunkt von P_o dar. Durch Lokalisieren des Index der maximalen Punktzahl wird der Punkt, der P_m entspricht (einschließlich). der Hintergrund) finden Sie ). Sobald berechnet ist, können alle übereinstimmenden Punktpaare {(P_m,P_o)} und ihre Übereinstimmungswerte gesammelt werden, und schließlich wird die gewichtete SVD zur Berechnung der Objektpose verwendet. Unter Verwendung der oben genannten Strategie basierend auf dem Hintergrundtoken werden in PEM zwei Phasen des Punktsatzabgleichs entworfen. Die Modellstruktur ist in Abbildung 3 dargestellt, die drei Module umfasst: Merkmalsextraktion, grober Punktsatzabgleich und feiner Punktsatzabgleich. Experimentelle Ergebnisse Tabellen 2. Verschiedene Methoden zur Einstellung verschiedener Methoden zu den sieben Kerndatensätzen zu BOP Vergleich der Ergebnisse Abbildung 4 zeigt die visuellen Ergebnisse der Erkennungssegmentierung und der 6D-Lageschätzung von SAM-6D anhand von sieben BOP-Datensätzen, wobei (a) und (b) die getesteten RGB-Bilder bzw. Tiefenkarten sind und (c) ein gegebenes Ziel ist Objekt, während (d) und (e) die Visualisierungsergebnisse der Erkennungssegmentierung bzw. der 6D-Pose sind. -Abbildung 4. Die visuellen Ergebnisse der sieben Kerndatensätze von SAM-6D auf dem BOP. Weitere Implementierungsdetails von SAM-6D finden Sie im Originalpapier. Referenzen: [1] Alexander Kirillov et. al., „Segment everything.“ [3] Maxime Oquab et. al., „Dinov2: Learning Robuste visuelle Funktionen ohne Aufsicht . al., „Transformer sind rnns: Schnelle autoregressive Transformer mit linearer Aufmerksamkeit.“
Das obige ist der detaillierte Inhalt vonCVPR 2024 |. Zero-Sample-6D-Objekthaltungsschätzungs-Framework SAM-6D, ein Schritt näher an der verkörperten Intelligenz. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!