


Die Schätzung der Objektposition spielt eine Schlüsselrolle in vielen realen Anwendungen, wie z. B. verkörperter Intelligenz, geschickter Robotermanipulation und Augmented Reality.
In diesem Bereich ist die erste Aufgabe, die Beachtung findet, die 6D-Posenschätzung auf Instanzebene, die annotierte Daten über das Zielobjekt für das Modelltraining erfordert, wodurch das tiefe Modell objektspezifisch wird und nicht auf On übertragen werden kann neue Objekte. Später verlagerte sich der Forschungsschwerpunkt nach und nach auf die 6D-Posenschätzung auf Kategorieebene, die zur Verarbeitung unsichtbarer Objekte verwendet wird, aber erfordert, dass das Objekt zu einer bekannten Kategorie von Interesse gehört.
Und die Zero-Shot-6D-Poseschätzung ist eine allgemeinere Aufgabenstellung, bei der ein CAD-Modell eines beliebigen Objekts vorliegt und die darauf abzielt, das Zielobjekt in der Szene zu erkennen und seine 6D-Pose abzuschätzen. Trotz ihrer Bedeutung steht diese Zero-Shot-Aufgabeneinstellung vor erheblichen Herausforderungen sowohl bei der Objekterkennung als auch bei der Posenschätzung.
Abbildung 1. Zero-Sample-6D-Objektpositionsschätzungsaufgabe
In letzter Zeit hat das Segmentation-Everything-Modell SAM [1] viel Aufmerksamkeit erregt, und seine hervorragende Zero-Sample-Segmentierungsfähigkeit ist ein Blickfang. SAM erreicht eine hochpräzise Segmentierung durch verschiedene Hinweise wie Pixel, Begrenzungsrahmen, Text und Masken usw., was auch eine zuverlässige Unterstützung für die Null-Probe-6D-Objekthaltungsschätzungsaufgabe bietet und sein vielversprechendes Potenzial demonstriert.
Daher haben Forscher von Interdimensional Intelligence, der Chinesischen Universität Hongkong (Shenzhen) und der South China University of Technology gemeinsam ein innovatives Zero-Sample-6D-Objektpositionsschätzungs-Framework SAM-6D vorgeschlagen. Diese Forschung wurde in CVPR 2024 aufgenommen.
- Papierlink: https://arxiv.org/pdf/2311.15707.pdf
- Codelink: https://github.com/JiehongLin/SAM-6D
SAM-6D erreicht eine Zero-Sample-6D-Objektpositionsschätzung durch zwei Schritte, einschließlich Instanzsegmentierung und Posenschätzung. Dementsprechend nutzt SAM-6D bei jedem Zielobjekt zwei dedizierte Subnetzwerke, nämlich Instance Segmentation Model (ISM) und Pose Estimation Model (PEM) , um das Ziel aus RGB-D-Szenenbildern zu erreichen, wobei ISM SAM verwendet Als hervorragender Ausgangspunkt, kombiniert mit sorgfältig entwickelten Objekt-Matching-Scores, um eine Instanzsegmentierung beliebiger Objekte zu erreichen, löst PEM das Objekt-Posen-Problem durch einen zweistufigen Punktsatz-Matching-Prozess von lokal zu lokal. Eine Übersicht über den SAM-6D ist in Abbildung 2 dargestellt. Abbildung 2. Überblick über SAM-6D Schätzung Das Framework erreicht anhand eines CAD-Modells eines beliebigen Objekts eine Instanzsegmentierung und Posenschätzung von Zielobjekten aus RGB-D-Bildern und schneidet bei den sieben Kerndatensätzen von BOP hervorragend ab [2].
SAM-6D nutzt die Zero-Shot-Segmentierungsfähigkeit des Segment Everything-Modells, um alle möglichen Kandidaten zu generieren, und entwirft einen neuartigen Objekt-Matching-Score, um Kandidaten zu identifizieren, die Zielobjekten entsprechen.
SAM-6D behandelt die Posenschätzung als ein lokales Punktmengen-Matching-Problem, übernimmt ein einfaches, aber effektives Hintergrund-Token-Design und schlägt zunächst ein zweistufiges Punktmengen-Matching-Modell für beliebige Objekte vor. Die erste Stufe wird implementiert Grober Punktsatzabgleich, um die anfängliche Objektpose zu erhalten, und die zweite Stufe verwendet einen neuartigen Punktsatztransformator von dünner bis dichter Dichte, um einen feinen Punktsatzabgleich durchzuführen, um die Pose weiter zu optimieren.
Instance Segmentation Model (ISM)
- SAM-6D verwendet das Instance Segmentation Model (ISM), um Masken beliebiger Objekte zu erkennen und zu segmentieren.
- Angesichts einer überfüllten Szene, die durch RGB-Bilder dargestellt wird, nutzt ISM die Zero-Shot-Übertragungsfunktion des Segmentation Everything Model (SAM), um alle möglichen Kandidaten zu generieren. Für jedes Kandidatenobjekt berechnet ISM einen Objektübereinstimmungswert, um abzuschätzen, wie gut es in Bezug auf Semantik, Aussehen und Geometrie mit dem Zielobjekt übereinstimmt. Schließlich können durch einfaches Festlegen eines Übereinstimmungsschwellenwerts Instanzen identifiziert werden, die mit dem Zielobjekt übereinstimmen.
Der Objekt-Matching-Score wird durch die gewichtete Summe von drei passenden Elementen berechnet:
Semantisches Matching – Für das Zielobjekt rendert ISM Objektvorlagen aus mehreren Perspektiven und verwendet DINOv2 [3], das vorab trainierte ViT-Modell Extrahiert die semantischen Merkmale von Kandidatenobjekten und Objektvorlagen und berechnet den Korrelationswert zwischen ihnen. Die semantische Übereinstimmungsbewertung wird durch Mitteln der höchsten K-Bewertungen erhalten, und die Objektvorlage, die der höchsten Korrelationsbewertung entspricht, wird als die am besten übereinstimmende Vorlage angesehen.
Aussehensanpassung – Für die Vorlage mit der besten Übereinstimmung wird das ViT-Modell verwendet, um Bildblockmerkmale zu extrahieren und die Korrelation zwischen ihm und den Blockmerkmalen des Kandidatenobjekts zu berechnen, um die Darstellungsübereinstimmungsbewertung zu erhalten, die verwendet wird Semantik unterscheiden Objekte, die ähnlich sind, aber unterschiedlich aussehen.
Geometrische Übereinstimmung – Unter Berücksichtigung von Faktoren wie Form- und Größenunterschieden verschiedener Objekte hat ISM auch einen geometrischen Übereinstimmungswert entwickelt. Der Durchschnitt der Drehung entsprechend der am besten passenden Vorlage und der Punktwolke des Kandidatenobjekts kann eine grobe Objekthaltung ergeben, und der Begrenzungsrahmen kann durch starre Transformation und Projektion des Objekt-CAD-Modells unter Verwendung dieser Haltung erhalten werden. Durch Berechnen des Schnittmengen-über-Union-Verhältnisses (IoU) zwischen dem Begrenzungsrahmen und dem Kandidaten-Begrenzungsrahmen kann der geometrische Übereinstimmungswert ermittelt werden.
Pose Estimation Model (PEM)
Für jedes Kandidatenobjekt, das mit einem Zielobjekt übereinstimmt, verwendet SAM-6D ein Pose Estimation Model (PEM), um seine 6D-Pose relativ zum CAD-Modell des Objekts vorherzusagen.
Bezeichnen Sie die Abtastpunktsätze segmentierter Kandidatenobjekte und Objekt-CAD-Modelle als bzw.
, wobei N_m und N_o gleichzeitig die Anzahl ihrer Punkte darstellen und die Eigenschaften dieser beiden Punktsätze darstellen werden als
und
ausgedrückt, wobei C die Anzahl der Kanäle der Funktion darstellt. Das Ziel von PEM besteht darin, eine Zuordnungsmatrix zu erhalten, die die örtliche Korrespondenz von P_m zu P_o darstellt. Aufgrund der Okklusion stimmt P_o nur teilweise mit P_m überein, und aufgrund von Segmentierungsungenauigkeiten und Sensorrauschen stimmt P_m nur teilweise überein. Teilweise UND-Übereinstimmungen P_o.
Um das Problem der Zuweisung nicht überlappender Punkte zwischen zwei Punktmengen zu lösen, stattet ISM sie mit Hintergrundtoken aus, die als und
aufgezeichnet sind und auf deren Grundlage effektiv eine lokal-lokale Korrespondenz hergestellt werden kann Merkmalsähnlichkeit. Insbesondere kann die Aufmerksamkeitsmatrix zuerst wie folgt berechnet werden:
ten die Verteilungsmatrix
und
stellen den Softmax -Vorgang entlang der Zeilen bzw. Spalten dar,
repräsentiert eine Konstante. Der Wert jeder Zeile in
(mit Ausnahme der ersten Zeile) stellt die Übereinstimmungswahrscheinlichkeit jedes Punktes P_m in der Punktmenge P_m mit dem Hintergrund und dem Mittelpunkt von P_o dar. Durch Ermitteln des Index der maximalen Punktzahl wird der Punkt P_m gefunden zu finden sind (inkl. Hintergrund).
Sobald berechnet ist, können alle übereinstimmenden Punktpaare {(P_m,P_o)} und ihre Übereinstimmungswerte gesammelt werden, und schließlich wird die gewichtete SVD zur Berechnung der Objektpose verwendet.
Abbildung 3. Schematische Darstellung des Pose Estimation Model (PEM) in SAM-6D
Unter Verwendung der oben genannten Hintergrund-Token-basierten Strategie werden in PEM zwei Punktsatz-Matching-Stufen und das zugehörige Modell entworfen Die Struktur ist wie in der Abbildung dargestellt. Wie in 3 gezeigt, enthält sie drei Module: Merkmalsextraktion, grobe Punktmengenanpassung und feine Punktmengenanpassung.
Das Modul zur groben Punktmengenanpassung implementiert eine spärliche Korrespondenz, um die anfängliche Objekthaltung zu berechnen, und verwendet diese Haltung dann, um die Punktmenge des Kandidatenobjekts zu transformieren, um ein Lernen der Positionskodierung zu erreichen.
Das Feinpunktsatz-Matching-Modul kombiniert die Positionscodierung der Abtastpunktsätze des Kandidatenobjekts und des Zielobjekts, wodurch in der ersten Stufe die grobe Korrespondenz eingefügt und eine dichte Korrespondenz weiter hergestellt wird, um eine genauere Objekthaltung zu erhalten. Um dichte Wechselwirkungen in dieser Phase effektiv zu erlernen, führt PEM einen neuartigen Punktmengentransformator mit geringer Dichte in eine geringe Dichte ein, der Wechselwirkungen auf dünn besetzten Versionen dichter Merkmale implementiert und den linearen Transformator [5] verwendet, um die verbesserten dünn besetzten Merkmale in Diffusion zurück umzuwandeln in dichte Strukturen.
Experimentelle Ergebnisse
Für die beiden Untermodelle von SAM-6D basiert das Instanzsegmentierungsmodell (ISM) auf SAM, ohne dass eine Neuschulung und Feinabstimmung des Netzwerks erforderlich ist, während das Posenschätzungsmodell (PEM) Für das Training werden die von MegaPose [4] bereitgestellten groß angelegten synthetischen Datensätze ShapeNet-Objects und Google-Scanned-Objects verwendet.
Um seine Zero-Sample-Fähigkeit zu überprüfen, wurde SAM-6D an sieben Kerndatensätzen von BOP [2] getestet, darunter LM-O, T-LESS, TUD-L, IC-BIN, ITODD, HB und YCB -V. Die Tabellen 1 und 2 zeigen den Vergleich der Instanzsegmentierungs- und Posenschätzungsergebnisse verschiedener Methoden für diese sieben Datensätze. Im Vergleich zu anderen Methoden schneidet SAM-6D bei beiden Methoden sehr gut ab und stellt seine starke Generalisierungsfähigkeit voll unter Beweis.
Tabelle 1. Vergleich der Instanzsegmentierungsergebnisse verschiedener Methoden für die sieben Kerndatensätze von BOP
Tabelle 2. Vergleich der Posenschätzungsergebnisse verschiedener Methoden für die sieben Kerndatensätze von BOP
Abbildung 4 zeigt die Visualisierungsergebnisse der Erkennungssegmentierung und der 6D-Positionsschätzung von SAM-6D anhand von sieben BOP-Datensätzen, wobei (a) und (b) die getesteten RGB-Bilder bzw. Tiefenkarten sind, (c) ist ein gegebenes Zielobjekt, während (d) und (e) die Visualisierungsergebnisse der Erkennungssegmentierung bzw. der 6D-Pose sind.
Abbildung 4. Visualisierungsergebnisse von SAM-6D für die sieben Kerndatensätze von BOP.
Für weitere Implementierungsdetails von SAM-6D lesen Sie bitte das Originalpapier.
Das obige ist der detaillierte Inhalt vonSAM-6D, ein Zero-Sample-Framework zur 6D-Objekthaltungsschätzung, ein Schritt näher an der verkörperten Intelligenz. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Das Olympiccoder-7b von Face umarmt: Ein leistungsstarkes Open-Source-Code-Argumentationsmodell Das Rennen um die Entwicklung von Sprachmodellen mit oberen Code-fokussierten Sprachläufern und das Umarmungsgesicht hat sich dem Wettbewerb mit einem beeindruckenden Anwärter angeschlossen: Olympiccoder-7b, ein Produkt, ein Produkt, ein Produkt

Wie viele von Ihnen haben sich gewünscht, KI zu beantworten, als nur Fragen zu beantworten? Ich weiß, dass ich es habe, und in letzter Zeit bin ich erstaunt, wie es sich verändert. Bei KI -Chatbots geht es nicht mehr nur darum, zu chatten, sondern auch darum, zu erstellen, zu recherchieren

Da Smart AI in alle Ebenen der Plattformen und Anwendungen und Anwendungen von Unternehmen integriert wird (wir müssen betonen, dass es sowohl leistungsstarke Kernwerkzeuge als auch einige weniger zuverlässige Simulationstools gibt), benötigen wir eine neue Reihe von Infrastrukturfunktionen, um diese Agenten zu verwalten. Camunda, ein in Berlin mit Sitz in Berlin ansässiger Prozessorchestrierungsunternehmen, ist der Ansicht, dass es intelligente KI dabei helfen kann, seine gebührende Rolle zu spielen und genaue Geschäftsziele und -regeln am neuen digitalen Arbeitsplatz auszurichten. Das Unternehmen bietet derzeit intelligente Orchestrierungsfunktionen an, mit denen Unternehmen das Modellieren, die Bereitstellung und Verwaltung von AI -Agenten helfen sollen. Was bedeutet das aus praktischer Sicht der praktischen Software -Engineering? Die Integration von Sicherheit und nicht deterministischen Prozessen Das Unternehmen sagte, der Schlüssel sei, Benutzern (in der Regel Datenwissenschaftler, Software) zuzulassen.

Als ich die Google Cloud Next '25 besuchte, war ich gespannt, wie Google seine KI -Angebote unterscheiden würde. Jüngste Ankündigungen bezüglich Agentspace (hier erörtert) und die Customer Experience Suite (hier diskutiert) waren vielversprechend und betonten den Geschäftswert für den Geschäftswert

Auswählen des optimalen mehrsprachigen Einbettungsmodells für Ihr RAG -System (Abruf Augmented Generation) In der heutigen miteinander verbundenen Welt ist es von größter Bedeutung, effektive mehrsprachige KI -Systeme aufzubauen. Robuste mehrsprachige Einbettungsmodelle sind für RE von entscheidender Bedeutung

Teslas Austin Robotaxi Start: Ein genauerer Blick auf die Behauptungen von Musk Elon Musk kündigte kürzlich den bevorstehenden Robotaxi-Start von Tesla in Austin, Texas, an und stellte zunächst eine kleine Flotte von 10 bis 20 Fahrzeugen aus Sicherheitsgründen mit Plänen für eine schnelle Erweiterung ein. H

Die Art und Weise, wie künstliche Intelligenz angewendet wird, kann unerwartet sein. Zunächst könnten viele von uns glauben, dass es hauptsächlich für kreative und technische Aufgaben wie das Schreiben von Code und das Erstellen von Inhalten verwendet wurde. Eine kürzlich von Harvard Business Review gemeldete Umfrage zeigt jedoch, dass dies nicht der Fall ist. Die meisten Benutzer suchen künstliche Intelligenz nicht nur für die Arbeit, sondern auch für Unterstützung, Organisation und sogar Freundschaft! In dem Bericht heißt es, dass die erste von AI -Anwendungsfällen Behandlung und Kameradschaft ist. Dies zeigt, dass die Verfügbarkeit rund um die Uhr und die Fähigkeit, anonyme, ehrliche Ratschläge und Feedback zu liefern, von großem Wert sind. Andererseits sind Marketingaufgaben (z. B. das Schreiben eines Blogs, das Erstellen von Social -Media -Beiträgen oder die Werbekopie) auf der beliebten Nutzungsliste viel niedriger. Warum ist das? Lassen Sie uns die Ergebnisse der Forschung sehen und wie sie weiterhin ist

Der Aufstieg der AI -Agenten verändert die Geschäftslandschaft. Im Vergleich zur Cloud -Revolution wird vorausgesagt, dass die Auswirkungen von AI -Agenten exponentiell größer sind und vielversprechend sind, die Wissensarbeit zu revolutionieren. Die Fähigkeit, menschliche Entscheidungsmaki zu simulieren


Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Heiße Werkzeuge

MantisBT
Mantis ist ein einfach zu implementierendes webbasiertes Tool zur Fehlerverfolgung, das die Fehlerverfolgung von Produkten unterstützen soll. Es erfordert PHP, MySQL und einen Webserver. Schauen Sie sich unsere Demo- und Hosting-Services an.

EditPlus chinesische Crack-Version
Geringe Größe, Syntaxhervorhebung, unterstützt keine Code-Eingabeaufforderungsfunktion

ZendStudio 13.5.1 Mac
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Sicherer Prüfungsbrowser
Safe Exam Browser ist eine sichere Browserumgebung für die sichere Teilnahme an Online-Prüfungen. Diese Software verwandelt jeden Computer in einen sicheren Arbeitsplatz. Es kontrolliert den Zugriff auf alle Dienstprogramme und verhindert, dass Schüler nicht autorisierte Ressourcen nutzen.

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)