Heim > Artikel > Technologie-Peripheriegeräte > Neuer Titel: Die Peking-Universität eröffnet eine neue Ära: Ein neues Paradigma der 6D-Objektpositionsschätzung auf Kategorieebene erzielt die neuesten und besten Ergebnisse bei NeurIPS 2023
Gegenwärtig können die derzeit weit verbreiteten Methoden zur Schätzung der 6D-Objektposition in zwei Hauptkategorien unterteilt werden: Eine ist die End-to-End-Methode der direkten Regression und die andere ist die zweistufige Methode, die auf der vorherigen Objektkategorie basiert . Diese Methoden modellieren das Problem jedoch alle als Regressionsaufgabe, sodass spezielle Designs erforderlich sind, um Multilösungsprobleme beim Umgang mit symmetrischen Objekten und teilweise sichtbaren Objekten zu bewältigen Forscher der Peking-Universität haben eine neue 6D-Objektpositionsschätzungsmethode auf Kategorieebene vorgeschlagen, bei der es sich um ein grundlegendes und wichtiges Problem handelt, das in Bereichen wie Robotik, virtueller Realität und erweiterter Realität weit verbreitet ist. In diesem Artikel erzielten sie neue SOTA-Ergebnisse und sie wurden von NeurIPS 2023, der Top-Konferenz im Bereich des maschinellen Lernens, angenommen. Die 6D-Objektpositionsschätzung ist eine wichtige Aufgabe im Bereich Computer Vision, in der Robotik und virtuell Realität und Augmentation Es gibt viele Anwendungen in der Realität und anderen Bereichen. Obwohl bei der Posenschätzung von Objekten auf Instanzebene erhebliche Fortschritte erzielt wurden, erfordert sie Vorkenntnisse über die Eigenschaften des Objekts und kann daher nicht einfach auf neue Objekte angewendet werden, was ihre praktische Anwendung einschränkt. Um dieses Problem zu lösen, haben sich in den letzten Jahren immer mehr Forschungsanstrengungen auf die Objektpositionsschätzung auf Kategorieebene konzentriert. Für die Posenschätzung auf Kategorieebene sind Algorithmen erforderlich, die nicht auf dem CAD-Modell des Objekts basieren und direkt auf neue Objekte derselben Kategorie wie die in den Trainingsdaten angewendet werden können.
Um diese Herausforderungen zu bewältigen, hat ein Forschungsteam der Peking-Universität eine neue Lösung vorgeschlagen Das 6D-Objektposenschätzungsparadigma auf Kategorieebene definiert das Problem als bedingtes Verteilungsmodellierungsproblem neu und erzielt so die neueste optimale Leistung. Sie haben diese Methode auch erfolgreich auf Robotermanipulationsaufgaben wie das Ausgießen von Wasser angewendet, wie im Video gezeigt.
Bitte klicken Sie auf den folgenden Link, um das Papier anzuzeigen: https://arxiv.org/abs/2306.10531
neu ausgedrückt als: Bild 2 Demonstration der Rahmenstruktur von GenPose
Das punktebasierte Diffusionsmodell wird verwendet, um Objektposenkandidaten zu generierenUmgeschriebener Inhalt: Der Zweck dieses Schritts besteht darin, das Problem mit mehreren Lösungen zu lösen. Wie kann also die bedingte Wahrscheinlichkeitsverteilung der Objektpose modelliert werden? Die Autoren übernahmen ein bruchbasiertes Diffusionsmodell und konstruierten einen kontinuierlichen Diffusionsprozess unter Verwendung von VE SDE (variative stochastische Euler-Differentialgleichungen). Während des Trainingsprozesses des Modells besteht das Ziel darin, die Bruchfunktion der gestörten bedingten Einstellungsverteilung abzuschätzen und schließlich die Einstellung des Kandidatenobjekts aus der bedingten Verteilung mithilfe der Wahrscheinlichkeitsfluss-ODE (Ordinary Differential Equation) abzutasten Gemäß der Bewertung generiert das Diffusionsmodell Objektpositionskandidaten, wie in Abbildung 3 dargestellt. Es wird angewendet, um die Genauigkeit der Objekterkennung zu verbessern. Durch die trainierte bedingte Verteilung können unbegrenzte Objektpositionskandidaten generiert werden. Wie lässt sich aus diesen Kandidaten die endgültige Objektpose ableiten? Die einfachste Methode ist die Zufallsstichprobe, diese Methode garantiert jedoch möglicherweise nicht die Stabilität der Vorhersageergebnisse. Ist es möglich, diese Posenkandidaten durch Durchschnittspooling zu aggregieren? Diese Aggregationsmethode berücksichtigt jedoch nicht die Qualität der Posenkandidaten und wird leicht durch Ausreißer beeinträchtigt. Der Autor glaubt, dass die Qualität von Posenkandidaten durch Wahrscheinlichkeitsschätzung berücksichtigt und aggregiert werden kann. Konkret werden auf der Grundlage der Ergebnisse der Wahrscheinlichkeitsschätzung die Objektposenkandidaten sortiert, Ausreißer mit niedrigeren Wahrscheinlichkeitsschätzungen herausgefiltert und anschließend die verbleibenden Posenkandidaten gemittelt, um die aggregierten Posenschätzungsergebnisse zu erhalten. Die Verwendung des Diffusionsmodells zur Wahrscheinlichkeitsschätzung erfordert jedoch komplexe Integralberechnungen, was die Inferenzgeschwindigkeit erheblich beeinträchtigt und seine praktische Anwendung einschränkt. Um dieses Problem zu lösen, schlug der Autor vor, ein energiebasiertes Diffusionsmodell zu trainieren, das direkt zur End-to-End-Wahrscheinlichkeitsschätzung verwendet wird, um so eine schnelle Aggregation von Kandidaten zu erreichen
Abbildung 4. Energie- Das basierende Diffusionsmodell wird für die Ähnlichkeitsschätzung, die Zufallsschätzung und die Aggregation von Objektposenkandidaten verwendet. Experimente und Ergebnisse. Der Autor hat die Leistung von GenPose anhand des REAL275-Datensatzes überprüft Die vorherige Methode hat in allen Indikatoren, auch im Vergleich zu Methoden, die mehr modale Informationen verwenden, immer noch einen großen Vorsprung. Tabelle 1 zeigt die Vorteile des vom Autor vorgeschlagenen generativen Objekthaltungsschätzungsparadigmas. Abbildung 5 ist das Visualisierungsergebnis.
Der Inhalt, der neu geschrieben werden muss, ist: Vergleich mit anderen Methoden Einfluss der Methoden (Zufallsauswahl, zufällige Sortierung und Aggregation, energiebasierte Sortierung und Aggregation, GT-Sortierung und Aggregation). Die Ergebnisse zeigen, dass das Ranking mithilfe von Energiemodellen die Zufallsstichprobenmethoden deutlich übertrifft. Darüber hinaus ist das vom Autor vorgeschlagene energiebasierte Diffusionsmodell zur Aggregation von Objektpositionskandidaten auch deutlich besser als die durchschnittliche Pooling-Methode nach Zufallsstichprobe und Zufallssortierung
Tabelle 2. Vergleich verschiedener Aggregationsmethoden
Um die Auswirkungen des Energiemodells besser analysieren zu können, haben die Autoren die Korrelation zwischen dem geschätzten Posenfehler und der vorhergesagten Energie weiter untersucht. Wie in Abbildung 4 dargestellt, besteht eine allgemein negative Korrelation zwischen dem vorhergesagten Posenfehler und der Energie. Das Energiemodell schneidet bei der Identifizierung von Körperhaltungen mit größeren Fehlern besser ab, schneidet jedoch bei der Identifizierung von Körperhaltungen mit kleineren Fehlern schlechter ab, was erklärt, warum die vorhergesagte Energie zum Entfernen von Ausreißern verwendet wird, anstatt direkt den Kandidaten mit der größten Energie auszuwählen
Abbildung 6. Energie- und Vorhersagefehler-Korrelationsanalyse
Die Autoren demonstrierten auch die Fähigkeit dieser Methode zur kategorieübergreifenden Generalisierung, die nicht auf kategorieübergreifendem Wissen beruht und über Kategorien hinweg eine gute Leistung erbringt auch deutlich besser als die bisherige Methode
Tabelle 3 zeigt den kategorieübergreifenden Generalisierungseffekt. Der Schrägstrich auf der linken Seite stellt die Leistung dar, wenn die Testkategorie im Trainingsdatensatz enthalten ist, und der Schrägstrich auf der rechten Seite stellt die Leistung dar, nachdem die Testkategorie während des Trainings entfernt wurde
Gleichzeitig aufgrund der Schließung -Schleifengenerierungsprozess des Diffusionsmodells, der einzelnen Einheit im Artikel. Das Framework zur Frame-Pose-Schätzung kann auch ohne spezielles Design direkt für 6D-Objekt-Pose-Tracking-Aufgaben verwendet werden. Diese Methode übertrifft die hochmoderne 6D-Objekt-Pose Tracking-Methoden in mehreren Indikatoren, und die Ergebnisse sind in Tabelle 4 dargestellt. Tabelle 4: Vergleich der Leistung der 6D-Objektposenverfolgung auf Kategorieebene Sie müssen nicht auf Symmetrie abzielen. Es ist kein spezielles Design erforderlich, um die durch Objekt- und Teilbeobachtung verursachten Mehrfachlösungsprobleme zu lösen, und es wird eine neue SOTA-Leistung erzielt. Zukünftige Arbeiten werden die jüngsten Fortschritte bei Diffusionsmodellen nutzen, um den Inferenzprozess zu beschleunigen, und die Einbeziehung von Reinforcement Learning in Betracht ziehen, um eine aktive 6D-Objektpositionsschätzung zu erreichen.
Einführung in das Forschungsteam:
Der korrespondierende Autor dieser Studie, Dong Hao, ist Assistenzprofessor, Doktorvater, junger Geisteswissenschaftler und Chi-Yuan-Gelehrter an der Peking-Universität. Er gründete und leitet das Hyperplane Lab an der Peking-Universität. Die Co-Autoren der Arbeit Zhang Jiyao und Wu Mingdong sind Doktoranden an der Peking-Universität und ihr Betreuer ist Professor Dong Hao. Einzelheiten finden Sie auf ihrer persönlichen Homepage. Der Inhalt, der neu geschrieben werden muss, ist: Zhang Jiyao und Wu Mingdong sind Doktoranden an der Peking-Universität. Sie haben gemeinsam eine Arbeit geschrieben und Herr Dong Hao ist ihr Betreuer. Bitte überprüfen Sie ihre persönliche Homepage für spezifische Informationen
Was neu geschrieben werden muss, ist: https://jiyao06.github.io/
https://aaronanima.github.io/Das obige ist der detaillierte Inhalt vonNeuer Titel: Die Peking-Universität eröffnet eine neue Ära: Ein neues Paradigma der 6D-Objektpositionsschätzung auf Kategorieebene erzielt die neuesten und besten Ergebnisse bei NeurIPS 2023. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!