Heim >Technologie-Peripheriegeräte >KI >Neuer Titel: Die Peking-Universität eröffnet eine neue Ära: Ein neues Paradigma der 6D-Objektpositionsschätzung auf Kategorieebene erzielt die neuesten und besten Ergebnisse bei NeurIPS 2023

Neuer Titel: Die Peking-Universität eröffnet eine neue Ära: Ein neues Paradigma der 6D-Objektpositionsschätzung auf Kategorieebene erzielt die neuesten und besten Ergebnisse bei NeurIPS 2023

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBnach vorne: 2023-12-04 18:41:411457Durchsuche

Forscher der Peking-Universität haben eine neue 6D-Objektpositionsschätzungsmethode auf Kategorieebene vorgeschlagen, bei der es sich um ein grundlegendes und wichtiges Problem handelt, das in Bereichen wie Robotik, virtueller Realität und erweiterter Realität weit verbreitet ist. In diesem Artikel erzielten sie neue SOTA-Ergebnisse und sie wurden von NeurIPS 2023, der Top-Konferenz im Bereich des maschinellen Lernens, angenommen. Die 6D-Objektpositionsschätzung ist eine wichtige Aufgabe im Bereich Computer Vision, in der Robotik und virtuell Realität und Augmentation Es gibt viele Anwendungen in der Realität und anderen Bereichen. Obwohl bei der Posenschätzung von Objekten auf Instanzebene erhebliche Fortschritte erzielt wurden, erfordert sie Vorkenntnisse über die Eigenschaften des Objekts und kann daher nicht einfach auf neue Objekte angewendet werden, was ihre praktische Anwendung einschränkt. Um dieses Problem zu lösen, haben sich in den letzten Jahren immer mehr Forschungsanstrengungen auf die Objektpositionsschätzung auf Kategorieebene konzentriert. Für die Posenschätzung auf Kategorieebene sind Algorithmen erforderlich, die nicht auf dem CAD-Modell des Objekts basieren und direkt auf neue Objekte derselben Kategorie wie die in den Trainingsdaten angewendet werden können.
Gegenwärtig können die derzeit weit verbreiteten Methoden zur Schätzung der 6D-Objektposition in zwei Hauptkategorien unterteilt werden: Eine ist die End-to-End-Methode der direkten Regression und die andere ist die zweistufige Methode, die auf der vorherigen Objektkategorie basiert . Diese Methoden modellieren das Problem jedoch alle als Regressionsaufgabe, sodass spezielle Designs erforderlich sind, um Multilösungsprobleme beim Umgang mit symmetrischen Objekten und teilweise sichtbaren Objekten zu bewältigen

Um diese Herausforderungen zu bewältigen, hat ein Forschungsteam der Peking-Universität eine neue Lösung vorgeschlagen Das 6D-Objektposenschätzungsparadigma auf Kategorieebene definiert das Problem als bedingtes Verteilungsmodellierungsproblem neu und erzielt so die neueste optimale Leistung. Sie haben diese Methode auch erfolgreich auf Robotermanipulationsaufgaben wie das Ausgießen von Wasser angewendet, wie im Video gezeigt.

Bitte klicken Sie auf den folgenden Link, um das Papier anzuzeigen: https://arxiv.org/abs/2306.10531

新标题：北京大学开创新纪元：类别级6D物体位姿估计新范式在NeurIPS 2023取得最新最佳结果

Mehrere Lösungsprobleme bei der 6D-Objektpositionsschätzung auf KategorieebeneIn 6D Schätzung der Objektlage Auf der Kategorieebene bedeutet ein Problem mit mehreren Lösungen, dass es unter denselben Beobachtungsbedingungen mehrere vernünftige Lageschätzungen geben kann. Diese Situation wird hauptsächlich durch zwei Faktoren verursacht, wie in Abbildung 1 dargestellt: symmetrische Objekte und Teilbeobachtungen. Bei symmetrischen Objekten, wie z. B. kugelförmigen oder zylindrischen Objekten, können sie aus verschiedenen Richtungen betrachtet genau gleich sein, sodass sie theoretisch unendlich viele mögliche wahre Werte für ihre Lage haben. Gleichzeitig kann keine vollständige Objektbeobachtung aus einer einzigen Perspektive erfolgen, beispielsweise bei einer Tasse. Wenn der Tassengriff nicht beobachtet wird, gibt es unendlich viele mögliche wahre Werte der Haltung 1. Quelle von Mehrfachlösungsproblemen: Symmetrische Objekte und Teilbeobachtungen

Einführung in Methoden

新标题：北京大学开创新纪元：类别级6D物体位姿估计新范式在NeurIPS 2023取得最新最佳结果

Wie gehe ich mit den oben genannten Mehrfachlösungsproblemen um? Die Autoren betrachten dieses Problem als ein Problem der bedingten Verteilungsmodellierung und schlagen eine Methode namens GenPose vor, die ein Diffusionsmodell verwendet, um die bedingte Verteilung von Objektposen abzuschätzen. Die Methode verwendet zunächst ein bewertungsbasiertes Diffusionsmodell, um Objektposenkandidaten zu generieren. Anschließend werden die Kandidaten in zwei Schritten aggregiert: Zuerst werden Ausreißer durch Wahrscheinlichkeitsschätzung herausgefiltert, und dann werden die verbleibenden Kandidatenposen durch Durchschnittspooling aggregiert. Um die Notwendigkeit langwieriger Integralberechnungen bei der Schätzung der Wahrscheinlichkeit zu vermeiden, führten die Studienautoren außerdem eine energiebasierte Diffusionsmodell-Trainingsmethode ein, um eine durchgängige Wahrscheinlichkeitsschätzung zu erreichen

neu ausgedrückt als: Bild 2 Demonstration der Rahmenstruktur von GenPose

Das punktebasierte Diffusionsmodell wird verwendet, um Objektposenkandidaten zu generieren

新标题：北京大学开创新纪元：类别级6D物体位姿估计新范式在NeurIPS 2023取得最新最佳结果

Umgeschriebener Inhalt: Der Zweck dieses Schritts besteht darin, das Problem mit mehreren Lösungen zu lösen. Wie kann also die bedingte Wahrscheinlichkeitsverteilung der Objektpose modelliert werden? Die Autoren übernahmen ein bruchbasiertes Diffusionsmodell und konstruierten einen kontinuierlichen Diffusionsprozess unter Verwendung von VE SDE (variative stochastische Euler-Differentialgleichungen). Während des Trainingsprozesses des Modells besteht das Ziel darin, die Bruchfunktion der gestörten bedingten Einstellungsverteilung abzuschätzen und schließlich die Einstellung des Kandidatenobjekts aus der bedingten Verteilung mithilfe der Wahrscheinlichkeitsfluss-ODE (Ordinary Differential Equation) abzutasten Gemäß der Bewertung generiert das Diffusionsmodell Objektpositionskandidaten, wie in Abbildung 3 dargestellt. Es wird angewendet, um die Genauigkeit der Objekterkennung zu verbessern. Durch die trainierte bedingte Verteilung können unbegrenzte Objektpositionskandidaten generiert werden. Wie lässt sich aus diesen Kandidaten die endgültige Objektpose ableiten? Die einfachste Methode ist die Zufallsstichprobe, diese Methode garantiert jedoch möglicherweise nicht die Stabilität der Vorhersageergebnisse. Ist es möglich, diese Posenkandidaten durch Durchschnittspooling zu aggregieren? Diese Aggregationsmethode berücksichtigt jedoch nicht die Qualität der Posenkandidaten und wird leicht durch Ausreißer beeinträchtigt. Der Autor glaubt, dass die Qualität von Posenkandidaten durch Wahrscheinlichkeitsschätzung berücksichtigt und aggregiert werden kann. Konkret werden auf der Grundlage der Ergebnisse der Wahrscheinlichkeitsschätzung die Objektposenkandidaten sortiert, Ausreißer mit niedrigeren Wahrscheinlichkeitsschätzungen herausgefiltert und anschließend die verbleibenden Posenkandidaten gemittelt, um die aggregierten Posenschätzungsergebnisse zu erhalten. Die Verwendung des Diffusionsmodells zur Wahrscheinlichkeitsschätzung erfordert jedoch komplexe Integralberechnungen, was die Inferenzgeschwindigkeit erheblich beeinträchtigt und seine praktische Anwendung einschränkt. Um dieses Problem zu lösen, schlug der Autor vor, ein energiebasiertes Diffusionsmodell zu trainieren, das direkt zur End-to-End-Wahrscheinlichkeitsschätzung verwendet wird, um so eine schnelle Aggregation von Kandidaten zu erreichen

新标题：北京大学开创新纪元：类别级6D物体位姿估计新范式在NeurIPS 2023取得最新最佳结果

^{Abbildung 4. Energie- Das basierende Diffusionsmodell wird für die Ähnlichkeitsschätzung, die Zufallsschätzung und die Aggregation von Objektposenkandidaten verwendet. Experimente und Ergebnisse. Der Autor hat die Leistung von GenPose anhand des REAL275-Datensatzes überprüft Die vorherige Methode hat in allen Indikatoren, auch im Vergleich zu Methoden, die mehr modale Informationen verwenden, immer noch einen großen Vorsprung. Tabelle 1 zeigt die Vorteile des vom Autor vorgeschlagenen generativen Objekthaltungsschätzungsparadigmas. Abbildung 5 ist das Visualisierungsergebnis.}

Der Inhalt, der neu geschrieben werden muss, ist: Vergleich mit anderen Methoden Einfluss der Methoden (Zufallsauswahl, zufällige Sortierung und Aggregation, energiebasierte Sortierung und Aggregation, GT-Sortierung und Aggregation). Die Ergebnisse zeigen, dass das Ranking mithilfe von Energiemodellen die Zufallsstichprobenmethoden deutlich übertrifft. Darüber hinaus ist das vom Autor vorgeschlagene energiebasierte Diffusionsmodell zur Aggregation von Objektpositionskandidaten auch deutlich besser als die durchschnittliche Pooling-Methode nach Zufallsstichprobe und Zufallssortierung

新标题：北京大学开创新纪元：类别级6D物体位姿估计新范式在NeurIPS 2023取得最新最佳结果

Tabelle 2. Vergleich verschiedener Aggregationsmethoden

Um die Auswirkungen des Energiemodells besser analysieren zu können, haben die Autoren die Korrelation zwischen dem geschätzten Posenfehler und der vorhergesagten Energie weiter untersucht. Wie in Abbildung 4 dargestellt, besteht eine allgemein negative Korrelation zwischen dem vorhergesagten Posenfehler und der Energie. Das Energiemodell schneidet bei der Identifizierung von Körperhaltungen mit größeren Fehlern besser ab, schneidet jedoch bei der Identifizierung von Körperhaltungen mit kleineren Fehlern schlechter ab, was erklärt, warum die vorhergesagte Energie zum Entfernen von Ausreißern verwendet wird, anstatt direkt den Kandidaten mit der größten Energie auszuwählen

Abbildung 6. Energie- und Vorhersagefehler-Korrelationsanalyse 新标题：北京大学开创新纪元：类别级6D物体位姿估计新范式在NeurIPS 2023取得最新最佳结果

Die Autoren demonstrierten auch die Fähigkeit dieser Methode zur kategorieübergreifenden Generalisierung, die nicht auf kategorieübergreifendem Wissen beruht und über Kategorien hinweg eine gute Leistung erbringt auch deutlich besser als die bisherige Methode

^{Tabelle 3 zeigt den kategorieübergreifenden Generalisierungseffekt. Der Schrägstrich auf der linken Seite stellt die Leistung dar, wenn die Testkategorie im Trainingsdatensatz enthalten ist, und der Schrägstrich auf der rechten Seite stellt die Leistung dar, nachdem die Testkategorie während des Trainings entfernt wurde}

Gleichzeitig aufgrund der Schließung -Schleifengenerierungsprozess des Diffusionsmodells, der einzelnen Einheit im Artikel. Das Framework zur Frame-Pose-Schätzung kann auch ohne spezielles Design direkt für 6D-Objekt-Pose-Tracking-Aufgaben verwendet werden. Diese Methode übertrifft die hochmoderne 6D-Objekt-Pose Tracking-Methoden in mehreren Indikatoren, und die Ergebnisse sind in Tabelle 4 dargestellt. Tabelle 4: Vergleich der Leistung der 6D-Objektposenverfolgung auf Kategorieebene Sie müssen nicht auf Symmetrie abzielen. Es ist kein spezielles Design erforderlich, um die durch Objekt- und Teilbeobachtung verursachten Mehrfachlösungsprobleme zu lösen, und es wird eine neue SOTA-Leistung erzielt. Zukünftige Arbeiten werden die jüngsten Fortschritte bei Diffusionsmodellen nutzen, um den Inferenzprozess zu beschleunigen, und die Einbeziehung von Reinforcement Learning in Betracht ziehen, um eine aktive 6D-Objektpositionsschätzung zu erreichen.

新标题：北京大学开创新纪元：类别级6D物体位姿估计新范式在NeurIPS 2023取得最新最佳结果 Einführung in das Forschungsteam:

Der korrespondierende Autor dieser Studie, Dong Hao, ist Assistenzprofessor, Doktorvater, junger Geisteswissenschaftler und Chi-Yuan-Gelehrter an der Peking-Universität. Er gründete und leitet das Hyperplane Lab an der Peking-Universität. Die Co-Autoren der Arbeit Zhang Jiyao und Wu Mingdong sind Doktoranden an der Peking-Universität und ihr Betreuer ist Professor Dong Hao. Einzelheiten finden Sie auf ihrer persönlichen Homepage. Der Inhalt, der neu geschrieben werden muss, ist: Zhang Jiyao und Wu Mingdong sind Doktoranden an der Peking-Universität. Sie haben gemeinsam eine Arbeit geschrieben und Herr Dong Hao ist ihr Betreuer. Bitte überprüfen Sie ihre persönliche Homepage für spezifische Informationen

Was neu geschrieben werden muss, ist: https://jiyao06.github.io/

https://aaronanima.github.io/

Das obige ist der detaillierte Inhalt vonNeuer Titel: Die Peking-Universität eröffnet eine neue Ära: Ein neues Paradigma der 6D-Objektpositionsschätzung auf Kategorieebene erzielt die neuesten und besten Ergebnisse bei NeurIPS 2023. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

github 算法 https

Stellungnahme：

Dieser Artikel ist reproduziert unter:jiqizhixin.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Vorheriger Artikel：Es ist nicht so, dass sich große Modelle eine globale Feinabstimmung nicht leisten können, es ist nur so, dass LoRA kostengünstiger ist und das Tutorial fertig ist.Nächster Artikel：Es ist nicht so, dass sich große Modelle eine globale Feinabstimmung nicht leisten können, es ist nur so, dass LoRA kostengünstiger ist und das Tutorial fertig ist.

In Verbindung stehende Artikel

Mehr sehen