Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail für die Einreichung: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Der Erstautor dieses Artikels, An Zhaochong, studiert derzeit an der Universität Kopenhagen unter der Leitung von Serge Belongie. Er schloss sein Masterstudium an der ETH Zürich ab. Während seines Masterstudiums nahm er an mehreren Forschungsprojekten im Labor seines Mentors Luc Van Gool teil. Zu seinen Forschungsschwerpunkten zählen Szenenverständnis, Fow-Shot-Lernen und multimodales Lernen.
Das Verständnis von 3D-Szenen ermöglicht es humanoiden Robotern, die umgebende Szene zu „sehen“, wodurch die autonome Fahrfunktion des Autos mögliche Situationen während der Fahrt in Echtzeit wahrnehmen und so intelligentere Verhaltensweisen und Reaktionen entwickeln kann. All dies erfordert eine detaillierte Annotation einer großen Anzahl von 3D-Szenen, was den Zeitaufwand und den Ressourcenaufwand erheblich erhöht.
Kürzlich haben die ETH Zürich und andere Teams eine Lernmethode mit wenigen Schüssen vorgeschlagen, die diese Einschränkung erheblich verbesserte, die aktuelle FS-PCS-Aufgabe erneut untersucht und einen neuen Benchmark im Bereich der 3D-Szenenwahrnehmung eingeführt, um eine gute Grundlage zu schaffen für die Zukunft. Modelldesign und -entwicklung gehen neue Wege.
- Papierlink: https://arxiv.org/abs/2403.00592
- Codelink: https://github.com/ZhaochongAn/COSeg
Beispiel für ein 3D-Segmentierungsergebnis mit wenigen AufnahmenTechnischer Hintergrund: Das 3D-Szenenverständnis spielt in Bereichen wie autonomes Fahren und intelligente Roboter eine wichtige Rolle -dimensionale Welt. Obwohl herkömmliche, vollständig überwachte Lernmodelle bei der Erkennung bestimmter Kategorien gut funktionieren, beschränken sich diese Modelle häufig auf die Identifizierung dieser vordefinierten Kategorien. Dies bedeutet, dass immer dann, wenn eine neue Objektkategorie erkannt werden muss, eine große Menge an 3D-Szenendaten gesammelt und detailliert kommentiert werden muss. Dieser Prozess ist nicht nur zeitaufwändig und arbeitsintensiv, sondern schränkt auch die Anwendung einer vollständig überwachten Methode erheblich ein Modelle in der realen Welt. Anwendungsbreite und Flexibilität. Mit Hilfe der Few-Shot-Lernmethode konnte diese Situation jedoch deutlich verbessert werden. Few-Shot-Learning ist eine Technik, die nur sehr wenige markierte Stichproben erfordert, um sich schnell an neue Kategorien anzupassen. Dies bedeutet, dass das Modell mit einer kleinen Anzahl von Beispielen schnell lernen und sich an neue Umgebungen anpassen kann, was die Kosten für die Datenerfassung und -verarbeitung erheblich senkt. Diese schnelle und flexible Lernmethode macht die Technologie zum Verständnis von 3D-Szenen besser an die sich schnell verändernde reale Welt anpassbar und eröffnet neue Möglichkeiten für verschiedene Anwendungsszenarien wie autonomes Fahren und fortschrittliche Robotersysteme. Daher kann das Studium von 3D-Modellen mit wenigen Aufnahmen die praktische Anwendung vieler wichtiger Aufgaben in der ganzen Welt wirksam fördern.
Speziell für die Aufgabe der semantischen Segmentierung von 3D-Punktwolken mit wenigen Schüssen (FS-PCS) umfasst die Eingabe des Modells die Stützpunktwolke und die Annotation der neuen Kategorie (Stützmaske) und Abfragepunktwolke. Das Modell
muss das Wissen über neue Kategorien mithilfe der Stützpunktwolke und der Stützmaske erlangen und es auf die Segmentierungsabfragepunktwolke anwenden, um die Bezeichnungen dieser neuen Kategorien vorherzusagen. Die
Zielkategorien, die während des Modelltrainings und -tests verwendet werden, überschneiden sich nicht
, um sicherzustellen, dass die beim Testen verwendeten Kategorien alle neue Kategorien sind und vom Modell während des Trainings nicht gesehen wurden.审 Die erneute Prüfung und Korrektur der Aufgabe Abbildung 1. Die Visualisierung der beiden Szenen (die Aussichten sind Tür und BOARD)
Tabelle 1. Leistungsvergleich früherer Modelle in der Gegenwart. (w/FG ) und Fehlen (ohne FG) von potenziellen Leckagen In diesem Artikel wird die aktuelle FS-PCS-Aufgabe noch einmal behandelt. Es wurde festgestellt, dass die aktuelle Aufgabeneinstellung zwei erhebliche Probleme aufweist:
-
Das erste Problem ist Vordergrundleckage: 3D-Aufgaben erfassen normalerweise gleichmäßig dichte Punkte in der Szenenpunktwolke als Eingabe des Modells. Die von FS-PCS verwendete Stichprobenmethode ist jedoch keine einheitliche Stichprobe, sondern es werden mehr Punkte für die Zielkategorie (Vordergrundbereich) und weniger Punkte für den Nichtzielbereich (Hintergrundbereich) abgetastet Auf diese Weise wird es zu einer dichteren Verteilung der Punkte im Vordergrund kommen, was zu Vordergrundleckproblemen führt. Wie in Abbildung 1 dargestellt, stammen die Eingabepunktwolken in der vierten und sechsten Spalte aus der aktuellen voreingenommenen Stichprobe und zeigen im Vordergrundbereich (Tür oder Tafel) eine dichtere Punktverteilung als im Hintergrund, während die Eingabepunktwolken in der dritten und Fünfte Spalte Die Eingabe verwendet eine korrigierte Konsistenzstichprobe und weist eine gleichmäßige Punktdichteverteilung auf. Dieses Problem führt dazu, dass die Informationen der neuen Klasse durch die Dichteverteilung der Punktwolke verloren gehen, sodass das Modell einfach den Dichteunterschied in der Eingabepunktwolke ausnutzen und dichtere Bereiche als Vordergrund vorhersagen kann, um eine gute Leistung bei wenigen Schüssen zu erzielen. Dabei kommt es nicht darauf an, die Fähigkeit zu erlernen, Wissen vom Support auf die Abfrage zu übertragen. Daher kann die aktuelle Bewertung Benchmark nicht die tatsächliche Leistung früherer Modelle widerspiegeln. Wie in Tabelle 1 gezeigt, zeigte das Vorgängermodell nach der Korrektur des Vordergrundlecks in der aktuellen Einstellung einen großen Leistungsabfall, was darauf hindeutet, dass das Vorgängermodell stark auf Dichteunterschieden beruhte, um scheinbar eine überlegene Leistung bei wenigen Aufnahmen zu erzielen. Das zweite Problem ist die spärliche Punktverteilung: Die aktuelle Einstellung tastet beim Training und Testen nur 2048 Punkte aus der Szene ab und schränkt die Semantik der Eingabeszene erheblich ein. Wie in Abbildung 1 dargestellt, ist es für das menschliche Auge in der ersten Zeile und fünften Spalte schwierig, die semantische Kategorie Tür in dem Bereich von der umgebenden Kategorie Wand zu unterscheiden. Auch für die zweite Zeile ist es schwierig zu unterscheiden, ob es sich bei dem Zielbereich um die Board-Klasse oder eine andere Klasse wie z. B. Fenster handelt. Diese spärlichen Eingabepunktwolken verfügen über sehr begrenzte semantische Informationen
, - führen zu erheblicher Mehrdeutigkeit und schränken die Fähigkeit des Modells ein, die Semantik in der Szene effektiv zu ermitteln. Um diese Probleme zu beheben, schlug der Autor daher eine neue Einstellung zur Standardisierung der FS-PCS-Aufgabe vor, die eine einheitliche Stichprobe verwendet und die Anzahl der Stichprobenpunkte um das Zehnfache auf 20480 Punkte erhöht. Wie in der dritten Spalte von Abbildung 1 dargestellt, weist die Eingabe unter der neuen Einstellung eine konsistente Punktverteilung und klarere semantische Informationen auf, wodurch die Aufgabe näher an das reale Anwendungsszenario herankommt.
Unter der neu korrigierten Einstellung führte der Autor ein neues Modell namens Correlation Optimization Segmentation (COSeg) ein. Frühere Methoden basieren auf dem
Feature-Optimierungsparadigma, wobei der Schwerpunkt auf der Optimierung der Features von Support oder Abfrage liegt und die verbesserten Features in das Parameter-freie Vorhersagemodul eingegeben werden, um Vorhersageergebnisse zu erhalten, die als implizite Modellierung zwischen Support und angesehen werden können Abfrage Korrelationen . Im Gegenteil, der Artikel konzentriert sich nicht auf die Optimierung von Funktionen. Der Artikel schlägt ein „Korrelationsoptimierungsparadigma“ vor, das die Korrelationen zwischen Unterstützung und Abfrage direkt in ein Modul mit Parametern eingibt und „Korrelationen explizit optimiert“, sodass das Modell direkt geformt werden kann die Korrelation zwischen Abfrage- und Unterstützungsbeziehung, was die Generalisierungsfähigkeit des Modells verbessert.
Abbildung 2. COSEG-Architektur Berechnen Sie in Coseg zuerst die klassenspezifische multi-prototypische Korrelation zwischen jedem Abfragepunkt und den als CMC bezeichneten Support-Prototypen, was bedeutet jeden Punkt und alle Beziehungen zwischen Kategorieprototypen . Der CMC wird dann in das nachfolgende Hyper Correlation Augmentation (HCA)-Modul eingegeben. Das HCA-Modul nutzt zwei potenzielle Beziehungen, um Korrelationen zu optimieren. Erstens hängen alle Abfragepunkte miteinander zusammen, sodass sie auch mit den Korrelationen zwischen Kategorieprototypen zusammenhängen. Daraus können wir die Beziehung zwischen Punkten und Punkten ermitteln, die der ersten Hälfte von HCA in Bezug auf die Korrelationen entspricht in der Punktdimension Aufmerksamkeit. Zweitens hängt die Klassifizierung eines Abfragepunkts in eine Vordergrund- oder Hintergrundklasse von den relativen Korrelationen zwischen den Vordergrund- und Hintergrundprototypen des Punkts ab. Daraus können wir die Beziehung zwischen dem Vordergrund und dem Hintergrund ermitteln, die der zweiten Hälfte von HCA entspricht . Korrelationen machen in der Kategoriedimension Beachtung.
Darüber hinaus wird das Wenig-Schuss-Modell in der Basiskategorie trainiert und in der Romankategorie getestet. Diese Modelle werden leicht durch bekannte Basiskategorien in der Testszene beeinträchtigt, was sich auf die Segmentierung neuer Kategorien auswirkt. Um dieses Problem zu lösen, schlägt der Artikel vor, Parameter-freie Prototypen für die Basiskategorie (sogenannte Basisprototypen) zu erlernen. Wenn eine neue Klasse segmentiert
, sollten die zur Basisklasse gehörenden Abfragepunkte als Hintergrund vorhergesagt werden . Daher führt der Autor mithilfe von Basisprototypen das BPC-Modul (Base Prototypes Calibration) innerhalb der HCA-Schicht ein, um die Korrelationen zwischen Punkt- und Hintergrundkategorien anzupassen und so die durch die Basisklasse verursachten Interferenzen zu verringern. Experimentelle Ergebnisse Die überlegene Leistung der COSeg-Methode erzielt die besten Ergebnisse bei verschiedenen Aufgaben mit wenigen Schüssen. Die Visualisierung zeigt auch deutlich, dass COSeg bessere Segmentierungsergebnisse erzielt. Darüber hinaus stellt der Autor umfangreiche Ablationsexperimente zur Verfügung, um die Wirksamkeit des Designs und die Überlegenheit des Korrelationsoptimierungsparadigmas zu beweisen. Zusammenfassung
Die Beiträge der Forschung dieses Artikels im Bereich FS-PCS sind wie folgt.
Zunächst identifizieren die Autoren zwei Hauptprobleme in der aktuellen FS-PCS-Einstellung (Vordergrundleckage und spärliche Punktverteilung
), die die Genauigkeit von Bewertungsbenchmarks im Vergleich zu früheren Methoden verringern. Um die Probleme in der vorherigen Einstellung zu lösen, führt der Artikel einen neuen standardisierten Einstellungs- und Bewertungsbenchmark ein.
Darüber hinaus schlägt der Autor unter der standardisierten FS-PCS-Einstellung ein neues Korrelationsoptimierungsparadigma vor, das die Generalisierungsleistung des Modells bei Wenig-Schuss-Aufgaben erheblich verbessert. Das Modell in diesem Artikel COSeg kombiniert HCA, um effektive Punktwolken-Korrelationsinformationen zu extrahieren, und BPC, um die Hintergrundvorhersage anzupassen und erzielt so die beste Leistung bei allen Wenig-Schuss-Aufgaben.
Die im Artikel korrigierte standardisierte Einstellung eröffnet mehr Möglichkeiten zur Verbesserung der 3D-Segmentierungsaufgabe mit wenigen Schüssen Gleichzeitig bietet das vorgeschlagene neue Korrelationsoptimierungsparadigma auch eine neue Richtung für zukünftiges Modelldesign und Entwicklung. . Als neuer Maßstab im Bereich FS-PCS dürfte diese Arbeit mehr Forscher dazu inspirieren, die Grenzen des Verständnisses von 3D-Szenen in kleinen Stichproben zu erkunden und zu erweitern.
Als Referenz können die folgenden Punkte als potenzielle Forschungsrichtungen verwendet werden, um die Entwicklung dieses Bereichs weiter voranzutreiben: Unter der neuen Einstellung im Artikel erzielt COSeg zwar die beste Leistung, Es gibt noch viel Raum für Verbesserungen. Das Modell kann verbessert werden, um eine bessere Verallgemeinerung von wenigen Schüssen zu erreichen: z. B. die Verbesserung der Prototyp-Extraktionsmethode [1, 2], die Verbesserung des Korrelationsoptimierungsmoduls [3] und die gezielte Ausrichtung auf einige wenige -Schussaufgabe. Sexualtraining[4].
Die Lösung des Problems der Basiskategorie-Interferenz ist ebenfalls ein Schlüsselfaktor für die Leistung bei wenigen Schüssen. Sie kann aus Sicht des Trainings oder des Modelldesigns optimiert werden [5,6], um die Basiskategorie-Interferenz besser zu reduzieren.
- Verbesserung der Trainings- und Inferenzeffizienz des Modells [7], insbesondere beim Einsatz in praktischen Anwendungen, ist auch die Effizienz des Modells ein wichtiger Gesichtspunkt.
- Zusammenfassend lässt sich sagen, dass dieses Gebiet sehr weitreichende Perspektiven hat und sich noch in der Anfangsphase befindet. Für die Mehrheit der Forscher ist es zweifellos ein Forschungsfeld voller Hoffnung und Möglichkeiten.
Referenzlink:
[1] Lang, Chunbo, et al. „Progressive Analyse und Gemeinsamkeitsdestillation für die Fernerkundungssegmentierung mit wenigen Schüssen.“ IEEE Transactions on Geoscience and Remote Sensing (2023). ).[2] Liu, Yuanwei, et al. „Intermediate Prototyp Mining Transformer for Few-Shot Semantic Segmentation.“ [3] Zhang, Canyu, et al. „Semantische 3D-Punktwolken-Segmentierung über ein stratifiziertes klassenspezifisches Aufmerksamkeitsnetzwerk.“ .[4] Bodiaf, Malik, et al. „Few-Shot-Segmentierung ohne Meta-Learning: Eine gute transduktive Inferenz ist alles, was Sie brauchen?“ Anerkennung. [5] Wang, Jiahui, et al. „Semantische Segmentierung mit wenigen Aufnahmen durch kontrastive Selbstüberwachung und Aufmerksamkeit mit mehreren Auflösungen.“ ).[6] Lang, Chunbo, et al Mustererkennung. [7] Sun, Yanpeng, et al. „Einzelwert-Feinabstimmung: Wenige Parameter erfordern eine Feinabstimmung.“ ): 37484-37496.Das obige ist der detaillierte Inhalt vonCVPR 24|ETH Zürich und andere Teams: Der neue Benchmark definiert die 3D-Segmentierungsaufgabe für kleine Stichproben neu und eröffnet ein breites Verbesserungspotenzial!. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!