Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Barrierefreies Reisen ist sicherer! Die Forschungsergebnisse von ByteDance gewannen die CVPR2022 AVA-Wettbewerbsmeisterschaft

Barrierefreies Reisen ist sicherer! Die Forschungsergebnisse von ByteDance gewannen die CVPR2022 AVA-Wettbewerbsmeisterschaft

WBOY
WBOYnach vorne
2023-04-08 23:01:061759Durchsuche

Kürzlich wurden die Ergebnisse verschiedener CVPR2022-Wettbewerbe bekannt gegeben. Das Team der intelligenten KI-Plattform „Byte-IC-AutoML“ von ByteDance hat die auf synthetischen Daten basierende Instance Segmentation Challenge (im Folgenden als AVA bezeichnet) gewonnen. , das sich auf das selbst entwickelte PPT-Framework (Parallel Pre-trained Transformers) stützte, stach heraus und wurde der Gewinner des einzigen Tracks im Wettbewerb.

Barrierefreies Reisen ist sicherer! Die Forschungsergebnisse von ByteDance gewannen die CVPR2022 AVA-Wettbewerbsmeisterschaft

Papieradresse:https://www.php.cn/link/ede529dfcbb2907e9760eea0875cdd12

Dieser AVA-Wettbewerb wird von der Boston University gesponsert und gemeinsam mit organisiert Carnegie Mellon University.

Der Wettbewerb generiert über eine Rendering-Engine einen synthetischen Instanzsegmentierungsdatensatz, der Datenproben autonomer Systeme enthält, die mit behinderten Fußgängern interagieren. Ziel des Wettbewerbs ist es, Benchmarks und Methoden zur Zielerkennung und Instanzsegmentierung für Personen und Objekte im Zusammenhang mit Barrierefreiheit bereitzustellen. ?? . Es gibt erhebliche Unterschiede;

Barrierefreies Reisen ist sicherer! Die Forschungsergebnisse von ByteDance gewannen die CVPR2022 AVA-WettbewerbsmeisterschaftLong-Tail-/Wenige-Stichproben-Problem: Die Daten weisen eine Long-Tail-Verteilung auf, z. B. sind die Kategorien „Krücken“ und „Rollstuhl“ weniger im Datensatz vorhanden, und der Segmentierungseffekt ist geringer auch schlechter;

Segmentierungsrobustheit Problem: Der Segmentierungseffekt einiger Kategorien ist 30 % niedriger als der Zielerkennungs-Segmentierungs-MAP. Detaillierte Erläuterung der technischen Lösung -Das AutoML-Team schlug ein PPT-Framework (Parallel Pre-Trained Transformers) zur Vervollständigung vor. Das Framework besteht hauptsächlich aus drei Modulen: 1) Parallele groß angelegte vorab trainierte Transformatoren; 2) Balance-Copy-Paste-Datenverbesserung; Trainingstransformatoren

Viele aktuelle Artikel zum Vortraining haben gezeigt, dass Modelle, die auf großen Datensätzen vorab trainiert wurden, sich gut auf verschiedene nachgelagerte Szenarien verallgemeinern lassen. Daher verwendet das Team die Datensätze COCO

und

BigDetection
, um das Modell zunächst vorab zu trainieren, wodurch die Feldabweichung zwischen natürlichen Daten und synthetischen Daten stärker verringert werden kann, sodass bei der nachgelagerten Synthese weniger Daten verwendet werden können Datenszenarien. Beispiele für schnelles Training. Auf Modellebene verwendet das Team

UniFormer

und

CBNetV2
    , da Vision Transformers nicht über die induktive Vorspannung von CNN verfügen und die Vorteile des Vortrainings nutzen können. UniFormer vereint Faltung und Selbstaufmerksamkeit, löst gleichzeitig die beiden Hauptprobleme lokaler Redundanz und globaler Abhängigkeit und erreicht effizientes Feature-Lernen. Die CBNetV2-Architektur verkettet mehrere identische Backbone-Pakete über Verbundverbindungen, um leistungsstarke Detektoren zu erstellen. Die Backbone-Feature-Extraktoren des Modells sind alle Swin Transformer. Mehrere große vorab trainierte Transformatoren werden parallel angeordnet, die Ausgabeergebnisse werden integriert und gelernt, das Endergebnis auszugeben.
  1. Karte verschiedener Methoden für den Validierungsdatensatz
  2. Balance Copy-Paste-Datenerweiterung
Copy-Paste-Technik liefert beeindruckende Ergebnisse, zum Beispiel bei Segmentierungsmodellen durch zufälliges Einfügen von Objekten, insbesondere für den unten aufgeführten Datensatz die Long-Tail-Verteilung. Allerdings erhöht diese Methode die Stichproben aller Kategorien gleichmäßig und löst das Long-Tail-Problem der Kategorienverteilung nicht grundsätzlich. Daher schlug das Team die Datenverbesserungsmethode „Balance Copy-Paste“ vor. Balance Copy-Paste tastet Kategorien adaptiv entsprechend der effektiven Anzahl von Kategorien ab, was die Gesamtqualität der Stichproben verbessert, die Probleme einer geringen Anzahl von Stichproben und der Long-Tail-Verteilung lindert und letztendlich den MAP des Modells bei der Instanzsegmentierung erheblich verbessert.

Barrierefreies Reisen ist sicherer! Die Forschungsergebnisse von ByteDance gewannen die CVPR2022 AVA-Wettbewerbsmeisterschaft

Verbesserungen durch die Balance Copy-Paste-Datenverbesserungstechnologie

nicht maximale Unterdrückung auf Pixelebene und Modellfusion

Barrierefreies Reisen ist sicherer! Die Forschungsergebnisse von ByteDance gewannen die CVPR2022 AVA-Wettbewerbsmeisterschaft

Modellfusionsablationsexperiment zur Validierung. Set

Barrierefreies Reisen ist sicherer! Die Forschungsergebnisse von ByteDance gewannen die CVPR2022 AVA-Wettbewerbsmeisterschaft

Modellfusionsablationsexperiment am Testsatz

Derzeit sind Stadt- und Verkehrsdatensätze allgemeinere Szenen, die nur normale Transportmittel und Fußgänger enthalten. Dem Datensatz fehlen Informationen über behinderte Menschen und Menschen mit eingeschränkter Mobilität Kategorien ihrer Zusatzgeräte können diese Personen und Objekte mit dem Erkennungsmodell, das aus den aktuell vorhandenen Datensätzen gewonnen wird, nicht erkannt werden.

Diese technische Lösung des Byte-IC-AutoML-Teams wird häufig im aktuellen autonomen Fahren und beim Verständnis von Straßenszenen verwendet: Das durch diese synthetischen Daten erhaltene Modell kann „Rollstühle“ und „Personen im Rollstuhl“ identifizieren. Seltene Kategorien wie „ „Menschen“ und „Menschen auf Krücken“ können nicht nur Personen/Objekte genauer klassifizieren, sondern auch Fehleinschätzungen vermeiden, die zu Missverständnissen der Szene führen. Darüber hinaus können durch diese Methode der Datensynthese Daten relativ seltener Kategorien in der realen Welt erstellt und so ein vielseitigeres und vollständigeres Zielerkennungsmodell trainiert werden.

Intelligent Creation ist ByteDances Forschungsinstitut für Multimedia-Innovationstechnologie und umfassender Dienstleister. Die Abteilung deckt Computer Vision, Grafik, Sprache, Aufnahme und Bearbeitung, Spezialeffekte, Clients, KI-Plattformen, Servertechnik und andere technische Bereiche ab und zielt darauf ab, einen geschlossenen Kreislauf modernster Algorithmen-Engineering-Systemprodukte zu nutzen Auf diese Weise bieten wir den internen Geschäftsbereichen des Unternehmens und externen Kooperationskunden das branchenweit modernste Content-Verständnis, die Erstellung von Inhalten, interaktive Erlebnis- und Konsumfunktionen sowie Branchenlösungen. Die technischen Fähigkeiten des Teams werden durch die Volcano Engine der Außenwelt zugänglich gemacht.

Volcano Engine ist eine Cloud-Service-Plattform im Besitz von Bytedance. Sie öffnet die Wachstumsmethoden, technischen Fähigkeiten und Tools, die während der schnellen Entwicklung von Bytedance angesammelt wurden, für externe Unternehmen und bietet Cloud-Grundlage, Video- und Inhaltsverteilung, Big Data und Dienste wie künstliche Intelligenz Intelligenz, Entwicklung sowie Betrieb und Wartung helfen Unternehmen, bei digitalen Upgrades nachhaltiges Wachstum zu erzielen.



Das obige ist der detaillierte Inhalt vonBarrierefreies Reisen ist sicherer! Die Forschungsergebnisse von ByteDance gewannen die CVPR2022 AVA-Wettbewerbsmeisterschaft. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen