Heim >Technologie-Peripheriegeräte >KI >Barrierefreies Reisen ist sicherer! Die Forschungsergebnisse von ByteDance gewannen die CVPR2022 AVA-Wettbewerbsmeisterschaft

Barrierefreies Reisen ist sicherer! Die Forschungsergebnisse von ByteDance gewannen die CVPR2022 AVA-Wettbewerbsmeisterschaft

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBnach vorne: 2023-04-08 23:01:061880Durchsuche

Kürzlich wurden die Ergebnisse verschiedener CVPR2022-Wettbewerbe bekannt gegeben. Das Team der intelligenten KI-Plattform „Byte-IC-AutoML“ von ByteDance hat die auf synthetischen Daten basierende Instance Segmentation Challenge (im Folgenden als AVA bezeichnet) gewonnen. , das sich auf das selbst entwickelte PPT-Framework (Parallel Pre-trained Transformers) stützte, stach heraus und wurde der Gewinner des einzigen Tracks im Wettbewerb.

Papieradresse:https://www.php.cn/link/ede529dfcbb2907e9760eea0875cdd12

Dieser AVA-Wettbewerb wird von der Boston University gesponsert und gemeinsam mit organisiert Carnegie Mellon University.

Der Wettbewerb generiert über eine Rendering-Engine einen synthetischen Instanzsegmentierungsdatensatz, der Datenproben autonomer Systeme enthält, die mit behinderten Fußgängern interagieren. Ziel des Wettbewerbs ist es, Benchmarks und Methoden zur Zielerkennung und Instanzsegmentierung für Personen und Objekte im Zusammenhang mit Barrierefreiheit bereitzustellen. ?? . Es gibt erhebliche Unterschiede;

Barrierefreies Reisen ist sicherer! Die Forschungsergebnisse von ByteDance gewannen die CVPR2022 AVA-Wettbewerbsmeisterschaft Long-Tail-/Wenige-Stichproben-Problem: Die Daten weisen eine Long-Tail-Verteilung auf, z. B. sind die Kategorien „Krücken“ und „Rollstuhl“ weniger im Datensatz vorhanden, und der Segmentierungseffekt ist geringer auch schlechter;

Segmentierungsrobustheit Problem: Der Segmentierungseffekt einiger Kategorien ist 30 % niedriger als der Zielerkennungs-Segmentierungs-MAP. Detaillierte Erläuterung der technischen Lösung -Das AutoML-Team schlug ein PPT-Framework (Parallel Pre-Trained Transformers) zur Vervollständigung vor. Das Framework besteht hauptsächlich aus drei Modulen: 1) Parallele groß angelegte vorab trainierte Transformatoren; 2) Balance-Copy-Paste-Datenverbesserung; Trainingstransformatoren

Viele aktuelle Artikel zum Vortraining haben gezeigt, dass Modelle, die auf großen Datensätzen vorab trainiert wurden, sich gut auf verschiedene nachgelagerte Szenarien verallgemeinern lassen. Daher verwendet das Team die Datensätze COCO

und

BigDetection
, um das Modell zunächst vorab zu trainieren, wodurch die Feldabweichung zwischen natürlichen Daten und synthetischen Daten stärker verringert werden kann, sodass bei der nachgelagerten Synthese weniger Daten verwendet werden können Datenszenarien. Beispiele für schnelles Training. Auf Modellebene verwendet das Team

UniFormer

und

CBNetV2

Karte verschiedener Methoden für den Validierungsdatensatz
Balance Copy-Paste-Datenerweiterung

Copy-Paste-Technik liefert beeindruckende Ergebnisse, zum Beispiel bei Segmentierungsmodellen durch zufälliges Einfügen von Objekten, insbesondere für den unten aufgeführten Datensatz die Long-Tail-Verteilung. Allerdings erhöht diese Methode die Stichproben aller Kategorien gleichmäßig und löst das Long-Tail-Problem der Kategorienverteilung nicht grundsätzlich. Daher schlug das Team die Datenverbesserungsmethode „Balance Copy-Paste“ vor. Balance Copy-Paste tastet Kategorien adaptiv entsprechend der effektiven Anzahl von Kategorien ab, was die Gesamtqualität der Stichproben verbessert, die Probleme einer geringen Anzahl von Stichproben und der Long-Tail-Verteilung lindert und letztendlich den MAP des Modells bei der Instanzsegmentierung erheblich verbessert.

Barrierefreies Reisen ist sicherer! Die Forschungsergebnisse von ByteDance gewannen die CVPR2022 AVA-Wettbewerbsmeisterschaft

Verbesserungen durch die Balance Copy-Paste-Datenverbesserungstechnologie

nicht maximale Unterdrückung auf Pixelebene und Modellfusion

Barrierefreies Reisen ist sicherer! Die Forschungsergebnisse von ByteDance gewannen die CVPR2022 AVA-Wettbewerbsmeisterschaft

Modellfusionsablationsexperiment zur Validierung. Set

Barrierefreies Reisen ist sicherer! Die Forschungsergebnisse von ByteDance gewannen die CVPR2022 AVA-Wettbewerbsmeisterschaft

Modellfusionsablationsexperiment am Testsatz

Derzeit sind Stadt- und Verkehrsdatensätze allgemeinere Szenen, die nur normale Transportmittel und Fußgänger enthalten. Dem Datensatz fehlen Informationen über behinderte Menschen und Menschen mit eingeschränkter Mobilität Kategorien ihrer Zusatzgeräte können diese Personen und Objekte mit dem Erkennungsmodell, das aus den aktuell vorhandenen Datensätzen gewonnen wird, nicht erkannt werden.

Diese technische Lösung des Byte-IC-AutoML-Teams wird häufig im aktuellen autonomen Fahren und beim Verständnis von Straßenszenen verwendet: Das durch diese synthetischen Daten erhaltene Modell kann „Rollstühle“ und „Personen im Rollstuhl“ identifizieren. Seltene Kategorien wie „ „Menschen“ und „Menschen auf Krücken“ können nicht nur Personen/Objekte genauer klassifizieren, sondern auch Fehleinschätzungen vermeiden, die zu Missverständnissen der Szene führen. Darüber hinaus können durch diese Methode der Datensynthese Daten relativ seltener Kategorien in der realen Welt erstellt und so ein vielseitigeres und vollständigeres Zielerkennungsmodell trainiert werden.

Intelligent Creation ist ByteDances Forschungsinstitut für Multimedia-Innovationstechnologie und umfassender Dienstleister. Die Abteilung deckt Computer Vision, Grafik, Sprache, Aufnahme und Bearbeitung, Spezialeffekte, Clients, KI-Plattformen, Servertechnik und andere technische Bereiche ab und zielt darauf ab, einen geschlossenen Kreislauf modernster Algorithmen-Engineering-Systemprodukte zu nutzen Auf diese Weise bieten wir den internen Geschäftsbereichen des Unternehmens und externen Kooperationskunden das branchenweit modernste Content-Verständnis, die Erstellung von Inhalten, interaktive Erlebnis- und Konsumfunktionen sowie Branchenlösungen. Die technischen Fähigkeiten des Teams werden durch die Volcano Engine der Außenwelt zugänglich gemacht.

Volcano Engine ist eine Cloud-Service-Plattform im Besitz von Bytedance. Sie öffnet die Wachstumsmethoden, technischen Fähigkeiten und Tools, die während der schnellen Entwicklung von Bytedance angesammelt wurden, für externe Unternehmen und bietet Cloud-Grundlage, Video- und Inhaltsverteilung, Big Data und Dienste wie künstliche Intelligenz Intelligenz, Entwicklung sowie Betrieb und Wartung helfen Unternehmen, bei digitalen Upgrades nachhaltiges Wachstum zu erzielen.

Das obige ist der detaillierte Inhalt vonBarrierefreies Reisen ist sicherer! Die Forschungsergebnisse von ByteDance gewannen die CVPR2022 AVA-Wettbewerbsmeisterschaft. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

php 架构 copy map 对象算法人工智能 cnn transformer https

Stellungnahme：

Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Vorheriger Artikel：Ein Artikel über das funktionale Sicherheitsdesign fortschrittlicher Domänencontroller für autonomes FahrenNächster Artikel：Ein Artikel über das funktionale Sicherheitsdesign fortschrittlicher Domänencontroller für autonomes Fahren

In Verbindung stehende Artikel

Mehr sehen