Heim > Artikel > Technologie-Peripheriegeräte > Barrierefreies Reisen ist sicherer! Die Forschungsergebnisse von ByteDance gewannen die CVPR2022 AVA-Wettbewerbsmeisterschaft
Kürzlich wurden die Ergebnisse verschiedener CVPR2022-Wettbewerbe bekannt gegeben. Das Team der intelligenten KI-Plattform „Byte-IC-AutoML“ von ByteDance hat die auf synthetischen Daten basierende Instance Segmentation Challenge (im Folgenden als AVA bezeichnet) gewonnen. , das sich auf das selbst entwickelte PPT-Framework (Parallel Pre-trained Transformers) stützte, stach heraus und wurde der Gewinner des einzigen Tracks im Wettbewerb.
Papieradresse:https://www.php.cn/link/ede529dfcbb2907e9760eea0875cdd12
Dieser AVA-Wettbewerb wird von der Boston University gesponsert und gemeinsam mit organisiert Carnegie Mellon University.
Der Wettbewerb generiert über eine Rendering-Engine einen synthetischen Instanzsegmentierungsdatensatz, der Datenproben autonomer Systeme enthält, die mit behinderten Fußgängern interagieren. Ziel des Wettbewerbs ist es, Benchmarks und Methoden zur Zielerkennung und Instanzsegmentierung für Personen und Objekte im Zusammenhang mit Barrierefreiheit bereitzustellen. ?? . Es gibt erhebliche Unterschiede;
Long-Tail-/Wenige-Stichproben-Problem: Die Daten weisen eine Long-Tail-Verteilung auf, z. B. sind die Kategorien „Krücken“ und „Rollstuhl“ weniger im Datensatz vorhanden, und der Segmentierungseffekt ist geringer auch schlechter;
Segmentierungsrobustheit Problem: Der Segmentierungseffekt einiger Kategorien ist 30 % niedriger als der Zielerkennungs-Segmentierungs-MAP. Detaillierte Erläuterung der technischen Lösung -Das AutoML-Team schlug ein PPT-Framework (Parallel Pre-Trained Transformers) zur Vervollständigung vor. Das Framework besteht hauptsächlich aus drei Modulen: 1) Parallele groß angelegte vorab trainierte Transformatoren; 2) Balance-Copy-Paste-Datenverbesserung; Trainingstransformatoren
Viele aktuelle Artikel zum Vortraining haben gezeigt, dass Modelle, die auf großen Datensätzen vorab trainiert wurden, sich gut auf verschiedene nachgelagerte Szenarien verallgemeinern lassen. Daher verwendet das Team die Datensätze COCO
undBigDetection
, um das Modell zunächst vorab zu trainieren, wodurch die Feldabweichung zwischen natürlichen Daten und synthetischen Daten stärker verringert werden kann, sodass bei der nachgelagerten Synthese weniger Daten verwendet werden können Datenszenarien. Beispiele für schnelles Training. Auf Modellebene verwendet das Team
Verbesserungen durch die Balance Copy-Paste-Datenverbesserungstechnologie
Modellfusionsablationsexperiment zur Validierung. Set
Modellfusionsablationsexperiment am Testsatz
Derzeit sind Stadt- und Verkehrsdatensätze allgemeinere Szenen, die nur normale Transportmittel und Fußgänger enthalten. Dem Datensatz fehlen Informationen über behinderte Menschen und Menschen mit eingeschränkter Mobilität Kategorien ihrer Zusatzgeräte können diese Personen und Objekte mit dem Erkennungsmodell, das aus den aktuell vorhandenen Datensätzen gewonnen wird, nicht erkannt werden.
Diese technische Lösung des Byte-IC-AutoML-Teams wird häufig im aktuellen autonomen Fahren und beim Verständnis von Straßenszenen verwendet: Das durch diese synthetischen Daten erhaltene Modell kann „Rollstühle“ und „Personen im Rollstuhl“ identifizieren. Seltene Kategorien wie „ „Menschen“ und „Menschen auf Krücken“ können nicht nur Personen/Objekte genauer klassifizieren, sondern auch Fehleinschätzungen vermeiden, die zu Missverständnissen der Szene führen. Darüber hinaus können durch diese Methode der Datensynthese Daten relativ seltener Kategorien in der realen Welt erstellt und so ein vielseitigeres und vollständigeres Zielerkennungsmodell trainiert werden.
Intelligent Creation ist ByteDances Forschungsinstitut für Multimedia-Innovationstechnologie und umfassender Dienstleister. Die Abteilung deckt Computer Vision, Grafik, Sprache, Aufnahme und Bearbeitung, Spezialeffekte, Clients, KI-Plattformen, Servertechnik und andere technische Bereiche ab und zielt darauf ab, einen geschlossenen Kreislauf modernster Algorithmen-Engineering-Systemprodukte zu nutzen Auf diese Weise bieten wir den internen Geschäftsbereichen des Unternehmens und externen Kooperationskunden das branchenweit modernste Content-Verständnis, die Erstellung von Inhalten, interaktive Erlebnis- und Konsumfunktionen sowie Branchenlösungen. Die technischen Fähigkeiten des Teams werden durch die Volcano Engine der Außenwelt zugänglich gemacht.
Volcano Engine ist eine Cloud-Service-Plattform im Besitz von Bytedance. Sie öffnet die Wachstumsmethoden, technischen Fähigkeiten und Tools, die während der schnellen Entwicklung von Bytedance angesammelt wurden, für externe Unternehmen und bietet Cloud-Grundlage, Video- und Inhaltsverteilung, Big Data und Dienste wie künstliche Intelligenz Intelligenz, Entwicklung sowie Betrieb und Wartung helfen Unternehmen, bei digitalen Upgrades nachhaltiges Wachstum zu erzielen.
Das obige ist der detaillierte Inhalt vonBarrierefreies Reisen ist sicherer! Die Forschungsergebnisse von ByteDance gewannen die CVPR2022 AVA-Wettbewerbsmeisterschaft. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!