Heim > Artikel > Technologie-Peripheriegeräte > Die Zukunft des Lebenslaufs liegt auf diesen 68 Bildern? Google Brain wirft einen tiefen Blick auf ImageNet: Alle Topmodels können keine Vorhersagen treffen
In den letzten zehn Jahren war ImageNet im Grunde das „Barometer“ im Bereich Computer Vision. Wenn sich die Genauigkeitsrate verbessert hat, wissen Sie, ob eine neue Technologie auf den Markt kommt.
„Brushing the List“ war schon immer die treibende Kraft für Modellinnovationen und hat die Top-1-Genauigkeit des Modells auf über 90 % gesteigert, was höher ist als die des Menschen.
Aber ist der ImageNet-Datensatz wirklich so nützlich, wie wir denken?
Viele Artikel haben ImageNet in Frage gestellt, beispielsweise hinsichtlich der Datenabdeckung, Verzerrungsproblemen, der Vollständigkeit der Etiketten usw.
Das Wichtigste ist, ist die 90-prozentige Genauigkeit des Modells wirklich korrekt?
Kürzlich haben Forscher des Google Brain-Teams und der University of California, Berkeley, die Vorhersageergebnisse mehrerer Sota-Modelle erneut untersucht und festgestellt, dass die tatsächliche Genauigkeit der Modelle möglicherweise unterschätzt wurde!
Link zum Papier: https://arxiv.org/pdf/2205.04596.pdf
Die Forscher gewannen Einblicke in die lange Geschichte der Benchmark-Datensätze, indem sie jeden Fehler einiger der Top-Tail-Modelle manuell überprüften und klassifizierten Fehler.
Der Schwerpunkt liegt auf der Multi-Label-Teilmengenbewertung von ImageNet. Das beste Modell konnte eine Top-1-Genauigkeit von 97 % erreichen.
Die Analyse der Studie ergab, dass fast die Hälfte der sogenannten Vorhersagefehler überhaupt keine Fehler waren und auch neue Mehrfachbezeichnungen in den Bildern gefunden wurden, was bedeutet, dass, wenn kein Mensch die Vorhersagen überprüft hätte Daher kann es sein, dass die Leistung dieser Modelle „unterschätzt“ wird!
Unqualifizierte Crowdsourcing-Datenannotatoren kennzeichnen Daten häufig falsch, was die Authentizität der Modellgenauigkeit stark beeinträchtigt.
Um den ImageNet-Datensatz zu kalibrieren und gute Fortschritte in der Zukunft zu fördern, stellen die Forscher im Artikel eine aktualisierte Version des Multi-Label-Bewertungssatzes bereit und kombinieren 68 Beispiele mit offensichtlichen Fehlern in den Sota-Modellvorhersagen zu neuen Daten Stellen Sie ImageNet-Major ein, um zukünftigen CV-Forschern die Bewältigung dieser schlimmen Fälle zu erleichtern
und die Tilgung „technischer Schulden“
Aus dem Titel des Artikels „Wann wird aus Teig Bagel?“ geht hervor, dass es dem Autor hauptsächlich darum geht über Kennzeichnungsprobleme in ImageNet Dies ist auch ein Problem, das aus der Geschichte übrig geblieben ist.
Das Bild unten ist ein sehr typisches Beispiel für die Mehrdeutigkeit der Bezeichnung. Die Bezeichnung im Bild ist „Teig“ und das Vorhersageergebnis des Modells ist „Bagel“.
Theoretisch hat dieses Modell keinen Vorhersagefehler, da der Teig backt und dabei ist, ein Bagel zu werden, es ist also sowohl Teig als auch Bagel.
Man erkennt, dass das Modell tatsächlich vorhersagen konnte, dass aus diesem Teig ein Bagel „wird“, diese Punktzahl jedoch in puncto Genauigkeit nicht erreicht hat.
Tatsächlich sind bei Verwendung der Klassifizierungsaufgabe des Standard-ImageNet-Datensatzes als Bewertungskriterium Probleme wie das Fehlen mehrerer Beschriftungen, Beschriftungsrauschen und nicht spezifizierte Kategorien unvermeidlich.
Aus Sicht der Crowdsourcing-Annotatoren, die für die Identifizierung solcher Objekte verantwortlich sind, handelt es sich um ein semantisches und sogar philosophisches Problem, das nur durch Mehrfachbeschriftung gelöst werden kann. Daher wird es hauptsächlich im abgeleiteten Datensatz von ImageNet verbessert der Kennzeichnung.
Es sind 16 Jahre seit der Gründung von ImageNet vergangen. Die damaligen Annotatoren und Modellentwickler verfügten sicherlich nicht über ein so umfassendes Datenverständnis wie heute, und ImageNet war ein frühes, relativ gut annotiertes Datensystem mit großer Kapazität festgelegt, so dass sich ImageNet natürlich zum Standard für Lebenslauf-Rankings etabliert hat.
Aber das Budget für die Kennzeichnung von Daten ist offensichtlich nicht so groß wie das für die Entwicklung von Modellen, sodass die Verbesserung des Kennzeichnungsproblems zu einer Art technischer Schuld geworden ist.
Um die verbleibenden Fehler in ImageNet herauszufinden, verwendeten die Forscher ein Standard-ViT-3B-Modell mit 3 Milliarden Parametern (das eine Genauigkeit von 89,5 % erreichen kann), mit JFT-3B als vorab trainiertem Modell und auf ImageNet- Fine- Die Abstimmung erfolgte auf 1K.
Mit dem ImageNet2012_multilabel-Datensatz als Testsatz erreichte ViT-3B zunächst eine Genauigkeit von 96,3 %, wobei das Modell offensichtlich 676 Bilder falsch vorhersagte, und führte dann eine eingehende Untersuchung dieser Beispiele durch.
Bei der Neukennzeichnung der Daten hat sich der Autor nicht für Crowdsourcing entschieden, sondern ein Team aus 5 Gutachtern zusammengestellt, um die Kennzeichnung durchzuführen, da diese Art von Kennzeichnungsfehlern für Laien schwer zu erkennen sind.
In Bild (a) schreiben normale Kommentatoren beispielsweise möglicherweise nur „Tisch“, tatsächlich sind jedoch viele andere Objekte auf dem Bild zu sehen, z. B. Bildschirme, Monitore, Tassen usw.
Das Motiv auf Bild (b) sind zwei Personen, aber die Beschriftung ist Lattenzaun (Zaun), was offensichtlich unvollkommen ist. Zu den möglichen Beschriftungen gehören Fliege, Uniform usw.
Bild (c) ist ebenfalls ein offensichtliches Beispiel. Wenn nur „Afrikanischer Elefant“ markiert ist, kann das Elfenbein ignoriert werden.
Bild (d) trägt die Bezeichnung „Seeufer“, aber es ist eigentlich nichts Falsches daran, es „Meeresufer“ zu nennen.
Um die Effizienz der Annotation zu steigern, haben die Forscher außerdem ein spezielles Tool entwickelt, das gleichzeitig die vom Modell vorhergesagten Kategorien, Vorhersagewerte, Beschriftungen und Bilder anzeigen kann.
In einigen Fällen kann es zwischen den Expertengruppen noch zu Streitigkeiten über die Kennzeichnung kommen. Zur Unterstützung der Kennzeichnung werden die Bilder zu diesem Zeitpunkt in die Google-Suche eingestellt.
In einem Beispiel umfassen die Vorhersageergebnisse des Modells beispielsweise Taxis, aber auf dem Bild ist außer „ein bisschen gelb“ keine Taximarke zu sehen.
Die Anmerkung zu diesem Bild basierte hauptsächlich auf der Google-Bildersuche und ergab, dass der Hintergrund des Bildes eine ikonische Brücke ist. Dann lokalisierten die Forscher die Stadt, in der sich das Bild befindet, und nachdem sie Taxibilder in der Stadt abgerufen hatten, erkannten sie sie Dieses Bild zeigt ein Taxi und kein normales Auto. Und auch ein Vergleich des Kennzeichendesigns bestätigte, dass die Vorhersage des Modells richtig war.
Nach einer vorläufigen Überprüfung der in mehreren Phasen der Forschung gefundenen Fehler teilten die Autoren sie zunächst nach ihrem Schweregrad in zwei Kategorien ein:
1 Hauptsächlich: Menschen sind in der Lage, die Bedeutung der Etiketten und des Modells zu verstehen Die Vorhersage hat nichts mit der Beschriftung zu tun;
2. Geringfügiger Fehler (Minor): Die Beschriftung kann aufgrund von Vorhersagefehlern falsch oder unvollständig sein. Korrekturen erfordern eine fachmännische Prüfung der Daten.
Für die 155 Hauptfehler des ViT-3B-Modells fanden die Forscher drei weitere Modelle, die sie gemeinsam vorhersagen konnten, um die Vielfalt der Vorhersageergebnisse zu erhöhen.
Es gibt 68 Hauptfehler, die alle vier Modelle nicht vorhersagen konnten. Anschließend wurden die Vorhersagen aller Modelle für diese Beispiele analysiert und überprüft, dass keiner von ihnen für das neue Multi-Label korrekt war, d. h. die Vorhersageergebnisse jedes Modells waren in der Tat schwerwiegende Fehler.
Diese 68 Beispiele weisen mehrere gemeinsame Merkmale auf. Das erste ist, dass die auf unterschiedliche Weise trainierten Sota-Modelle bei dieser Teilmenge Fehler gemacht haben und Expertengutachter auch glauben, dass die Vorhersageergebnisse völlig irrelevant sind.
Der Datensatz von 68 Bildern ist auch klein genug, um die manuelle Auswertung durch nachfolgende Forscher zu erleichtern. Wenn diese 68 Beispiele in Zukunft erobert werden, kann das CV-Modell neue Durchbrüche erzielen.
Durch die Analyse der Daten haben die Forscher Vorhersagefehler in vier Typen unterteilt:
1 Feinkörnige Fehler, bei denen die vorhergesagten Kategorien den tatsächlichen Bezeichnungen ähneln, aber nicht genau gleich sind; -Vokabularfehler (OOV), bei denen das Modell eine Klasse identifiziert, deren Kategorie für das Objekt in ImageNet nicht vorhanden ist; falsche Korrelation, bei der die vorhergesagte Bezeichnung aus dem Kontext des Bildes gelesen wird; 4. Nicht-Prototyp, wobei das Objekt im Etikett dem vorhergesagten Etikett ähnelt, aber nicht genau dasselbe ist.
Nach der Überprüfung der ursprünglichen 676 Fehler stellten die Forscher fest, dass 298 davon korrekt sein sollten, oder es wurde festgestellt, dass die ursprüngliche Bezeichnung falsch oder problematisch war. Generell lassen sich aus den Forschungsergebnissen des Artikels vier Schlussfolgerungen ziehen: 1 Wenn ein groß angelegtes, hochpräzises Modell neue Vorhersagen macht, die andere Modelle nicht haben, dann etwa 50 % sind korrekt.2. Modelle mit höherer Genauigkeit zeigen keine klare Korrelation zwischen Kategorien und Fehlerschwere.
3 menschliche Leistung;
4. Verrauschte Trainingsdaten und nicht spezifizierte Kategorien können ein Faktor sein, der die effektive Messung von Bildklassifizierungsverbesserungen einschränkt.
Vielleicht muss das Problem der Bildkennzeichnung noch darauf warten, dass die Technologie zur Verarbeitung natürlicher Sprache gelöst wird?
Das obige ist der detaillierte Inhalt vonDie Zukunft des Lebenslaufs liegt auf diesen 68 Bildern? Google Brain wirft einen tiefen Blick auf ImageNet: Alle Topmodels können keine Vorhersagen treffen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!