suchen
HeimTechnologie-PeripheriegeräteKIDie Zukunft des Lebenslaufs liegt auf diesen 68 Bildern? Google Brain wirft einen tiefen Blick auf ImageNet: Alle Topmodels können keine Vorhersagen treffen

In den letzten zehn Jahren war ImageNet im Grunde das „Barometer“ im Bereich Computer Vision. Wenn sich die Genauigkeitsrate verbessert hat, wissen Sie, ob eine neue Technologie auf den Markt kommt.

„Brushing the List“ war schon immer die treibende Kraft für Modellinnovationen und hat die Top-1-Genauigkeit des Modells auf über 90 % gesteigert, was höher ist als die des Menschen.

Die Zukunft des Lebenslaufs liegt auf diesen 68 Bildern? Google Brain wirft einen tiefen Blick auf ImageNet: Alle Topmodels können keine Vorhersagen treffen

Aber ist der ImageNet-Datensatz wirklich so nützlich, wie wir denken?

Viele Artikel haben ImageNet in Frage gestellt, beispielsweise hinsichtlich der Datenabdeckung, Verzerrungsproblemen, der Vollständigkeit der Etiketten usw.

Das Wichtigste ist, ist die 90-prozentige Genauigkeit des Modells wirklich korrekt?

Kürzlich haben Forscher des Google Brain-Teams und der University of California, Berkeley, die Vorhersageergebnisse mehrerer Sota-Modelle erneut untersucht und festgestellt, dass die tatsächliche Genauigkeit der Modelle möglicherweise unterschätzt wurde!

Die Zukunft des Lebenslaufs liegt auf diesen 68 Bildern? Google Brain wirft einen tiefen Blick auf ImageNet: Alle Topmodels können keine Vorhersagen treffen

Link zum Papier: https://arxiv.org/pdf/2205.04596.pdf

Die Forscher gewannen Einblicke in die lange Geschichte der Benchmark-Datensätze, indem sie jeden Fehler einiger der Top-Tail-Modelle manuell überprüften und klassifizierten Fehler.

Der Schwerpunkt liegt auf der Multi-Label-Teilmengenbewertung von ImageNet. Das beste Modell konnte eine Top-1-Genauigkeit von 97 % erreichen.

Die Zukunft des Lebenslaufs liegt auf diesen 68 Bildern? Google Brain wirft einen tiefen Blick auf ImageNet: Alle Topmodels können keine Vorhersagen treffen


Die Analyse der Studie ergab, dass fast die Hälfte der sogenannten Vorhersagefehler überhaupt keine Fehler waren und auch neue Mehrfachbezeichnungen in den Bildern gefunden wurden, was bedeutet, dass, wenn kein Mensch die Vorhersagen überprüft hätte Daher kann es sein, dass die Leistung dieser Modelle „unterschätzt“ wird!

Unqualifizierte Crowdsourcing-Datenannotatoren kennzeichnen Daten häufig falsch, was die Authentizität der Modellgenauigkeit stark beeinträchtigt.

Um den ImageNet-Datensatz zu kalibrieren und gute Fortschritte in der Zukunft zu fördern, stellen die Forscher im Artikel eine aktualisierte Version des Multi-Label-Bewertungssatzes bereit und kombinieren 68 Beispiele mit offensichtlichen Fehlern in den Sota-Modellvorhersagen zu neuen Daten Stellen Sie ImageNet-Major ein, um zukünftigen CV-Forschern die Bewältigung dieser schlimmen Fälle zu erleichtern

und die Tilgung „technischer Schulden“

Aus dem Titel des Artikels „Wann wird aus Teig Bagel?“ geht hervor, dass es dem Autor hauptsächlich darum geht über Kennzeichnungsprobleme in ImageNet Dies ist auch ein Problem, das aus der Geschichte übrig geblieben ist.

Das Bild unten ist ein sehr typisches Beispiel für die Mehrdeutigkeit der Bezeichnung. Die Bezeichnung im Bild ist „Teig“ und das Vorhersageergebnis des Modells ist „Bagel“.

Die Zukunft des Lebenslaufs liegt auf diesen 68 Bildern? Google Brain wirft einen tiefen Blick auf ImageNet: Alle Topmodels können keine Vorhersagen treffen

Theoretisch hat dieses Modell keinen Vorhersagefehler, da der Teig backt und dabei ist, ein Bagel zu werden, es ist also sowohl Teig als auch Bagel.

Man erkennt, dass das Modell tatsächlich vorhersagen konnte, dass aus diesem Teig ein Bagel „wird“, diese Punktzahl jedoch in puncto Genauigkeit nicht erreicht hat.

Tatsächlich sind bei Verwendung der Klassifizierungsaufgabe des Standard-ImageNet-Datensatzes als Bewertungskriterium Probleme wie das Fehlen mehrerer Beschriftungen, Beschriftungsrauschen und nicht spezifizierte Kategorien unvermeidlich.

Die Zukunft des Lebenslaufs liegt auf diesen 68 Bildern? Google Brain wirft einen tiefen Blick auf ImageNet: Alle Topmodels können keine Vorhersagen treffen

Aus Sicht der Crowdsourcing-Annotatoren, die für die Identifizierung solcher Objekte verantwortlich sind, handelt es sich um ein semantisches und sogar philosophisches Problem, das nur durch Mehrfachbeschriftung gelöst werden kann. Daher wird es hauptsächlich im abgeleiteten Datensatz von ImageNet verbessert der Kennzeichnung.

Es sind 16 Jahre seit der Gründung von ImageNet vergangen. Die damaligen Annotatoren und Modellentwickler verfügten sicherlich nicht über ein so umfassendes Datenverständnis wie heute, und ImageNet war ein frühes, relativ gut annotiertes Datensystem mit großer Kapazität festgelegt, so dass sich ImageNet natürlich zum Standard für Lebenslauf-Rankings etabliert hat.

Aber das Budget für die Kennzeichnung von Daten ist offensichtlich nicht so groß wie das für die Entwicklung von Modellen, sodass die Verbesserung des Kennzeichnungsproblems zu einer Art technischer Schuld geworden ist.

Um die verbleibenden Fehler in ImageNet herauszufinden, verwendeten die Forscher ein Standard-ViT-3B-Modell mit 3 Milliarden Parametern (das eine Genauigkeit von 89,5 % erreichen kann), mit JFT-3B als vorab trainiertem Modell und auf ImageNet- Fine- Die Abstimmung erfolgte auf 1K.

Mit dem ImageNet2012_multilabel-Datensatz als Testsatz erreichte ViT-3B zunächst eine Genauigkeit von 96,3 %, wobei das Modell offensichtlich 676 Bilder falsch vorhersagte, und führte dann eine eingehende Untersuchung dieser Beispiele durch.

Bei der Neukennzeichnung der Daten hat sich der Autor nicht für Crowdsourcing entschieden, sondern ein Team aus 5 Gutachtern zusammengestellt, um die Kennzeichnung durchzuführen, da diese Art von Kennzeichnungsfehlern für Laien schwer zu erkennen sind.

In Bild (a) schreiben normale Kommentatoren beispielsweise möglicherweise nur „Tisch“, tatsächlich sind jedoch viele andere Objekte auf dem Bild zu sehen, z. B. Bildschirme, Monitore, Tassen usw.

Die Zukunft des Lebenslaufs liegt auf diesen 68 Bildern? Google Brain wirft einen tiefen Blick auf ImageNet: Alle Topmodels können keine Vorhersagen treffen

Das Motiv auf Bild (b) sind zwei Personen, aber die Beschriftung ist Lattenzaun (Zaun), was offensichtlich unvollkommen ist. Zu den möglichen Beschriftungen gehören Fliege, Uniform usw.

Bild (c) ist ebenfalls ein offensichtliches Beispiel. Wenn nur „Afrikanischer Elefant“ markiert ist, kann das Elfenbein ignoriert werden.

Bild (d) trägt die Bezeichnung „Seeufer“, aber es ist eigentlich nichts Falsches daran, es „Meeresufer“ zu nennen.

Um die Effizienz der Annotation zu steigern, haben die Forscher außerdem ein spezielles Tool entwickelt, das gleichzeitig die vom Modell vorhergesagten Kategorien, Vorhersagewerte, Beschriftungen und Bilder anzeigen kann.

Die Zukunft des Lebenslaufs liegt auf diesen 68 Bildern? Google Brain wirft einen tiefen Blick auf ImageNet: Alle Topmodels können keine Vorhersagen treffen

In einigen Fällen kann es zwischen den Expertengruppen noch zu Streitigkeiten über die Kennzeichnung kommen. Zur Unterstützung der Kennzeichnung werden die Bilder zu diesem Zeitpunkt in die Google-Suche eingestellt.

In einem Beispiel umfassen die Vorhersageergebnisse des Modells beispielsweise Taxis, aber auf dem Bild ist außer „ein bisschen gelb“ keine Taximarke zu sehen.

Die Anmerkung zu diesem Bild basierte hauptsächlich auf der Google-Bildersuche und ergab, dass der Hintergrund des Bildes eine ikonische Brücke ist. Dann lokalisierten die Forscher die Stadt, in der sich das Bild befindet, und nachdem sie Taxibilder in der Stadt abgerufen hatten, erkannten sie sie Dieses Bild zeigt ein Taxi und kein normales Auto. Und auch ein Vergleich des Kennzeichendesigns bestätigte, dass die Vorhersage des Modells richtig war.

Nach einer vorläufigen Überprüfung der in mehreren Phasen der Forschung gefundenen Fehler teilten die Autoren sie zunächst nach ihrem Schweregrad in zwei Kategorien ein:

1 Hauptsächlich: Menschen sind in der Lage, die Bedeutung der Etiketten und des Modells zu verstehen Die Vorhersage hat nichts mit der Beschriftung zu tun;

2. Geringfügiger Fehler (Minor): Die Beschriftung kann aufgrund von Vorhersagefehlern falsch oder unvollständig sein. Korrekturen erfordern eine fachmännische Prüfung der Daten.

Die Zukunft des Lebenslaufs liegt auf diesen 68 Bildern? Google Brain wirft einen tiefen Blick auf ImageNet: Alle Topmodels können keine Vorhersagen treffen

Für die 155 Hauptfehler des ViT-3B-Modells fanden die Forscher drei weitere Modelle, die sie gemeinsam vorhersagen konnten, um die Vielfalt der Vorhersageergebnisse zu erhöhen.

Es gibt 68 Hauptfehler, die alle vier Modelle nicht vorhersagen konnten. Anschließend wurden die Vorhersagen aller Modelle für diese Beispiele analysiert und überprüft, dass keiner von ihnen für das neue Multi-Label korrekt war, d. h. die Vorhersageergebnisse jedes Modells waren in der Tat schwerwiegende Fehler.

Diese 68 Beispiele weisen mehrere gemeinsame Merkmale auf. Das erste ist, dass die auf unterschiedliche Weise trainierten Sota-Modelle bei dieser Teilmenge Fehler gemacht haben und Expertengutachter auch glauben, dass die Vorhersageergebnisse völlig irrelevant sind.

Der Datensatz von 68 Bildern ist auch klein genug, um die manuelle Auswertung durch nachfolgende Forscher zu erleichtern. Wenn diese 68 Beispiele in Zukunft erobert werden, kann das CV-Modell neue Durchbrüche erzielen.

Durch die Analyse der Daten haben die Forscher Vorhersagefehler in vier Typen unterteilt:

1 Feinkörnige Fehler, bei denen die vorhergesagten Kategorien den tatsächlichen Bezeichnungen ähneln, aber nicht genau gleich sind; -Vokabularfehler (OOV), bei denen das Modell eine Klasse identifiziert, deren Kategorie für das Objekt in ImageNet nicht vorhanden ist; falsche Korrelation, bei der die vorhergesagte Bezeichnung aus dem Kontext des Bildes gelesen wird; 4. Nicht-Prototyp, wobei das Objekt im Etikett dem vorhergesagten Etikett ähnelt, aber nicht genau dasselbe ist.

Nach der Überprüfung der ursprünglichen 676 Fehler stellten die Forscher fest, dass 298 davon korrekt sein sollten, oder es wurde festgestellt, dass die ursprüngliche Bezeichnung falsch oder problematisch war.

Die Zukunft des Lebenslaufs liegt auf diesen 68 Bildern? Google Brain wirft einen tiefen Blick auf ImageNet: Alle Topmodels können keine Vorhersagen treffen

Generell lassen sich aus den Forschungsergebnissen des Artikels vier Schlussfolgerungen ziehen:

1 Wenn ein groß angelegtes, hochpräzises Modell neue Vorhersagen macht, die andere Modelle nicht haben, dann etwa 50 % sind korrekt.

Die Zukunft des Lebenslaufs liegt auf diesen 68 Bildern? Google Brain wirft einen tiefen Blick auf ImageNet: Alle Topmodels können keine Vorhersagen treffen2. Modelle mit höherer Genauigkeit zeigen keine klare Korrelation zwischen Kategorien und Fehlerschwere.

3 menschliche Leistung;

4. Verrauschte Trainingsdaten und nicht spezifizierte Kategorien können ein Faktor sein, der die effektive Messung von Bildklassifizierungsverbesserungen einschränkt.

Vielleicht muss das Problem der Bildkennzeichnung noch darauf warten, dass die Technologie zur Verarbeitung natürlicher Sprache gelöst wird?

Das obige ist der detaillierte Inhalt vonDie Zukunft des Lebenslaufs liegt auf diesen 68 Bildern? Google Brain wirft einen tiefen Blick auf ImageNet: Alle Topmodels können keine Vorhersagen treffen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme
Dieser Artikel ist reproduziert unter:51CTO.COM. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen
Gemma Scope: Das Mikroskop von Google, um in den Denkprozess von AI zu blickenGemma Scope: Das Mikroskop von Google, um in den Denkprozess von AI zu blickenApr 17, 2025 am 11:55 AM

Erforschen der inneren Funktionsweise von Sprachmodellen mit Gemma -Umfang Das Verständnis der Komplexität von KI -Sprachmodellen ist eine bedeutende Herausforderung. Die Veröffentlichung von Gemma Scope durch Google, ein umfassendes Toolkit, bietet Forschern eine leistungsstarke Möglichkeit, sich einzuschütteln

Wer ist ein Business Intelligence Analyst und wie kann man einer werden?Wer ist ein Business Intelligence Analyst und wie kann man einer werden?Apr 17, 2025 am 11:44 AM

Erschließung des Geschäftserfolgs: Ein Leitfaden zum Analyst für Business Intelligence -Analyst Stellen Sie sich vor, Rohdaten verwandeln in umsetzbare Erkenntnisse, die das organisatorische Wachstum vorantreiben. Dies ist die Macht eines Business Intelligence -Analysts (BI) - eine entscheidende Rolle in Gu

Wie füge ich eine Spalte in SQL hinzu? - Analytics VidhyaWie füge ich eine Spalte in SQL hinzu? - Analytics VidhyaApr 17, 2025 am 11:43 AM

SQL -Änderungstabellanweisung: Dynamisches Hinzufügen von Spalten zu Ihrer Datenbank Im Datenmanagement ist die Anpassungsfähigkeit von SQL von entscheidender Bedeutung. Müssen Sie Ihre Datenbankstruktur im laufenden Flug anpassen? Die Änderungstabelleerklärung ist Ihre Lösung. Diese Anleitung Details Hinzufügen von Colu

Business Analyst vs. Data AnalystBusiness Analyst vs. Data AnalystApr 17, 2025 am 11:38 AM

Einführung Stellen Sie sich ein lebhaftes Büro vor, in dem zwei Fachleute an einem kritischen Projekt zusammenarbeiten. Der Business Analyst konzentriert sich auf die Ziele des Unternehmens, die Ermittlung von Verbesserungsbereichen und die strategische Übereinstimmung mit Markttrends. Simu

Was sind Count und Counta in Excel? - Analytics VidhyaWas sind Count und Counta in Excel? - Analytics VidhyaApr 17, 2025 am 11:34 AM

Excel -Datenzählung und -analyse: Detaillierte Erläuterung von Count- und Counta -Funktionen Eine genaue Datenzählung und -analyse sind in Excel kritisch, insbesondere bei der Arbeit mit großen Datensätzen. Excel bietet eine Vielzahl von Funktionen, um dies zu erreichen. Die Funktionen von Count- und Counta sind wichtige Instrumente zum Zählen der Anzahl der Zellen unter verschiedenen Bedingungen. Obwohl beide Funktionen zum Zählen von Zellen verwendet werden, sind ihre Designziele auf verschiedene Datentypen ausgerichtet. Lassen Sie uns mit den spezifischen Details der Count- und Counta -Funktionen ausgrenzen, ihre einzigartigen Merkmale und Unterschiede hervorheben und lernen, wie Sie sie in der Datenanalyse anwenden. Überblick über die wichtigsten Punkte Graf und Cou verstehen

Chrome ist hier mit KI: Tag zu erleben, täglich etwas Neues !!Chrome ist hier mit KI: Tag zu erleben, täglich etwas Neues !!Apr 17, 2025 am 11:29 AM

Die KI -Revolution von Google Chrome: Eine personalisierte und effiziente Browsing -Erfahrung Künstliche Intelligenz (KI) verändert schnell unser tägliches Leben, und Google Chrome leitet die Anklage in der Web -Browsing -Arena. Dieser Artikel untersucht die Exciti

Die menschliche Seite von Ai: Wohlbefinden und VierfacheDie menschliche Seite von Ai: Wohlbefinden und VierfacheApr 17, 2025 am 11:28 AM

Impacting Impact: Das vierfache Endergebnis Zu lange wurde das Gespräch von einer engen Sicht auf die Auswirkungen der KI dominiert, die sich hauptsächlich auf das Gewinn des Gewinns konzentrierte. Ein ganzheitlicherer Ansatz erkennt jedoch die Vernetzung von BU an

5 verwendende Anwendungsfälle für Quantum Computing, über die Sie wissen sollten5 verwendende Anwendungsfälle für Quantum Computing, über die Sie wissen solltenApr 17, 2025 am 11:24 AM

Die Dinge bewegen sich stetig zu diesem Punkt. Die Investition, die in Quantendienstleister und Startups einfließt, zeigt, dass die Industrie ihre Bedeutung versteht. Und eine wachsende Anzahl realer Anwendungsfälle entsteht, um seinen Wert zu demonstrieren

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Chat -Befehle und wie man sie benutzt
1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

EditPlus chinesische Crack-Version

EditPlus chinesische Crack-Version

Geringe Größe, Syntaxhervorhebung, unterstützt keine Code-Eingabeaufforderungsfunktion

WebStorm-Mac-Version

WebStorm-Mac-Version

Nützliche JavaScript-Entwicklungstools

Sicherer Prüfungsbrowser

Sicherer Prüfungsbrowser

Safe Exam Browser ist eine sichere Browserumgebung für die sichere Teilnahme an Online-Prüfungen. Diese Software verwandelt jeden Computer in einen sicheren Arbeitsplatz. Es kontrolliert den Zugriff auf alle Dienstprogramme und verhindert, dass Schüler nicht autorisierte Ressourcen nutzen.

SublimeText3 Englische Version

SublimeText3 Englische Version

Empfohlen: Win-Version, unterstützt Code-Eingabeaufforderungen!

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung