Heim >Technologie-Peripheriegeräte >KI >ICLR 2024 Spotlight |. Negative Label Mining erleichtert CLIP-basierte Aufgaben zur Erkennung von Out-of-Distribution

ICLR 2024 Spotlight |. Negative Label Mining erleichtert CLIP-basierte Aufgaben zur Erkennung von Out-of-Distribution

PHPznach vorne: 2024-05-06 18:04:241212Durchsuche

Da maschinelle Lernmodelle zunehmend in Open-World-Szenarien eingesetzt werden, ist die effektive Identifizierung und Verarbeitung von Out-of-Distribution-Daten (OOD) zu einem wichtigen Forschungsgebiet geworden. Das Vorhandensein von Daten außerhalb der Verteilung kann zu übermäßigem Vertrauen in das Modell und falschen Vorhersagen führen, was besonders bei sicherheitskritischen Anwendungen wie autonomem Fahren und medizinischer Diagnostik gefährlich ist. Daher ist die Entwicklung eines wirksamen OOD-Erkennungsmechanismus von entscheidender Bedeutung für die Verbesserung der Sicherheit und Zuverlässigkeit des Modells in praktischen Anwendungen.

Traditionelle OOD-Erkennungsmethoden konzentrieren sich hauptsächlich auf ein einzelnes Muster, insbesondere Bilddaten, während andere potenziell nützliche Informationsquellen, wie z. B. Textdaten, ignoriert werden. Mit dem Aufkommen von Visual-Language-Modellen (VLMs) haben sie eine starke Leistung in multimodalen Lernszenarien gezeigt, insbesondere bei Aufgaben, die das gleichzeitige Verständnis von Bildern und zugehörigen Textbeschreibungen erfordern. Bestehende auf VLMs basierende OOD-Erkennungsmethoden [3, 4, 5] nutzen nur die semantischen Informationen von ID-Tags und ignorieren dabei die leistungsstarke Null-Sample-Fähigkeit des VLMs-Modells und den sehr breiten semantischen Raum, den VLMs erklären können. Auf dieser Grundlage glauben wir, dass VLMs ein großes ungenutztes Potenzial bei der OOD-Erkennung haben, insbesondere, dass sie Bild- und Textinformationen umfassend nutzen können, um die Erkennungsergebnisse zu verbessern.

Dieser Artikel dreht sich um drei Fragen:

1 Sind die Informationen von Nicht-ID-Tags hilfreich für die Zero-Shot-OOD-Erkennung?

2. Wie kann man Informationen gewinnen, die für die OOD-Erkennung bei Nullproben nützlich sind?

3. Wie nutzt man die gewonnenen Informationen für die OOD-Erkennung bei Nullproben?

In diesem Projekt schlagen wir einen innovativen Ansatz namens NegLabel vor, der VLMs zur OOD-Erkennung nutzt. Die NegLabel-Methode führt speziell einen „negativen Label“-Mechanismus ein. Diese negativen Labels weisen erhebliche semantische Unterschiede zu bekannten ID-Kategorie-Labels auf. Durch die Analyse und den Vergleich der Affinität und Art von Bildern und ID-Labels und negativen Labels kann NegLabel effektiv zwischen Verteilungen unterscheiden, die dazu gehören Proben außerhalb des Modells, wodurch die Fähigkeit des Modells zur Identifizierung von OOD-Proben erheblich verbessert wird.

NegLabel hat in mehreren Zero-Shot-OOD-Erkennungs-Benchmarks eine überragende Leistung erzielt. Bei großen Datensätzen wie ImageNet-1k können 94,21 % AUROC und 25,40 % FPR95 erreicht werden. Im Vergleich zu auf VLMs basierenden OOD-Erkennungsmethoden erfordert NegLabel nicht nur keine zusätzlichen Trainingsprozesse, sondern weist auch eine überlegene Leistung auf. Darüber hinaus zeigt NegLabel eine hervorragende Vielseitigkeit und Robustheit auf verschiedenen VLM-Architekturen.