Rumah >Peranti teknologi >AI >ICLR 2024 Spotlight |. Perlombongan label negatif memudahkan tugas pengesanan luar pengedaran berasaskan CLIP

ICLR 2024 Spotlight |. Perlombongan label negatif memudahkan tugas pengesanan luar pengedaran berasaskan CLIP

PHPzke hadapan: 2024-05-06 18:04:241209semak imbas

Memandangkan model pembelajaran mesin semakin digunakan dalam senario dunia terbuka, cara mengenal pasti dan memproses data luar pengedaran (OOD) dengan berkesan telah menjadi bidang penyelidikan yang penting. Kehadiran data luar pengedaran boleh menyebabkan model terlalu yakin dan ramalan yang salah, yang amat berbahaya dalam aplikasi kritikal keselamatan seperti pemanduan autonomi dan diagnostik perubatan. Oleh itu, membangunkan mekanisme pengesanan OOD yang berkesan adalah penting untuk meningkatkan keselamatan dan kebolehpercayaan model dalam aplikasi praktikal.

Kaedah pengesanan OOD tradisional tertumpu terutamanya pada satu corak, terutamanya data imej, sambil mengabaikan sumber maklumat lain yang berpotensi berguna, seperti data teks. Dengan peningkatan model bahasa visual (VLM), mereka telah menunjukkan prestasi yang kukuh dalam senario pembelajaran pelbagai mod, terutamanya dalam tugasan yang memerlukan pemahaman serentak tentang imej dan huraian teks yang berkaitan. Kaedah pengesanan OOD sedia ada berdasarkan VLM [3, 4, 5] hanya menggunakan maklumat semantik teg ID, mengabaikan keupayaan sampel sifar yang berkuasa bagi model VLM dan ruang semantik yang sangat luas yang boleh ditafsirkan oleh VLM. Berdasarkan ini, kami percaya bahawa VLM mempunyai potensi besar yang belum diterokai dalam pengesanan OOD, terutamanya bahawa mereka boleh menggunakan maklumat imej dan teks secara menyeluruh untuk meningkatkan hasil pengesanan.

Artikel ini berkisar tentang tiga soalan:

1 Adakah maklumat tag bukan ID berguna untuk pengesanan OOD sifar?

2. Bagaimana untuk melombong maklumat yang bermanfaat untuk pengesanan OOD sampel sifar?

3. Bagaimana untuk menggunakan maklumat yang dilombong untuk pengesanan OOD sampel sifar?

Dalam projek ini, kami mencadangkan pendekatan inovatif yang dipanggil NegLabel yang menggunakan VLM untuk pengesanan OOD. Kaedah NegLabel secara khusus memperkenalkan mekanisme "label negatif" ini mempunyai perbezaan semantik yang ketara dengan label kategori ID yang diketahui Dengan menganalisis dan membandingkan pertalian dan sifat imej dan label ID dan label negatif, NegLabel boleh membezakan pengedaran kepunyaan dengan berkesan. sampel di luar model, dengan itu meningkatkan keupayaan model untuk mengenal pasti sampel OOD dengan ketara.

NegLabel telah mencapai prestasi unggul dalam berbilang tanda aras pengesanan OOD tangkapan sifar. Ia boleh mencapai 94.21% AUROC dan 25.40% FPR95 pada set data berskala besar seperti ImageNet-1k. Berbanding dengan kaedah pengesanan OOD berdasarkan VLM, NegLabel bukan sahaja tidak memerlukan proses latihan tambahan, tetapi juga menunjukkan prestasi unggul. Di samping itu, NegLabel menunjukkan fleksibiliti dan keteguhan yang sangat baik pada seni bina VLM yang berbeza.