Rumah  >  Artikel  >  Peranti teknologi  >  ICML 2024|. Model bahasa besar membantu tugas pengesanan luar pengedaran berasaskan CLIP

ICML 2024|. Model bahasa besar membantu tugas pengesanan luar pengedaran berasaskan CLIP

王林
王林asal
2024-07-01 23:29:18468semak imbas

Apabila pengedaran set data latihan dan set data ujian adalah sama, model pembelajaran mesin boleh menunjukkan prestasi unggul. Walau bagaimanapun, dalam persekitaran dunia terbuka, model sering menghadapi sampel OOD di luar pengedaran boleh menyebabkan model berkelakuan dalam cara yang tidak dapat diramalkan, dan akibat ralat mungkin membawa maut, terutamanya dalam senario berisiko tinggi seperti. sebagai pemanduan autonomi [1, 2]. Oleh itu, pengesanan OOD adalah penting untuk memastikan kebolehpercayaan model pembelajaran mesin dalam penggunaan sebenar.

Kebanyakan kaedah pengesanan OOD [1, 3] boleh mengesan sampel OOD secara berkesan berdasarkan pengelas In-Distribution (ID) yang terlatih. Walau bagaimanapun, untuk set data ID yang berbeza, mereka perlu melatih semula pengelas untuk pengesanan OOD. Tambahan pula, kaedah ini hanya bergantung pada corak visual dan mengabaikan hubungan antara imej visual dan label teks. Dengan kemunculan model bahasa visual berskala besar (Model Vision-Manguage, VLM, seperti CLIP [4]), pengesanan OOD tangkapan sifar menjadi mungkin [5]. Dengan membina pengelas teks dengan hanya label kategori ID, adalah mungkin untuk mengesan sampel OOD merentas set data ID yang berbeza tanpa melatih semula pengelas.

Walaupun kaedah pengesanan luar pengedaran berasaskan CLIP sedia ada mempamerkan prestasi yang mengagumkan, mereka sering gagal apabila menemui sampel luar pengedaran yang sukar dikesan Kami percaya bahawa kaedah sedia ada hanya bergantung pada label kategori ID Pendekatan untuk membina pengelas teks sebahagian besarnya mengehadkan keupayaan sedia ada CLIP untuk mengenal pasti sampel daripada ruang label terbuka. Seperti yang ditunjukkan dalam Rajah 1 (a), kaedah membina pengelas teks yang hanya bergantung pada label kategori ID adalah sukar untuk membezakan sampel OOD yang sukar dikesan (set data ID: CUB-200-2011, dataset OOD: Tempat).

ICML 2024| 大语言模型助力基于CLIP的分布外检测任务

Rajah 1. Gambarajah skematik motivasi penyelidikan: (a) bina pengelas teks hanya bergantung pada label kategori ID, (b) gunakan label OOD sebenar, (c) gunakan LLM untuk membayangkan potensi pendedahan terpencil

Dalam karya ini , kami mencadangkan kaedah pengesanan luar pengedaran yang dipanggil Envisioning Outlier Exposure (EOE), yang memanfaatkan pengetahuan pakar dan keupayaan inferens model bahasa besar (LLM) untuk membayangkan potensi pendedahan terpencil, dengan itu meningkatkan prestasi pengesanan OOD (ditunjukkan dalam Rajah 1 (c)) tanpa mengakses sebarang data OOD sebenar. Kami mereka bentuk (1) isyarat LLM berdasarkan persamaan visual untuk menjana label kelas terpencil yang berpotensi khusus untuk pengesanan OOD, dan (2) fungsi pemarkahan baharu berdasarkan potensi penalti terpencil untuk membezakan sampel OOD yang sukar dikenal pasti dengan berkesan. Eksperimen menunjukkan bahawa EOE mencapai prestasi unggul dalam tugasan OOD yang berbeza dan boleh menskalakan dengan berkesan kepada dataset ImageNet-1K.

ICML 2024| 大语言模型助力基于CLIP的分布外检测任务

ØPautan kertas: https://arxiv.org/pdf/2406.00806

ØPautan kod: https://github.com/tmlr-group/EOE

Seterusnya kami akan berkongsi secara ringkas hasil penyelidikan dengan anda arah pengesanan luar pengedaran baru-baru ini diterbitkan di ICML 2024.

Pengetahuan awal

ICML 2024| 大语言模型助力基于CLIP的分布外检测任务

Pengenalan kaedah

EOE bertujuan untuk meningkatkan prestasi pengesanan OOD tangkapan sifar dengan memanfaatkan LLM untuk menjana label kategori outlier yang berpotensi. Walau bagaimanapun, memandangkan kategori OOD yang ditemui semasa model digunakan tidak diketahui, maka, bagaimanakah kita harus membimbing LLM untuk menjana label kategori luar yang diperlukan? Selepas mendapat label kelas terpencil, bagaimanakah kita boleh membezakan antara sampel ID dan OOD dengan lebih baik? Untuk menangani isu ini, kami mencadangkan pembayang LLM khusus untuk pengesanan OOD yang direka berdasarkan prinsip persamaan visual dan memperkenalkan fungsi pemarkahan novel untuk membezakan sampel ID/OOD dengan lebih baik. Rangka kerja keseluruhan pendekatan kami ditunjukkan dalam Rajah 2. . kelas "burung" ”), dan terdapat persamaan visual yang wujud antara subkelas (cth., “burung pipit” dan “walet”). Oleh itu, adalah lebih sesuai untuk mengarahkan LLM untuk terus menyediakan subkategori yang berbeza dalam kategori utama yang sama.

Tiga jenis gesaan LLM pengesanan OOD di atas ditunjukkan dalam Rajah 3ICML 2024| 大语言模型助力基于CLIP的分布外检测任务

Rajah 3. Tiga jenis gesaan LLM direka berdasarkan prinsip persamaan visualICML 2024| 大语言模型助力基于CLIP的分布外检测任务

ICML 2024| 大语言模型助力基于CLIP的分布外检测任务

Rajah 4. pseudokod EOE

Kelebihan kaedah kami diringkaskan seperti berikut:

EOE tidak bergantung pada pengetahuan terdahulu data OOD yang tidak diketahui, jadi ia amat sesuai untuk senario dunia terbuka.

Sampel sifar: Model pra-latihan yang sama boleh digunakan dengan berkesan pada pelbagai set data ID khusus tugas tanpa perlu melatih setiap set data ID tertentu secara berasingan. EOE mencapai prestasi pengesanan OOD yang unggul dengan mengetahui hanya tag kelas ID.

Skalabilitas dan serba boleh: Berbanding dengan kaedah pengesanan OOD sifar tangkapan sedia ada [6] yang turut menjana label kelas OOD terpendam, EOE boleh digunakan dengan mudah pada set data berskala besar seperti ImageNet-1K. Tambahan pula, EOE menunjukkan kepelbagaian dalam tugas yang berbeza, termasuk pengesanan Far, Near dan Fine-grainedOOD.

Hasil eksperimen

Kami menjalankan eksperimen pada berbilang set data tugas OOD yang berbeza. Jadual 1 menunjukkan hasil percubaan pengesanan Far OOD pada ImageNet-1K, dengan Ground Truth mewakili prestasi apabila menggunakan label OOD sebenar, yang tidak tersedia dalam penggunaan sebenar. Keputusan menunjukkan bahawa EOE adalah setanding dengan kaedah penalaan halus dan mengatasi MCM [5].

Jadual 1. Keputusan percubaan OOD Jauh

ICML 2024| 大语言模型助力基于CLIP的分布外检测任务

Kami juga melaporkan hasil percubaan pada tugas OOD Berhampiran dan OOD Berbutir Halus Seperti yang ditunjukkan dalam Jadual 2 dan Jadual 3, kedua-duanya mencapai prestasi pengesanan yang terbaik.

Jadual 2. Berhampiran keputusan percubaan OOD

ICML 2024| 大语言模型助力基于CLIP的分布外检测任务

Jadual 3. Keputusan percubaan OOD berbutir halus

ICML 2024| 大语言模型助力基于CLIP的分布外检测任务

Kami menjalankan eksperimen ablasi pada setiap model LLM dan fungsi gesaan: termasuk LLM yang berbeza fungsi pemarkahan bilangan label kelas OOD yang berpotensi dengan panjang yang berbeza. Eksperimen menunjukkan bahawa fungsi pemarkahan yang kami reka dan gesaan LLM direka berdasarkan prinsip persamaan visual mencapai prestasi optimum, dan kaedah kami mencapai prestasi cemerlang pada LLM yang berbeza dan bilangan label kelas OOD yang berpotensi dengan panjang yang berbeza. Pada masa yang sama, kami juga menjalankan eksperimen ablasi pada struktur model bahasa visual Sila rujuk artikel asal untuk mendapatkan keputusan eksperimen yang terperinci. . EOE ,Sebenarnya, label kelas anomali yang dijana tidak mungkin mempunyai kebarangkalian tinggi untuk mencapai kelas OOD sebenar. Ini kerana data OOD yang ditemui dalam penggunaan sebenar model adalah pelbagai dan tidak dapat diramalkan. Walau bagaimanapun, berpandukan peraturan persamaan visual, walaupun kelas OOD sebenar tidak terkena, label kelas abnormal yang berpotensi yang dijana oleh EOE masih boleh meningkatkan prestasi model dalam pengesanan OOD.

Untuk menggambarkan hujah di atas, kami menunjukkan visualisasi yang diperoleh daripada output softmax skor padanan label melalui T-SNE. Hasil visualisasi antara EOE kami dan kaedah perbandingan MCM ditunjukkan dalam Rajah 6. Berdasarkan label kelas ID ImageNet-10, LLM menjana kemungkinan label anomali "kapal selam" berdasarkan peraturan persamaan visual. Apabila menemui kelas OOD "lokomotif stim" (kelas dalam ImageNet-20), "lokomotif stim" mempunyai persamaan tertinggi dengan "kapal selam" dalam dan . Oleh itu, EOE akan mengelompokkannya sebagai "kapal selam" dan dengan itu mengesannya sebagai kelas OOD. Walau bagaimanapun, jika tiada label kelas terpencil yang berpotensi, kita dapati MCM cenderung untuk mengumpulkan semua label kelas OOD bersama-sama. Ini boleh mengakibatkan pengecaman sampel OOD yang sukar dikenal pasti sebagai kelas ID. Ringkasnya, dalam rangka kerja EOE kami, 1) sampel OOD yang tergolong dalam kelas yang sama cenderung dikelompokkan bersama, 2) sampel dari kumpulan yang sama diklasifikasikan ke dalam kelas terpencil yang diandaikan ("Steam") yang mana ia secara visual serupa ” ICML 2024| 大语言模型助力基于CLIP的分布外检测任务vs

“kapal selam”). Pemerhatian ini mencadangkan bahawa EOE kami boleh meningkatkan pengesanan OOD tanpa menyentuh kategori OOD sebenar dan juga secara semantik lebih mudah untuk ditafsirkan. Kami berharap kerja ini dapat memberikan idea baharu untuk penyelidikan masa hadapan dalam bidang pengesanan OOD.

ICML 2024| 大语言模型助力基于CLIP的分布外检测任务

Rajah 6. Hasil visualisasi

Rujukan

[1] Hendrycks, D. dan Gimpel, K. Garis asas untuk mengesan contoh salah klasifikasi dan di luar pengedaran dalam rangkaian saraf

[2] Yang, J., Zhou, K., Li, Y., dan Liu, Z. Pengesanan luar pengedaran umum: Tinjauan pracetak arXiv arXiv:2110.11334, 2021.

[3] Liu. , W., Wang, X., Owens, J., dan Li, Y. Pengesanan luar pengedaran berasaskan tenaga Dalam NeurIPS, 2020.

[4] Radford, A., Kim, J. W., Hallacy. , C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., et al Mempelajari model visual yang boleh dipindahkan daripada penyeliaan bahasa semula jadi . Dalam ICML, 2021.

[5] Ming, Y., Cai, Z., Gu, J., Sun, Y., Li, W., dan Li, Y. Menyelidiki pengesanan luar pengedaran dengan perwakilan bahasa penglihatan Dalam NeurIPS, 2022.

[6] Esmaeilpour, S., Liu, B., Robertson, E., dan Shu, L. Zeroshot pengesanan luar pengedaran berdasarkan klip model pra-latihan . Dalam AAAI, 2022.

Pengenalan kepada kumpulan penyelidik

Kumpulan Penyelidikan Pembelajaran Mesin dan Penaakulan yang Boleh Dipercayai (Kumpulan TMLR) Universiti Baptist Hong Kong terdiri daripada beberapa profesor muda, penyelidik pasca doktoral, pelajar doktor falsafah pelajar dan Ia terdiri daripada pembantu penyelidik, dan pasukan penyelidik bergabung dengan Jabatan Sains Komputer, Pusat Pengajian Sains. Kumpulan penyelidikan pakar dalam pembelajaran perwakilan boleh dipercayai, pembelajaran boleh dipercayai berdasarkan penaakulan sebab, model asas yang boleh dipercayai dan algoritma lain yang berkaitan, teori dan reka bentuk sistem, serta aplikasi dalam sains semula jadi Arah penyelidikan khusus dan hasil yang berkaitan boleh didapati pada kumpulan Github (https://github.com/tmlr-group). Pasukan penyelidikan dibiayai oleh dana penyelidikan kerajaan dan dana penyelidikan industri, seperti Hong Kong Research Grants Council Outstanding Young Scholars Program, National Natural Science Foundation of China projek am dan projek belia, serta dana penyelidikan saintifik daripada Microsoft, NVIDIA, Baidu, Alibaba, Tencent dan syarikat lain. Profesor muda dan penyelidik kanan bekerjasama, dan sumber pengkomputeran GPU adalah mencukupi. Ia mempunyai pengambilan jangka panjang ramai penyelidik pasca doktoral, pelajar kedoktoran, pembantu penyelidik dan pelatih penyelidikan. Selain itu, kumpulan kami juga mengalu-alukan permohonan daripada felo pasca doktoral lawatan yang dibiayai sendiri, pelajar kedoktoran dan pembantu penyelidik untuk sekurang-kurangnya 3-6 bulan, dan akses jauh disokong. Pelajar yang berminat sila hantar resume dan pelan penyelidikan awal anda ke alamat e-mel (bhanml@comp.hkbu.edu.hk).

Atas ialah kandungan terperinci ICML 2024|. Model bahasa besar membantu tugas pengesanan luar pengedaran berasaskan CLIP. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn