Rumah >Peranti teknologi >AI >Kemas kini OpenOOD v1.5: perpustakaan kod pengesanan luar pengedaran yang komprehensif dan tepat serta platform ujian, menyokong kedudukan dalam talian dan ujian satu klik

Kemas kini OpenOOD v1.5: perpustakaan kod pengesanan luar pengedaran yang komprehensif dan tepat serta platform ujian, menyokong kedudukan dalam talian dan ujian satu klik

PHPz
PHPzke hadapan
2023-07-03 16:41:271066semak imbas

Pengesanan luar pengedaran (OOD) adalah penting untuk pengendalian sistem pintar dunia terbuka yang boleh dipercayai, tetapi kaedah pengesanan berorientasikan objek semasa mengalami masalah "inkonsistensi penilaian".

Kerja sebelumnya OpenOOD v1 menyatukan penilaian pengesanan OOD, tetapi masih mempunyai batasan dalam skala dan kebolehgunaan.

Baru-baru ini, pasukan pembangunan sekali lagi mencadangkan OpenOOD v1.5 Berbanding dengan versi sebelumnya, penilaian kaedah pengesanan OOD baharu telah dipertingkatkan dengan ketara dalam memastikan ketepatan, penyeragaman dan kemesraan pengguna.

Kemas kini OpenOOD v1.5: perpustakaan kod pengesanan luar pengedaran yang komprehensif dan tepat serta platform ujian, menyokong kedudukan dalam talian dan ujian satu klikGambar

Kertas: https://arxiv.org/abs/2306.09301

OpenOOD Codebase: https://github.com/JingkangOD50/Open

ODboard github.io/OpenOOD/

Terutama, OpenOOD v1.5 memperluaskan keupayaan penilaiannya kepada set data berskala besar seperti ImageNet, mengkaji pengesanan OOD spektrum penuh yang penting tetapi belum diterokai, dan memperkenalkan ciri baharu, Termasuk papan pendahulu dalam talian dan mudah -penilai untuk digunakan.

Kerja ini juga menyumbang kepada analisis dan cerapan mendalam daripada hasil eksperimen yang komprehensif, sekali gus memperkaya asas pengetahuan kaedah pengesanan OOD.

Dengan peningkatan ini, OpenOOD v1.5 bertujuan untuk memacu kemajuan penyelidikan OOD dan menyediakan penanda aras penilaian yang lebih berkuasa dan komprehensif untuk penyelidikan pengesanan OOD.

Latar belakang penyelidikan

Untuk pengelas imej yang terlatih, keupayaan utama yang membolehkannya berfungsi dengan pasti di dunia terbuka ialah mengesan sampel di luar pengedaran (OOD) yang tidak diketahui.

Sebagai contoh, kami melatih pengelas kucing dan anjing menggunakan set gambar kucing dan anjing. Untuk sampel dalam pengedaran (ID), iaitu gambar kucing dan anjing di sini, kami sememangnya mengharapkan pengelas untuk mengenal pastinya dengan tepat ke dalam kategori yang sepadan.

Untuk sampel OOD yang tidak diedarkan, iaitu, sebarang gambar selain daripada kucing dan anjing (seperti kapal terbang, buah-buahan, dll.), kami berharap model itu dapat mengesan bahawa ia tidak diketahui dan objek/konsep baru , dan oleh itu tidak boleh Mengklasifikasikan mereka ke dalam mana-mana kategori kucing atau anjing dalam pengedaran.

Masalah ini ialah pengesanan luar pengedaran (pengesanan OOD), yang telah menarik perhatian meluas sejak beberapa tahun kebelakangan ini, dan kerja baharu muncul satu demi satu. Walau bagaimanapun, ketika bidang itu berkembang pesat, ia menjadi sukar untuk menjejak dan mengukur status pembangunan bidang itu kerana pelbagai sebab.

Punca 1: Set data OOD ujian tidak konsisten.

Perkembangan pesat pelbagai tugas pembelajaran mendalam tidak dapat dipisahkan daripada set data ujian bersatu (sama seperti CIFAR, ImageNet untuk klasifikasi imej, PASCAL VOC, COCO untuk pengesanan objek).

Namun, malangnya, bidang pengesanan OOD sentiasa kekurangan set data OOD yang bersatu dan diterima pakai secara meluas. Ini menghasilkan rajah di atas Apabila kita melihat kembali tetapan eksperimen kerja sedia ada, kita akan mendapati bahawa data OOD yang digunakan adalah sangat tidak konsisten (contohnya, untuk CIFAR-10, iaitu data ID, sesetengah kerja menggunakan MNIST dan SVHN. sebagai OOD , sesetengah kerja menggunakan CIFAR-100, Tiny ImageNet sebagai OOD). Dalam keadaan sedemikian, perbandingan langsung dan saksama bagi semua kaedah menghadapi kesukaran yang ketara.

Sebab 2: Istilah yang mengelirukan.

Selain pengesanan OOD, istilah lain seperti "Open-Set Recognition (OSR)" dan "Novelty Detection" juga sering muncul dalam literatur.

Mereka pada asasnya menumpukan pada masalah yang sama, dengan hanya sedikit perbezaan dalam butiran beberapa tetapan percubaan. Walau bagaimanapun, terminologi yang berbeza boleh membawa kepada cawangan yang tidak perlu antara kaedah Contohnya, pengesanan OOD dan OSR pernah dianggap sebagai dua tugas bebas, dan terdapat sangat sedikit kaedah antara cawangan yang berbeza (walaupun mereka menyelesaikan masalah yang sama).

Punca 3: Salah operasi.

Dalam banyak karya, penyelidik selalunya menggunakan sampel secara langsung dalam set ujian OOD untuk melaraskan parameter atau juga model kereta api. Operasi sedemikian akan melebihkan keupayaan pengesanan OOD kaedah.

Masalah di atas jelas memudaratkan pembangunan lapangan yang teratur Kami amat memerlukan penanda aras dan platform yang bersatu untuk menguji dan menilai kaedah pengesanan OOD yang sedia ada dan akan datang.

OpenOOD wujud di bawah cabaran sedemikian. Versi pertamanya telah mengambil langkah penting, tetapi ia mempunyai masalah skala kecil dan kebolehgunaan yang perlu diperbaiki.

Oleh itu, dalam versi baharu OpenOOD v1.5, kami telah memperkukuh dan menaik tarafnya lagi, cuba mencipta platform ujian yang komprehensif, tepat dan mudah digunakan untuk majoriti penyelidik.

Ringkasnya, OpenOOD mempunyai ciri dan sumbangan penting berikut:

1.

Pangkalan kod ini memahami dan memodulasi struktur model, prapemprosesan data, pasca pemprosesan, latihan, ujian, dll. untuk memudahkan penggunaan semula dan pembangunan. Pada masa ini, OpenOOD telah melaksanakan hampir 40 kaedah pengesanan OOD terkini untuk tugasan pengelasan imej.

Kemas kini OpenOOD v1.5: perpustakaan kod pengesanan luar pengedaran yang komprehensif dan tepat serta platform ujian, menyokong kedudukan dalam talian dan ujian satu klikGambar

2.

Seperti yang ditunjukkan dalam rajah di atas, dengan hanya beberapa baris kod, penilai OpenOOD boleh memberikan keputusan ujian pengesanan OOD bagi pengelas dan pasca pemproses yang disediakan pada set data ID yang ditentukan.

Data OOD yang sepadan ditentukan dan disediakan secara dalaman oleh penilai, yang memastikan ketekalan dan keadilan ujian. Penilai juga menyokong kedua-dua senario pengesanan OOD standard (pengesanan OOD standard) dan pengesanan OOD spektrum penuh (pengesanan OOD spektrum penuh) (lebih lanjut mengenai perkara ini kemudian).

3.

Menggunakan OpenOOD, kami membandingkan prestasi hampir 40 kaedah pengesanan OOD pada empat set data ID: CIFAR-10, CIFAR-100, ImageNet-200 dan ImageNet-1K, dan menjadikan hasilnya sebagai senarai kedudukan awam. Saya harap ia dapat membantu semua orang memahami kaedah yang paling berkesan dan menjanjikan dalam bidang ini pada bila-bila masa.

4. Penemuan baharu dalam keputusan percubaan.

Berdasarkan keputusan percubaan komprehensif OpenOOD, kami menyediakan banyak penemuan baharu dalam kertas kerja. Sebagai contoh, walaupun nampaknya tiada kaitan dengan pengesanan OOD, penambahan data sebenarnya boleh meningkatkan prestasi pengesanan OOD dengan berkesan, dan penambahbaikan ini adalah ortogon dan pelengkap kepada peningkatan yang dibawa oleh kaedah pengesanan OOD tertentu.

Selain itu, kami mendapati bahawa prestasi kaedah sedia ada dalam pengesanan OOD spektrum penuh tidak memuaskan, yang juga akan menjadi masalah penting untuk diselesaikan dalam bidang masa depan.

Huraian Masalah

Bahagian ini akan menerangkan secara ringkas dan popular matlamat pengesanan OOD standard dan spektrum penuh. Untuk penerangan yang lebih terperinci dan formal, anda dialu-alukan untuk membaca kertas kerja kami.

Kemas kini OpenOOD v1.5: perpustakaan kod pengesanan luar pengedaran yang komprehensif dan tepat serta platform ujian, menyokong kedudukan dalam talian dan ujian satu klikGambar

Mula-mula beberapa latar belakang. Dalam senario pengelasan imej yang kami pertimbangkan, data dalam pengedaran (ID) ditakrifkan oleh tugas pengelasan yang sepadan. Sebagai contoh, untuk klasifikasi CIFAR-10, pengedaran ID sepadan dengan 10 kategori semantiknya.

Konsep OOD dibentuk secara relatif kepada ID: gambar yang sepadan dengan mana-mana kategori semantik selain daripada kategori semantik ID dan berbeza daripada kategori ID ialah imej OOD di luar pengedaran. Pada masa yang sama, kita perlu membincangkan dua jenis anjakan pengedaran berikut.

Anjakan Semantik: Taburan berubah pada tahap semantik dalam, sepadan dengan paksi mendatar rajah di atas. Contohnya, kategori semantik ialah kucing dan anjing semasa latihan, dan kategori semantik ialah kapal terbang dan buah-buahan semasa ujian.

Anjakan Kovariat: perubahan taburan pada peringkat statistik permukaan (sementara semantik kekal tidak berubah), sepadan dengan paksi menegak rajah di atas. Contohnya, semasa latihan, terdapat gambar kucing dan anjing yang bersih dan semula jadi, dan semasa ujian, terdapat gambar kucing dan anjing dengan bunyi tambahan atau imej lukisan tangan.

Dengan latar belakang di atas, digabungkan dengan gambar di atas, anda boleh memahami pengesanan OOD standard dan spektrum penuh dengan mudah.

Standard OOD Detection

Matlamat (1): Melatih pengelas pada pengedaran ID supaya ia boleh mengelaskan data ID dengan tepat. Diandaikan di sini bahawa tiada anjakan kovariat antara data ID ujian dan data ID latihan.

Matlamat (2): Berdasarkan pengelas terlatih, reka kaedah pengesanan OOD supaya ia boleh membezakan ID/OOD daripada mana-mana sampel. Perkara yang sepadan dalam rajah di atas adalah untuk membezakan (a) daripada (c) + (d).

Pengesanan OOD spektrum penuh

Objektif (1): Sama seperti pengesanan OOD standard, tetapi perbezaannya ialah anjakan kovariat diambil kira, iaitu pengelas perlu digunakan tanpa mengira sama ada terdapat anjakan kovariasi dalam imej ID ujian berbanding dengan imej latihan Klasifikasikan dengan tepat ke dalam kategori ID yang sepadan (contohnya, pengelas kucing dan anjing bukan sahaja harus mengklasifikasikan gambar kucing dan anjing "bersih" dengan tepat, tetapi juga harus dapat membuat generalisasi kepada. gambar kucing dan anjing yang bising dan kabur).

Objektif (2): Pertimbangkan juga sampel ID anjakan kovariat, yang perlu dibezakan daripada sampel OOD bersama dengan sampel ID biasa (tiada anjakan kovariat). Sepadan dengan perbezaan antara (a) + (b) dan (c) + (d) dalam rajah di atas.

Mengapa ujian OOD spektrum penuh penting?

Rakan akrab mungkin telah mendapati bahawa sasaran (1) dalam pengesanan OOD spektrum penuh sebenarnya sepadan dengan satu lagi topik penyelidikan yang sangat penting - generalisasi luar pengedaran (pengertian OOD).

Perlu dijelaskan bahawa generalisasi OOD dalam OOD merujuk kepada sampel dengan anjakan kovariat, manakala pengesanan OOD dalam OOD merujuk kepada sampel dengan anjakan semantik.

Kedua-dua jenis anjakan adalah sangat biasa dalam dunia nyata Walau bagaimanapun, generalisasi OOD sedia ada dan pengesanan OOD standard hanya mempertimbangkan salah satu daripadanya dan mengabaikan yang lain.

Sebaliknya, pengesanan OOD spektrum penuh secara semula jadi mengambil kira kedua-dua offset dalam senario yang sama, dengan lebih tepat menggambarkan jangkaan kami tentang prestasi pengelas yang ideal dalam dunia terbuka.

Hasil eksperimen dan penemuan baharu

Dalam versi 1.5, OpenOOD membandingkan hampir 40 kaedah pada 6 set data penanda aras (4 untuk pengesanan OOD standard, 2 untuk pengesanan OOD spektrum penuh) Ujian bersepadu dan komprehensif telah dijalankan.

Kaedah dan set data yang dilaksanakan diterangkan dalam kertas, dan semua orang dialu-alukan untuk menyemaknya. Semua eksperimen juga boleh diterbitkan semula dalam pangkalan kod OpenOOD. Di sini kita membincangkan secara langsung penemuan yang diperoleh daripada hasil perbandingan.

Kemas kini OpenOOD v1.5: perpustakaan kod pengesanan luar pengedaran yang komprehensif dan tepat serta platform ujian, menyokong kedudukan dalam talian dan ujian satu klikGambar

Penemuan 1: Tiada pemenang tunggal.

Dalam jadual di atas, tidak sukar untuk mendapati tiada kaedah yang boleh memberikan prestasi cemerlang secara konsisten pada semua set data penanda aras.

Sebagai contoh, kaedah inferens post-hoc ReAct dan ASH berprestasi baik pada set data besar ImageNet, tetapi tidak mempunyai kelebihan berbanding kaedah lain pada CIFAR.

Sebaliknya, beberapa kaedah latihan yang menambah kekangan dalam latihan, seperti RotPred dan LogitNorm, adalah lebih baik daripada kaedah pasca pemprosesan pada set data kecil, tetapi tidak cemerlang pada ImageNet.

Mencari 2: Pembesaran data membantu.

Seperti yang ditunjukkan dalam jadual di atas, walaupun peningkatan data tidak direka khusus untuk pengesanan OOD, ia boleh meningkatkan prestasi pengesanan OOD dengan berkesan. Apa yang lebih mengejutkan ialah penambahbaikan yang dibawa oleh penambahan data dan penambahbaikan yang dibawa oleh kaedah pasca pemprosesan OOD tertentu menguatkan satu sama lain.

Berikut ialah AugMix sebagai contoh Apabila ia digabungkan dengan pemproses pasca MSP yang paling ringkas, ia mencapai 77.49% dalam kadar pengesanan ImageNet-1K hampir-OOD, yang hanya lebih rendah daripada kehilangan entropi silang tanpa peningkatan data (kors- kehilangan entropi). ) latihan mempunyai kadar pengesanan sebanyak 77.38% iaitu 1.47% lebih tinggi.

Namun, apabila AugMix digabungkan dengan pemproses pasca ASH yang lebih maju, kadar pengesanan sepadan adalah 3.99% lebih tinggi daripada garis dasar entropi silang dan mencapai tahap tertinggi dalam ujian kami iaitu 82.16%. Keputusan sedemikian menunjukkan bahawa gabungan peningkatan data dan pasca pemprosesan mempunyai potensi besar untuk meningkatkan lagi keupayaan pengesanan OOD pada masa hadapan.

Penemuan 3: Pengesanan spektrum penuh menimbulkan cabaran bagi pengesan semasa.

Ia boleh dilihat dengan jelas daripada rajah di atas bahawa apabila adegan bertukar daripada pengesanan OOD standard kepada pengesanan OOD spektrum penuh (iaitu, imej ID anjakan kovariat ditambahkan pada data ID ujian), prestasi kebanyakan kaedah Semua menunjukkan kemerosotan yang ketara (kejatuhan lebih daripada 10% dalam kadar pengesanan).

Ini bermakna kaedah semasa cenderung untuk melabelkan imej ID anjakan kovariat yang semantik sebenar tidak berubah sebagai OOD.

Tingkah laku ini bertentangan dengan persepsi manusia (dan juga sasaran pengesanan OOD spektrum penuh): Katakan pelabel manusia melabelkan gambar kucing dan anjing, dan pada masa ini, dia ditunjukkan kucing yang bising dan kabur dan gambar anjing , dia masih harus menyedari bahawa ia adalah kucing/anjing dan bahawa ia adalah data ID dalam pengedaran dan bukannya data OOD luar pengedaran yang tidak diketahui.

Secara amnya, kaedah semasa tidak dapat menyelesaikan pengesanan OOD spektrum penuh dengan berkesan, dan kami percaya ini akan menjadi isu penting dalam bidang ini pada masa hadapan.

Selain itu, terdapat banyak penemuan yang tidak disenaraikan di sini, seperti penambahan data masih berkesan untuk pengesanan OOD spektrum penuh, dll. Sekali lagi, semua orang dialu-alukan untuk membaca kertas kerja kami.

Outlook

Kami berharap asas kod, penguji, kedudukan, set data penanda aras dan keputusan ujian terperinci OpenOOD dapat menghimpunkan penyelidik dari semua lapisan masyarakat untuk menggalakkan pembangunan bidang tersebut. Saya berharap semua orang menggunakan OpenOOD untuk membangun dan menguji pengesanan OOD.

Kami juga mengalu-alukan sebarang bentuk sumbangan kepada OpenOOD, termasuk tetapi tidak terhad kepada memberikan maklum balas, menambah kaedah terkini pada pangkalan kod dan papan pendahulu OpenOOD, melanjutkan versi OpenOOD akan datang, dsb.

Rujukan: https://arxiv.org/abs/2306.09301

Atas ialah kandungan terperinci Kemas kini OpenOOD v1.5: perpustakaan kod pengesanan luar pengedaran yang komprehensif dan tepat serta platform ujian, menyokong kedudukan dalam talian dan ujian satu klik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam