Rumah >Peranti teknologi >AI >Kenapa kucing? AI yang boleh dijelaskan memahami mekanisme pengecaman CNN dari peringkat semantik
Dalam beberapa tahun kebelakangan ini, CNN telah digemari oleh penyelidik dalam pelbagai bidang seperti penglihatan komputer dan pemprosesan bahasa semula jadi kerana prestasinya yang cemerlang. Walau bagaimanapun, CNN ialah model "kotak hitam", iaitu kandungan pembelajaran dan proses membuat keputusan model sukar untuk diekstrak dan dinyatakan dengan cara yang boleh difahami oleh manusia, yang mengehadkan kredibiliti ramalan dan aplikasi praktikalnya. Oleh itu, kebolehtafsiran CNN telah mendapat perhatian yang lebih dan lebih Penyelidik telah cuba menggunakan visualisasi ciri, diagnosis rangkaian dan pelarasan seni bina rangkaian untuk membantu dalam menerangkan mekanisme pembelajaran CNN, dengan itu menjadikan "kotak hitam" ini lebih mudah untuk manusia untuk memahami, mengesan dan menambah baik proses membuat keputusan mereka.
Baru-baru ini, Pasukan penyelidik dari institusi seperti Universiti Peking, Institut Teknologi Timur, Universiti Sains dan Teknologi Selatan dan Makmal Pengcheng mencadangkan kecerdasan buatan yang boleh ditafsir semantik (semantik Rangka kerja penyelidikan AI yang boleh dijelaskan (S-XAI) menerangkan mekanisme pembelajaran CNN dari peringkat semantik, dan mengambil masalah klasifikasi binari kucing dan anjing sebagai contoh untuk mendedahkan dengan jelas cara model mempelajari kucing dalam pengertian kategori. Konsep "apa itu kucing".
Penyelidikan ini memfokuskan pada ciri biasa yang dipelajari oleh CNN daripada sampel kategori yang sama, dan mengekstrak konsep semantik yang boleh difahami manusia, menyediakan semantik untuk tahap penjelasan CNN . Berdasarkan ini, penyelidikan pertama kali mencadangkan konsep "kebarangkalian semantik " untuk mencirikan kebarangkalian kejadian unsur semantik dalam sampel. Eksperimen menunjukkan bahawa S-XAI boleh berjaya mengekstrak ciri biasa dan konsep semantik surealis yang abstrak tetapi boleh dikenal pasti dalam kedua-dua tugasan binari dan berbilang klasifikasi, dan mempunyai prospek aplikasi yang luas dalam penilaian kredibiliti dan carian sampel semantik.
Kajian itu bertajuk "Tafsiran semantik untuk rangkaian saraf konvolusi: Apa yang menjadikan kucing sebagai kucing dan diterbitkan dalam "Sains Lanjutan" pada 10 Oktober 2022.
Pautan kertas: https://onlinelibrary.wiley.com/doi/10.1002/advs.202204723
Pautan kod: https://github.com/woshixuhao/semantic-explainable-AI
Berbeza daripada penyelidikan visualisasi sampel tunggal sebelumnya, S-XAI boleh mengekstrak dan menggambarkan ciri biasa sampel kumpulan, dengan itu Dapatkan kebolehtafsiran global. Berdasarkan ruang semantik yang diabstrakkan lagi dan kebarangkalian semantik yang dikira, S-XAI secara automatik boleh menjana penjelasan semantik yang boleh difahami manusia untuk logik keputusan CNN dan menilai kredibiliti keputusan dari peringkat semantik.
Seperti yang ditunjukkan dalam Rajah 1, dalam masalah pengelasan kucing dan anjing, untuk gambar kucing yang sama dari tiga sudut, S-XAI secara automatik menjana peta radar kebarangkalian semantik yang sepadan dan Terangkan kenyataan. Walaupun rangkaian saraf semua mengenal pasti gambar-gambar ini sebagai kucing dengan kebarangkalian lebih daripada 90%, S-XAI memberikan lebih banyak maklumat tafsiran daripada kebarangkalian semantik, mencerminkan perbezaan antara gambar-gambar ini. Sebagai contoh, untuk imej hadapan, penjelasan S-XAI ialah "Saya yakin bahawa ia adalah kucing, terutamanya kerana ia mempunyai mata dan hidung yang terang, yang jelas merupakan mata dan hidung kucing. Pada masa yang sama, ia mempunyai kaki seperti hidup, yang agak-agak macam kaki kucing.” Penjelasan ini menunjukkan kredibiliti yang tinggi. Untuk imej dari sudut sisi, penjelasan S-XAI ialah "Ia mungkin kucing, terutamanya kerana ia mempunyai mata, mungkin mata kucing, tetapi kakinya sedikit mengelirukan." kebarangkalian semantik adalah jelas, dan tafsiran S-XAI ialah "Ia mungkin kucing, tetapi saya tidak pasti, untuk gambar anjing, tafsiran S-XAI ialah: "Saya pasti ia adalah kucing." ." Seekor anjing, terutamanya kerana ia mempunyai mata dan hidung yang terang, yang jelas merupakan mata dan hidung anjing, walaupun kakinya agak mengelirukan. 》
Malah, jika The bahagian atas badan anjing ditutup dan hanya kaki yang kelihatan, menyebabkan manusia sukar untuk mengetahui sama ada ia kucing atau anjing. Dapat dilihat bahawa penjelasan semantik yang diberikan oleh S-XAI adalah lebih tepat dan konsisten dengan kognisi manusia, membolehkan manusia lebih memahami logik pengecaman kategori rangkaian saraf dari peringkat semantik.
Rajah 1. Carta radar kebarangkalian semantik dan ayat penjelasan yang dijana secara automatik oleh S-XAI
Pada masa yang sama, S-XAI juga mempunyai prospek aplikasi yang luas dalam carian sampel semantik. Seperti yang ditunjukkan dalam Rajah 2, apabila orang perlu menapis gambar dengan ciri semantik tertentu daripada sejumlah besar gambar, S-XAI menyediakan cara yang cepat dan tepat untuk menapis melalui kebarangkalian semantik. Memandangkan pengiraan kebarangkalian semantik hanya melibatkan operasi hadapan (iaitu, ramalan) rangkaian saraf, prosesnya sangat pantas.
Rajah 2. Contoh carian sampel semantik
Dalam kajian itu, penyelidik juga membuktikan bahawa S-XAI mempunyai skalabiliti yang baik dalam tugasan berbilang klasifikasi. Seperti yang ditunjukkan dalam Rajah 3, mengambil set data Mini-ImageNet (mengandungi 100 kategori haiwan) sebagai contoh, S-XAI masih boleh mengekstrak imej yang boleh dikenal pasti dengan jelas daripada kategori data yang berbeza (seperti burung, ular, ketam, ikan, dsb. ) ciri umum dan ruang semantik, dan menjana penjelasan semantik yang sepadan.
Rajah 3. Prestasi S-XAI dalam tugasan berbilang klasifikasi.
Pada masa ini idea umum untuk meningkatkan kebolehtafsiran model terbahagi terutamanya kepada dua kategori: visualisasi dan campur tangan model. Kaedah visualisasi menggambarkan peta ciri, penapis atau peta haba di dalam CNN untuk memahami ciri yang diberi perhatian oleh rangkaian apabila menghadapi sampel yang diberikan. Had kaedah ini ialah ia hanya boleh mengekstrak ciri individu daripada sampel tunggal untuk mendapatkan kebolehtafsiran setempat, dan tidak dapat membantu orang ramai memahami logik keseluruhan membuat keputusan model apabila menghadapi jenis data yang sama. Kaedah campur tangan model menyepadukan beberapa model sedia ada yang boleh ditafsir (seperti model pokok, dll.) ke dalam seni bina rangkaian saraf untuk meningkatkan kebolehtafsiran model. Walaupun kaedah jenis ini mempunyai kelebihan kebolehtafsiran global, ia selalunya memerlukan latihan semula model, mengakibatkan kos tafsiran yang tinggi, yang tidak kondusif untuk generalisasi dan aplikasi.
Diinspirasikan oleh model kognitif manusia, dalam S-XAI, penyelidik menggunakan strategi penjelasan baharu, untuk menerangkan CNN daripada mekanisme pembelajaran Kategori peringkat semantik (Rajah 4). Secara semula jadi, objek dari jenis yang sama selalunya mempunyai ciri umum tertentu yang serupa, yang membentuk asas penting untuk kognisi kategori. Contohnya, walaupun kucing mempunyai bentuk yang berbeza, mereka semua berkongsi beberapa ciri biasa (seperti misai, hidung dan ciri berkaitan mata), yang membolehkan manusia mengenal pasti mereka dengan cepat sebagai kucing. Dalam eksperimen, penyelidik mendapati bahawa mekanisme pembelajaran kategori CNN adalah serupa dengan manusia.
Rajah 4. Rangka Kerja Penyelidikan Kepintaran Buatan Interpretasi Semantik
Penyelidikan menggunakan teknologi yang dipanggil mampatan sampel berpusat baris (mampatan sampel berpusat baris) untuk mengekstrak sampel daripada kategori yang sama daripada ciri umum yang dipelajari CNN. Berbeza daripada analisis komponen utama tradisional, mampatan sampel tengah baris mengurangkan dimensi peta ciri yang diperoleh dalam CNN daripada sejumlah besar sampel dalam ruang sampel, dengan itu mengekstrak sebilangan kecil komponen utama sebagai ciri biasa yang dipelajari oleh CNN. Untuk menjadikan ciri umum yang diekstrak lebih jelas, sampel menemui gabungan superpiksel yang optimum melalui segmentasi superpiksel dan algoritma genetik untuk mengurangkan gangguan. Ciri biasa yang diekstrak dipaparkan secara visual (Rajah 5).
Rajah 5. Laluan pengekstrakan ciri biasa
Mengambil masalah pengelasan kucing dan anjing pada seni bina rangkaian VGG-19 sebagai contoh, untuk kucing Komponen utama berbeza yang diekstrak daripada data kategori anjing dan anjing ditunjukkan dalam Rajah 6. Ia boleh dilihat dengan jelas daripada rajah bahawa komponen utama yang berbeza mempamerkan ciri yang boleh dikenal pasti pada tahap yang berbeza. Jelas sekali bahawa komponen utama pertama menunjukkan ciri-ciri wajah yang lengkap, komponen utama kedua menunjukkan konsep semantik yang bertaburan, seperti janggut, mata dan hidung, dsb., dan komponen utama ketiga terutamanya menunjukkan ciri-ciri bulu. Perlu dinyatakan bahawa ciri-ciri yang ditunjukkan oleh komponen utama ini adalah ghaib, iaitu, ia tidak tergolong dalam mana-mana sampel, tetapi mencerminkan ciri-ciri umum semua sampel kategori yang sama.
Rajah 6. Hasil visualisasi komponen utama berbeza yang diekstrak daripada data kategori kucing dan anjing masing-masing
Berdasarkan ciri umum yang diekstrak, penyelidik menutup maklumat semantik dalam sampel, membandingkan perubahan dalam komponen utama, dan seterusnya memisahkan konsep semantik campuran untuk mengekstrak vektor semantik yang sepadan dengan setiap konsep semantik dan abstrak ruang semantik. Di sini, penyelidik menggunakan konsep semantik yang difahami manusia seperti mata dan hidung, dan memvisualisasikan ruang semantik abstrak. Selepas berjaya mengekstrak ruang semantik, penyelidik mentakrifkan konsep "kebarangkalian semantik" untuk mencirikan kebarangkalian kejadian unsur semantik dalam sampel, dengan itu menyediakan kaedah analisis kuantitatif untuk penjelasan tahap semantik CNN.
Seperti yang ditunjukkan dalam Rajah 7, konsep semantik yang boleh dikenal pasti dengan jelas (mata cerah, hidung kecil) muncul dalam ruang semantik, yang menunjukkan bahawa ruang semantik berjaya diekstrak daripada CNN keluar, menunjukkan maklumat semantik yang dipelajari oleh CNN daripada data kategori. Pada masa yang sama, penyelidik mendapati bahawa pemahaman CNN tentang semantik agak berbeza daripada "semantik" yang dipelajarinya tidak semestinya "semantik" yang dipersetujui oleh manusia. Mungkin semantik rangkaian saraf lebih cekap. Sebagai contoh, penyelidik mendapati bahawa untuk kucing, CNN sering merawat hidung dan misai kucing sebagai semantik keseluruhan, yang mungkin lebih berkesan. Pada masa yang sama, CNN telah mempelajari beberapa hubungan antara semantik Contohnya, mata dan hidung kucing sering muncul pada masa yang sama Aspek ini memerlukan penyelidikan yang lebih mendalam.
Rajah 7. Vektor semantik yang diekstrak daripada CNN dan ruang semantik visual (atas: ruang mata kucing; bawah: ruang Hidung kucing)
Atas ialah kandungan terperinci Kenapa kucing? AI yang boleh dijelaskan memahami mekanisme pengecaman CNN dari peringkat semantik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!