SAM (Segmen Anything), sebagai model segmentasi visual asas, telah menarik perhatian dan susulan ramai penyelidik dalam masa 3 bulan sahaja. Jika anda ingin memahami secara sistematik teknologi di sebalik SAM, bersaing dengan rentak involusi, dan boleh membuat model SAM anda sendiri, maka Tinjauan Segmentasi Berasaskan Transformer ini tidak boleh dilepaskan! Baru-baru ini, beberapa penyelidik dari Universiti Teknologi Nanyang dan Makmal Kepintaran Buatan Shanghai telah menulis ulasan tentang Segmentasi Berasaskan Transformer, secara sistematik menyemak model segmentasi dan pengesanan berdasarkan Transformer dalam beberapa tahun kebelakangan ini Model terbaharu yang disiasat adalah sehingga Jun tahun ini! Pada masa yang sama, semakan itu juga termasuk kertas kerja terkini dalam bidang berkaitan dan sejumlah besar analisis dan perbandingan eksperimen, dan mendedahkan beberapa hala tuju penyelidikan masa depan dengan prospek yang luas!
Segmentasi visual direka bentuk untuk memisahkan imej, bingkai video atau titik awan kepada berbilang segmen atau kumpulan. Teknologi ini mempunyai banyak aplikasi dunia nyata, seperti pemanduan autonomi, penyuntingan imej, persepsi robot dan analisis perubatan. Sepanjang dekad yang lalu, kaedah berasaskan pembelajaran mendalam telah mencapai kemajuan yang ketara dalam bidang ini. Baru-baru ini, Transformer telah menjadi rangkaian saraf berdasarkan mekanisme perhatian kendiri, pada asalnya direka untuk pemprosesan bahasa semula jadi, yang dengan ketara mengatasi kaedah konvolusi atau berulang sebelumnya dalam pelbagai tugas pemprosesan visual. Khususnya, Vision Transformer menyediakan penyelesaian yang berkuasa, bersatu dan lebih mudah untuk pelbagai tugasan segmentasi. Tinjauan ini memberikan gambaran menyeluruh tentang segmentasi visual berasaskan Transformer, meringkaskan kemajuan terkini. Pertama, kertas ini
menyemak latar belakang, termasuk definisi masalah, set data dan kaedah lilitan sebelumnya. Seterusnya, kertas kerja ini meringkaskan meta-architecture yang menyatukan semua kaedah berasaskan Transformer terkini. Berdasarkan meta-architecture ini, artikel ini mengkaji pelbagai reka bentuk kaedah, termasuk pengubahsuaian kepada meta-architecture ini dan aplikasi yang berkaitan. Selain itu, artikel ini juga memperkenalkan beberapa tetapan berkaitan, termasuk segmentasi awan titik 3D, penalaan model asas, segmentasi adaptif domain, segmentasi cekap dan segmentasi perubatan. Tambahan pula, kertas kerja ini menyusun dan menilai semula kaedah ini pada beberapa set data yang diiktiraf secara meluas. Akhir sekali, kertas kerja mengenal pasti cabaran terbuka dalam bidang ini dan mencadangkan arah untuk penyelidikan masa depan. Artikel ini akan meneruskan dan menjejak kaedah segmentasi dan pengesanan berasaskan Transformer terkini.
Gambar
Alamat projek: https://github.com/lxtGH/Awesome-Segmentation-With-Transformer
Alamat kertas: https://arxi98v.pdf
Motivasi penyelidikan
Kemunculan ViT dan DETR telah mencapai kemajuan penuh dalam bidang segmentasi dan pengesanan Pada masa ini, kaedah kedudukan teratas pada hampir setiap tanda aras set data adalah berdasarkan Transformer. Atas sebab ini, adalah perlu untuk merumuskan secara sistematik dan membandingkan kaedah dan ciri teknikal arah ini.
-
Seni bina model besar terkini semuanya berdasarkan struktur Transformer, termasuk model berbilang mod dan model asas segmentasi (SAM), dan pelbagai tugas visual semakin hampir kepada pemodelan model bersatu.
-
Segmentasi dan pengesanan telah menghasilkan banyak tugas hiliran yang berkaitan, dan kebanyakan tugas ini juga diselesaikan menggunakan struktur Transformer.
Ciri Semakan
Sistematik dan boleh dibaca. - Artikel ini menyemak secara sistematik setiap definisi tugas bagi pembahagian, serta definisi tugas dan penunjuk penilaian yang berkaitan. Dan artikel ini bermula daripada kaedah konvolusi dan meringkaskan seni bina meta berdasarkan ViT dan DETR. Berdasarkan meta-architecture ini, ulasan ini meringkaskan dan meringkaskan kaedah yang berkaitan, dan secara sistematik menyemak kaedah terkini. Laluan semakan teknikal khusus ditunjukkan dalam Rajah 1.
Klasifikasi terperinci dari perspektif teknikal. -
Berbanding dengan ulasan Transformer sebelumnya, klasifikasi kaedah artikel ini akan lebih terperinci. Artikel ini menghimpunkan kertas kerja dengan idea yang serupa dan membandingkan persamaan dan perbezaannya. Sebagai contoh, artikel ini akan mengklasifikasikan kaedah yang secara serentak mengubah suai bahagian penyahkod meta-seni bina kepada Perhatian Silang berasaskan imej dan pemodelan Perhatian Silang spatio-temporal berasaskan video.
Kekomprehensif soalan kajian. -
Artikel ini akan menyemak semua arah pembahagian secara sistematik, termasuk tugasan pembahagian imej, video dan awan titik. Pada masa yang sama, artikel ini juga akan menyemak arah yang berkaitan seperti model segmentasi dan pengesanan set terbuka, segmentasi tanpa pengawasan dan segmentasi yang diselia dengan lemah.
Gambar
Rajah 1. Pelan hala kandungan tinjauan
Figure 2. Ringkasan set data yang biasa digunakan dan tugas segmentasi
Segmentasi dan kaedah pengesanan berasaskan Ringkasan Ringkasan dan perbandingan
- Seni Bina)
Artikel ini mula-mula meringkaskan seni bina meta berdasarkan rangka kerja DETR dan MaskFormer. Model ini termasuk modul berbeza berikut:
-
Tulang belakang: Pengekstrak ciri, digunakan untuk mengekstrak ciri imej.
-
Leher: Bina ciri berbilang skala untuk mengendalikan objek berbilang skala.
-
Pertanyaan Objek: Objek pertanyaan, digunakan untuk mewakili setiap entiti dalam pemandangan, termasuk objek latar depan dan objek latar belakang.
-
Penyahkod: penyahkod, digunakan untuk mengoptimumkan Pertanyaan Objek secara beransur-ansur dan ciri yang sepadan.
-
Latihan Hujung-ke-Hujung: Reka bentuk berdasarkan Pertanyaan Objek boleh mencapai pengoptimuman hujung ke hujung.
Berdasarkan meta-architecture ini, kaedah sedia ada boleh dibahagikan kepada lima arah berbeza berikut untuk pengoptimuman dan pelarasan mengikut tugasan Seperti yang ditunjukkan dalam Rajah 4, setiap arah mengandungi beberapa sub-arah yang berbeza.
Rajah 4. Ringkasan dan perbandingan kaedah Segmentasi Berasaskan Transformer
-
Pembelajaran ekspresi ciri yang lebih baik, Pembelajaran Perwakilan. Perwakilan ciri visual yang berkuasa sentiasa membawa kepada hasil pembahagian yang lebih baik. Artikel ini membahagikan kerja berkaitan kepada tiga aspek: reka bentuk Transformer visual yang lebih baik, CNN/Transformer/MLP hibrid dan pembelajaran diselia sendiri.
-
Reka bentuk kaedah di bahagian penyahkod, Reka Bentuk Interaksi dalam Dekoder. Bab ini mengkaji reka bentuk penyahkod Transformer baharu. Kertas kerja ini membahagikan reka bentuk penyahkod kepada dua kumpulan: satu untuk menambah baik reka bentuk perhatian silang dalam pembahagian imej, dan satu lagi untuk reka bentuk perhatian silang spasio-temporal dalam pembahagian video. Yang pertama memberi tumpuan kepada mereka bentuk penyahkod yang lebih baik yang menambah baik pada yang dalam DETR asal. Yang terakhir memanjangkan pengesan dan penyegmen objek berasaskan objek pertanyaan kepada domain video untuk pengesanan objek video (VOD), pembahagian contoh video (VIS) dan pembahagian piksel video (VPS), memfokuskan pada pemodelan konsistensi dan korelasi temporal.
-
Cuba untuk Mengoptimumkan Pertanyaan Objek dari perspektif pengoptimuman objek pertanyaan. Berbanding dengan Faster-RCNN, DETR mempunyai jadual penumpuan yang lebih panjang. Disebabkan oleh peranan utama objek pertanyaan, beberapa kaedah sedia ada telah dikaji untuk mempercepatkan latihan dan meningkatkan prestasi. Mengikut kaedah pertanyaan objek, kertas ini membahagikan literatur berikut kepada dua aspek: menambah maklumat lokasi dan menggunakan penyeliaan tambahan. Maklumat lokasi menyediakan petunjuk untuk persampelan latihan pantas ciri pertanyaan. Penyeliaan tambahan memberi tumpuan kepada mereka bentuk fungsi kerugian khusus sebagai tambahan kepada fungsi kehilangan lalai DETR.
-
Gunakan objek pertanyaan untuk mengaitkan ciri dan kejadian, Menggunakan Pertanyaan Untuk Persatuan. Memanfaat daripada kesederhanaan objek pertanyaan, beberapa kajian terkini telah menggunakannya sebagai alat korelasi untuk menyelesaikan tugasan hiliran. Terdapat dua kegunaan utama: satu ialah perkaitan peringkat contoh, dan satu lagi ialah perkaitan peringkat tugas. Yang pertama menggunakan idea diskriminasi contoh untuk menyelesaikan masalah padanan peringkat contoh dalam video, seperti pembahagian dan penjejakan video. Yang terakhir menggunakan objek pertanyaan untuk merapatkan subtugas yang berbeza untuk mencapai pembelajaran berbilang tugas yang cekap.
-
Penjanaan objek pertanyaan bersyarat pelbagai mod, Penjanaan Pertanyaan Bersyarat. Bab ini tertumpu terutamanya pada tugas pembahagian pelbagai mod. Objek pertanyaan pertanyaan bersyarat digunakan terutamanya untuk mengendalikan tugas pemadanan ciri silang modal dan imej silang. Bergantung pada keadaan input tugas, kepala penyahkod menggunakan pertanyaan berbeza untuk mendapatkan topeng segmentasi yang sepadan. Mengikut sumber input yang berbeza, kertas kerja ini membahagikan karya ini kepada dua aspek: ciri bahasa dan ciri imej. Kaedah ini adalah berdasarkan strategi menggabungkan objek pertanyaan dengan ciri model yang berbeza, dan telah mencapai hasil yang baik dalam tugasan segmentasi berbilang mod dan segmentasi beberapa syot.
Rajah 5 menunjukkan beberapa perbandingan kerja yang mewakili dalam 5 arah berbeza ini. Untuk butiran kaedah dan perbandingan yang lebih khusus, sila rujuk kandungan kertas tersebut. . 1. Kaedah pembahagian awan titik berasaskan pengubah. 2. Visi dan penalaan model besar berbilang modal. 3. Penyelidikan tentang model segmentasi berkaitan domain, termasuk pembelajaran pemindahan domain dan pembelajaran generalisasi domain. 4. Pembahagian semantik yang cekap: model pembahagian yang tidak diselia dan diselia dengan lemah. 5. Pembahagian dan penjejakan bebas kelas. 6. Pembahagian imej perubatan.
Gambar
Rajah 6. Ringkasan dan perbandingan kaedah berasaskan Transformer dalam bidang penyelidikan berkaitan
Perbandingan hasil eksperimen kaedah berbeza
. Eksperimen penanda aras pada semantik set data segmentasi
Rajah 8. Eksperimen penanda aras set data segmentasi panorama
Artikel ini juga menggunakan keadaan reka bentuk percubaan yang sama secara seragam untuk membandingkan hasil beberapa kerja perwakilan pada berbilang set data pada segmentasi panorama dan segmentasi semantik. Didapati apabila menggunakan strategi latihan dan pengekod yang sama, jurang antara prestasi kaedah akan mengecil.
Selain itu, artikel ini juga membandingkan hasil kaedah segmentasi berasaskan Transformer terkini pada pelbagai set data dan tugasan yang berbeza. (Segmentasi semantik, segmentasi instance, segmentasi panorama dan tugasan segmentasi video yang sepadan)
Arah Masa Depan
Selain itu, artikel ini juga menyediakan analisis beberapa kemungkinan arah penyelidikan masa hadapan. Tiga arah berbeza diberikan di sini sebagai contoh.
- Kemas kiniTambahkan model segmentasi universal dan bersatu. Menggunakan struktur Transformer untuk menyatukan tugas pembahagian yang berbeza adalah satu trend. Penyelidikan terkini menggunakan Transformers berasaskan objek pertanyaan untuk melaksanakan tugas pembahagian yang berbeza di bawah satu seni bina. Satu hala tuju penyelidikan yang mungkin adalah untuk menyatukan tugas pembahagian imej dan video pada pelbagai set data segmentasi melalui satu model. Model umum ini boleh mencapai pembahagian yang serba boleh dan mantap dalam pelbagai senario Contohnya, pengesanan dan pembahagian kategori jarang dalam pelbagai senario membantu robot membuat keputusan yang lebih baik.
-
Model segmentasi digabungkan dengan penaakulan visual. Penaakulan visual memerlukan robot memahami perkaitan antara objek dalam adegan, dan pemahaman ini memainkan peranan penting dalam perancangan gerakan. Penyelidikan terdahulu telah meneroka menggunakan hasil segmentasi sebagai input kepada model penaakulan visual untuk pelbagai aplikasi seperti pengesanan objek dan pemahaman pemandangan. Segmen bersama dan penaakulan visual boleh menjadi arah yang menjanjikan, dengan potensi yang saling menguntungkan untuk kedua-dua segmentasi dan klasifikasi hubungan. Dengan memasukkan penaakulan visual ke dalam proses pembahagian, penyelidik boleh memanfaatkan kuasa penaakulan untuk meningkatkan ketepatan pembahagian, manakala keputusan pembahagian juga boleh memberikan input yang lebih baik untuk penaakulan visual.
-
Penyelidikan tentang model segmentasi pembelajaran berterusan. Kaedah segmentasi sedia ada biasanya ditanda aras pada set data dunia tertutup dengan set kategori yang dipratentukan, iaitu dengan mengandaikan bahawa sampel latihan dan ujian mempunyai kategori dan ruang ciri yang sama yang diketahui lebih awal. Walau bagaimanapun, senario dunia sebenar selalunya bersifat terbuka dan tidak stabil, dan kategori data baharu mungkin sentiasa muncul. Contohnya, dalam kenderaan autonomi dan diagnostik perubatan, situasi yang tidak dijangka mungkin timbul secara tiba-tiba. Terdapat jurang yang jelas antara prestasi dan keupayaan kaedah sedia ada dalam senario dunia sebenar dan dunia tertutup. Oleh itu, diharapkan konsep-konsep baharu dapat diserapkan secara beransur-ansur dan berterusan ke dalam pangkalan pengetahuan sedia ada bagi model segmentasi, supaya model tersebut dapat melibatkan diri dalam pembelajaran sepanjang hayat.
Untuk arah penyelidikan lanjut, sila rujuk kertas asal.
Atas ialah kandungan terperinci NTU dan Shanghai AI Lab menyusun 300+ kertas kerja: ulasan terkini pembahagian visual berdasarkan Transformer dikeluarkan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!