Rumah > Artikel > Peranti teknologi > Pembelajaran penyeliaan kendiri multimodal: meneroka fungsi objektif, penjajaran data dan seni bina model - mengambil ulasan terbaru Edinburgh sebagai contoh
Pembelajaran pelbagai mod bertujuan untuk memahami dan menganalisis maklumat daripada pelbagai modaliti, dan kemajuan besar telah dicapai dalam mekanisme penyeliaan dalam beberapa tahun kebelakangan ini.
Walau bagaimanapun, pergantungan berat pada data ditambah dengan anotasi manual yang mahal menghalang penskalaan model. Pada masa yang sama, memandangkan ketersediaan data tidak berlabel berskala besar di dunia nyata, pembelajaran penyeliaan kendiri telah menjadi strategi menarik untuk mengurangkan kesesakan pelabelan.
Berdasarkan dua arah ini, pembelajaran multimodal penyeliaan sendiri (SSML) menyediakan kaedah untuk mengeksploitasi penyeliaan daripada data multimodal asal.
Alamat kertas: https ://arxiv.org/abs/2304.01008
Alamat projek: https://github. com/ys-zong/wesome-self-supervised-multimodal-learning
Dalam semakan ini, kami menyediakan semakan menyeluruh tentang keadaan-keadaan- teknik seni untuk SSML , kami mengklasifikasikan sepanjang tiga paksi ortogon: fungsi objektif, penjajaran data dan seni bina model. Paksi ini sepadan dengan ciri-ciri yang wujud kaedah pembelajaran penyeliaan sendiri dan data berbilang modal.
Secara khusus, kami membahagikan objektif latihan ke dalam kategori diskriminasi contoh, pengelompokan dan ramalan topeng. Kami juga membincangkan strategi berpasangan dan penjajaran data input berbilang mod semasa latihan. Akhir sekali, seni bina model disemak, termasuk reka bentuk pengekod, modul gabungan dan penyahkod, yang merupakan komponen penting kaedah SSML.
Menyemak tugasan aplikasi berbilang mod hiliran, melaporkan prestasi khusus model teks imej imej dan model video berbilang modal hiliran, dan juga menyemak SSML algoritma dalam bidang yang berbeza Aplikasi praktikal seperti penjagaan kesihatan, penderiaan jauh dan terjemahan mesin. Akhir sekali, cabaran dan hala tuju masa depan SSML dibincangkan.
Manusia melihat dunia melalui pelbagai deria, termasuk penglihatan, pendengaran, sentuhan dan bau. Kami memperoleh pemahaman menyeluruh tentang persekitaran kami dengan memanfaatkan maklumat pelengkap daripada setiap modaliti. Penyelidikan AI telah tertumpu pada membangunkan ejen pintar yang meniru tingkah laku manusia dan memahami dunia dengan cara yang sama. Untuk tujuan ini, bidang pembelajaran mesin multimodal [1], [2] bertujuan untuk membangunkan model yang mampu memproses dan menyepadukan data daripada pelbagai modaliti yang berbeza. Dalam tahun-tahun kebelakangan ini, pembelajaran multimodal telah mencapai kemajuan yang ketara, membawa kepada satu siri aplikasi dalam pembelajaran visual dan bahasa [3], pemahaman video [4], [5], bioperubatan [6], pemanduan autonomi [7] dan bidang lain. Secara lebih asas, pembelajaran multimodal memajukan masalah asas yang telah lama wujud dalam kecerdasan buatan [8], membawa kita lebih dekat kepada kecerdasan buatan yang lebih umum.
Walau bagaimanapun, algoritma berbilang modal selalunya masih memerlukan anotasi manual yang mahal untuk latihan yang berkesan, yang menghalang pengembangannya. Baru-baru ini, pembelajaran penyeliaan kendiri (SSL) [9], [10] telah mula mengurangkan masalah ini dengan menjana penyeliaan daripada data beranotasi yang sedia ada. Penyeliaan kendiri dalam pembelajaran mod tunggal ditakrifkan dengan jelas dan hanya bergantung pada objektif latihan dan sama ada anotasi manusia digunakan untuk penyeliaan. Namun, dalam konteks pembelajaran multimodal, definisinya lebih bernuansa. Dalam pembelajaran multimodal, satu modaliti sering bertindak sebagai isyarat penyeliaan untuk modaliti yang lain. Dari segi matlamat penskalaan ke atas dengan menghapuskan kesesakan anotasi manual, isu utama dalam menentukan skop penyeliaan diri ialah sama ada gandingan rentas mod diperoleh secara bebas.
Pembelajaran multimodal penyeliaan kendiri (SSML) meningkatkan keupayaan model berbilang mod dengan ketara dengan memanfaatkan data berbilang mod yang tersedia secara percuma dan objektif penyeliaan sendiri. Dalam semakan ini, kami menyemak algoritma SSML dan aplikasinya. Kami menguraikan pelbagai kaedah di sepanjang tiga paksi ortogon: fungsi objektif, penjajaran data dan seni bina model. Paksi ini sepadan dengan ciri algoritma pembelajaran yang diselia sendiri dan pertimbangan khusus yang diperlukan untuk data berbilang mod. Rajah 1 memberikan gambaran keseluruhan taksonomi yang dicadangkan. Berdasarkan pra-tugas, kami membahagikan objektif latihan kepada kategori diskriminasi contoh, pengelompokan dan ramalan topeng. Pendekatan hibrid yang menggabungkan dua atau lebih pendekatan ini juga dibincangkan.
Unik kepada penyeliaan diri pelbagai mod ialah masalah gandingan data berbilang modal. Gandingan, atau lebih umum penjajaran, antara modaliti boleh dieksploitasi oleh algoritma SSML sebagai input (cth. apabila satu modaliti digunakan untuk menyediakan penyeliaan untuk yang lain), tetapi juga sebagai output (cth., belajar daripada data tidak berpasangan dan mendorong gandingan sebagai hasil sampingan). Kami membincangkan peranan penjajaran yang berbeza pada tahap berbutir kasar yang sering diandaikan tersedia secara bebas dalam penyeliaan diri berbilang mod (cth., imej dan kapsyen yang dirangkak web [11]); , surat-menyurat antara kata tajuk dan tampalan imej [12]). Selain itu, kami meneroka persimpangan fungsi objektif dan andaian penjajaran data.
juga menganalisis reka bentuk seni bina model SSML kontemporari. Secara khususnya, kami mempertimbangkan ruang reka bentuk modul pengekod dan gabungan, membandingkan pengekod khusus mod (tanpa gabungan atau gabungan lewat) dan pengekod bersatu dengan gabungan awal. Kami juga mengkaji seni bina dengan reka bentuk penyahkod khusus dan membincangkan kesan pilihan reka bentuk ini.
Akhir sekali, aplikasi algoritma ini dalam pelbagai bidang dunia nyata, termasuk penjagaan kesihatan, penderiaan jauh, terjemahan mesin, dll., dibincangkan dan cabaran teknikal dan kesan sosial SSML dibincangkan secara mendalam, menunjukkan arah penyelidikan masa depan yang berpotensi. Kami meringkaskan kemajuan terkini dalam kaedah, set data dan pelaksanaan untuk menyediakan titik permulaan kepada penyelidik dan pengamal dalam bidang tersebut.
Kertas semakan sedia ada sama ada hanya tertumpu pada pembelajaran pelbagai mod yang diselia [1], [2], [13], [14], atau modaliti tunggal Pembelajaran penyeliaan kendiri [9], [10], [15], atau sub-kawasan tertentu SSL seperti latihan pra-linguistik visual [16]. Semakan yang paling relevan ialah [17], tetapi ia lebih memfokuskan pada data temporal dan mengabaikan pertimbangan utama penyeliaan diri berbilang mod bagi penjajaran dan seni bina. Sebaliknya, kami menyediakan gambaran keseluruhan yang komprehensif dan terkini bagi algoritma SSML dan menyediakan taksonomi baharu yang meliputi algoritma, data dan seni bina.
Penyeliaan kendiri dalam pembelajaran pelbagai mod
Kami mula-mula menerangkan skop SSML yang dipertimbangkan dalam tinjauan ini, kerana istilah ini telah digunakan secara tidak konsisten dalam literatur terdahulu. Mentakrifkan penyeliaan diri dalam konteks mod tunggal adalah lebih mudah dengan menggunakan sifat bebas label bagi tugas dalih yang berbeza, contohnya, diskriminasi contoh yang terkenal [20] atau sasaran ramalan bertopeng [21] melaksanakan penyeliaan diri. Sebaliknya, situasi dalam pembelajaran multimodal adalah lebih rumit kerana peranan modaliti dan label menjadi kabur. Sebagai contoh, dalam kapsyen imej yang diselia [22], teks biasanya dianggap sebagai label, tetapi dalam pembelajaran visual dan perwakilan bahasa berbilang mod yang diselia sendiri [11], teks dianggap sebagai modaliti input.
Dalam konteks multimodal, istilah penyeliaan kendiri telah digunakan untuk merujuk kepada sekurang-kurangnya empat situasi: (1) Pembelajaran tanpa label daripada data multimodal yang dipasangkan secara automatik— — seperti filem dengan trek video dan audio [23], atau data imej dan kedalaman daripada kamera RGBD [24]. (2) Belajar daripada data berbilang modal, di mana satu modaliti telah diberi anotasi secara manual, atau dua modaliti telah dipasangkan secara manual, tetapi anotasi ini telah dibuat untuk tujuan yang berbeza, dan oleh itu boleh dianggap percuma untuk latihan pra SSML. Sebagai contoh, pasangan kapsyen imej yang dipadankan yang dikikis daripada web, seperti yang digunakan dalam CLIP mani [11], sebenarnya merupakan contoh pembelajaran metrik diselia [25], [26] di mana pasangan itu diawasi. Walau bagaimanapun, memandangkan kedua-dua corak dan gandingan tersedia secara bebas pada skala, ia sering digambarkan sebagai diselia sendiri. Data yang dicipta secara kebetulan ini selalunya mempunyai kualiti yang lebih rendah dan lebih bising daripada set data yang dipilih susun khas seperti COCO [22] dan Genom Visual [27]. (3) Belajar daripada data berbilang modal beranotasi tujuan berkualiti tinggi (cth., imej kapsyen manual dalam COCO [22]), tetapi dengan objektif gaya yang diselia sendiri seperti Pixel-BERT [28]. (4) Akhir sekali, terdapat kaedah "seliaan sendiri" yang menggunakan campuran data berbilang modal percuma dan dilabel secara manual [29], [30]. Untuk tujuan penyiasatan ini, kami mengikuti idea penyeliaan diri dan bertujuan untuk meningkatkan dengan memecahkan kesesakan anotasi manual. Oleh itu, kami memasukkan dua kategori pertama dan kategori keempat kaedah dari segi dapat melatih data yang tersedia secara percuma. Kami mengecualikan kaedah yang ditunjukkan hanya untuk set data susun atur secara manual kerana kaedah tersebut menggunakan objektif "penyeliaan diri" biasa pada set data susun atur (cth., ramalan bertopeng).
(a) Pembelajaran pelbagai mod diselia dan (b) penyeliaan kendiri Paradigma pembelajaran pembelajaran pelbagai mod: pra-latihan penyeliaan kendiri tanpa anotasi manual (atas); menyelia dan memperhalusi tugas hiliran (bawah).
Dalam bahagian ini, kami akan memperkenalkan fungsi objektif yang digunakan untuk melatih tiga jenis algoritma berbilang modal yang diselia sendiri: contoh ramalan diskriminasi, pengelompokan dan penyamaran. Akhirnya kami juga membincangkan sasaran hibrid.
3.1 Diskriminasi contoh
Dalam pembelajaran mod tunggal, diskriminasi contoh (ID) menukar data asal kepada Setiap instance in dianggap sebagai kelas yang berasingan, dan model dilatih untuk membezakan antara kejadian yang berbeza. Dalam konteks pembelajaran multimodal, diskriminasi contoh biasanya bertujuan untuk menentukan sama ada sampel daripada dua modaliti input adalah daripada contoh yang sama, iaitu, berpasangan. Dengan berbuat demikian, ia cuba untuk menyelaraskan ruang perwakilan pasangan corak sambil menolak ruang perwakilan pasangan kejadian yang berbeza jauh. Terdapat dua jenis matlamat pengecaman contoh: ramalan kontrastif dan ramalan padanan, bergantung pada cara input disampel.
3.2 Pengelompokan
Kaedah pengelompokan menganggap bahawa End- terlatih pengelompokan hingga akhir akan menghasilkan pengumpulan data berdasarkan ciri yang menonjol secara semantik. Dalam amalan, kaedah ini secara berulang meramalkan penugasan kelompok perwakilan yang dikodkan dan menggunakan ramalan ini (juga dipanggil label pseudo) sebagai isyarat penyeliaan untuk mengemas kini perwakilan ciri. Pengelompokan multimodal memberi peluang untuk mempelajari perwakilan berbilang mod dan juga menambah baik pengelompokan tradisional dengan menyelia modaliti lain menggunakan label pseudo untuk setiap modaliti.
3.3 Ramalan topeng
Tugas ramalan topeng boleh menggunakan pengekodan automatik (serupa dengan BERT [101]) atau kaedah regresi automatik (serupa dengan GPT [102]) untuk dilaksanakan.
Atas ialah kandungan terperinci Pembelajaran penyeliaan kendiri multimodal: meneroka fungsi objektif, penjajaran data dan seni bina model - mengambil ulasan terbaru Edinburgh sebagai contoh. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!