Rumah > Artikel > Peranti teknologi > Model pembelajaran multi-modal bukan invasif yang dibangunkan oleh Institut Automasi merealisasikan penyahkodan isyarat otak dan analisis semantik
Kajian iniPertama Kali Menggabungkan pengetahuan otak, visual dan bahasa, melalui pembelajaran pelbagai mod, adalah mungkin untuk menyahkod kategori visual baharu daripada rekod aktiviti otak manusia dengan sampel sifar . Artikel ini turut menyumbang tiga set data padanan tiga mod "teks imej otak" .
Hasil eksperimen menunjukkan beberapa kesimpulan yang menarik dan pandangan kognitif: 1) Menyahkod kategori visual baharu daripada aktiviti otak manusia boleh dicapai dengan ketepatan yang tinggi 2) Menggunakan model Penyahkodan yang menggabungkan ciri visual dan linguistik melakukan lebih baik daripada model menggunakan hanya satu daripadanya; 3) persepsi visual mungkin disertai dengan pengaruh linguistik untuk mewakili semantik rangsangan visual. Penemuan ini bukan sahaja memberi penerangan tentang pemahaman sistem visual manusia, tetapi juga memberikan idea baharu untuk teknologi antara muka otak-komputer masa hadapan. Kod dan set data untuk kajian ini adalah sumber terbuka.
Menyahkod perwakilan saraf visual manusia ialah satu cabaran yang mempunyai kepentingan saintifik yang penting, yang boleh mendedahkan mekanisme pemprosesan visual dan menggalakkan perkembangan sains otak dan kecerdasan buatan . Walau bagaimanapun, kaedah penyahkodan saraf semasa sukar untuk digeneralisasikan kepada kategori baharu selain daripada data latihan Terdapat dua sebab utama: Pertama, kaedah sedia ada tidak menggunakan sepenuhnya banyak ciri di sebalik data saraf .
Penyelidikan menunjukkan bahawa persepsi dan pengecaman manusia terhadap rangsangan visual dipengaruhi oleh ciri visual dan pengalaman orang sebelum ini. Sebagai contoh, apabila kita melihat objek biasa, otak kita secara semula jadi mendapatkan semula pengetahuan yang berkaitan dengan objek itu. Seperti yang ditunjukkan dalam Rajah 1 di bawah, penyelidikan neurosains kognitif mengenai teori dwi pengekodan [9] percaya bahawa konsep khusus dikodkan dalam otak secara visual dan linguistik, di mana bahasa, sebagai pengalaman terdahulu yang berkesan, membantu membentuk Perwakilan yang dihasilkan oleh penglihatan.
Oleh itu, penulis percaya bahawa untuk menyahkod isyarat otak yang direkodkan dengan lebih baik, bukan sahaja ciri semantik visual yang dibentangkan sebenar harus digunakan, tetapi juga ciri yang lebih kaya yang berkaitan dengan objek sasaran visual harus digunakan. disertakan Penyahkodan dilakukan dengan gabungan ciri semantik linguistik.
Rajah 1. Pengekodan dwi pengetahuan dalam otak manusia. Apabila kita melihat gambar gajah, kita secara semula jadi akan mendapatkan semula pengetahuan berkaitan gajah dalam fikiran kita (seperti belalai panjang, gigi panjang, telinga besar, dll.). Pada ketika ini, konsep gajah dikodkan dalam otak secara visual dan lisan, dengan bahasa berfungsi sebagai pengalaman terdahulu yang sah yang membantu membentuk perwakilan yang dihasilkan oleh penglihatan.
Seperti yang ditunjukkan dalam Rajah 2 di bawah, kerana sangat mahal untuk mengumpul aktiviti otak manusia dari pelbagai kategori visual, penyelidik biasanya hanya mempunyai aktiviti visual otak yang sangat terhad. kategori. Walau bagaimanapun, data imej dan teks adalah banyak dan boleh memberikan maklumat berguna tambahan. Kaedah dalam artikel ini boleh menggunakan sepenuhnya semua jenis data (trimodal, bimodal dan unimodal) untuk meningkatkan keupayaan generalisasi penyahkodan saraf.
Rajah 2. Rangsangan imej, aktiviti otak yang ditimbulkan dan data teks yang sepadan. Kami hanya boleh mengumpul data aktiviti otak untuk beberapa kategori, tetapi data imej dan/atau teks boleh dikumpulkan dengan mudah untuk hampir semua kategori. Oleh itu, untuk kategori yang diketahui, kami menganggap bahawa aktiviti otak, imej visual dan penerangan teks yang sepadan semuanya tersedia untuk latihan, manakala untuk kategori baharu, hanya imej visual dan penerangan teks tersedia untuk latihan. Data ujian adalah data aktiviti otak daripada kategori baharu.
Seperti yang ditunjukkan dalam Rajah 3A di bawah, kunci kepada kaedah ini adalah menggabungkan setiap modaliti Pengagihan yang dipelajari diselaraskan ke dalam ruang terpendam kongsi yang mengandungi maklumat pelbagai modal penting yang berkaitan dengan kategori baharu.
Secara khusus, penulis mencadangkan Rangka kerja pembelajaran Bayesian variasi pengekodan auto berbilang mod , di mana Campuran Model -Products-of-Experts (MoPoE) digunakan untuk membuat kesimpulan pengekodan terpendam untuk mencapai penjanaan bersama ketiga-tiga modaliti. Untuk mempelajari perwakilan bersama yang lebih relevan dan meningkatkan kecekapan data apabila data aktiviti otak adalah terhad, penulis seterusnya memperkenalkan istilah penyelarasan maklumat bersama antara modal dan antara modal. Tambahan pula, model BraVL boleh dilatih di bawah pelbagai senario pembelajaran separa penyeliaan untuk menggabungkan ciri visual dan tekstual tambahan bagi kategori imej berskala besar.
Dalam Rajah 3B, pengarang melatih pengelas SVM . Perlu diingatkan bahawa pengekod E_v dan E_t dibekukan dalam langkah ini dan hanya pengelas SVM (modul kelabu) akan dioptimumkan.
Dalam aplikasi, seperti yang ditunjukkan dalam Rajah 3C, input kaedah ini hanyalah kategori isyarat otak yang baharu dan tidak memerlukan data lain , jadi ia boleh digunakan dengan mudah pada aplikasi berskala besar kebanyakan senario penyahkodan saraf. Pengelas SVM dapat membuat generalisasi daripada (B) kepada (C) kerana perwakilan asas bagi ketiga-tiga modaliti ini sudah diselaraskan dalam A.
Rajah 3 Rangka kerja pembelajaran bersama tiga mod "teks gambar otak" yang dicadangkan dalam artikel ini , dirujuk sebagai BraVL.
Selain itu, isyarat otak berubah dari percubaan ke percubaan, walaupun untuk rangsangan visual yang sama. Untuk meningkatkan kestabilan penyahkodan saraf, penulis menggunakan kaedah pemilihan kestabilan untuk memproses data fMRI. Skor kestabilan semua voxel ditunjukkan dalam Rajah 4 di bawah. Penulis memilih 15% voxel teratas dengan kestabilan terbaik untuk mengambil bahagian dalam proses penyahkodan saraf. Operasi ini secara berkesan boleh mengurangkan dimensi data fMRI dan menyekat gangguan yang disebabkan oleh bunyi bising tanpa menjejaskan keupayaan diskriminatif ciri otak secara serius.
Rajah 4. Peta skor kestabilan aktiviti Voxel korteks visual otak.
Pengekodan neural dan penyahkodan set data yang sedia ada selalunya hanya mempunyai rangsangan imej dan tindak balas otak. Untuk mendapatkan penerangan linguistik yang sepadan dengan konsep visual, penulis menggunakan kaedah pengekstrakan artikel Wikipedia separa automatik . Secara khusus, pengarang mula-mula mencipta padanan automatik kelas ImageNet dan halaman Wikipedia yang sepadan dengannya adalah berdasarkan persamaan antara kelas ImageNet dan perkataan synset tajuk Wikipedia kategori induk mereka. Seperti yang ditunjukkan dalam Rajah 5 di bawah, malangnya, padanan jenis ini kadangkala boleh menghasilkan positif palsu kerana kelas yang dinamakan serupa mungkin mewakili konsep yang sangat berbeza. Semasa membina set data trimodal, untuk memastikan padanan berkualiti tinggi antara ciri visual dan ciri linguistik, pengarang memadamkan artikel yang tidak sepadan secara manual.
Rajah 5. Pemerolehan penerangan konsep visual separa automatik
Pengarang telah diterbitkan dalam berbilang Eksperimen penyahkodan saraf tangkapan sifar yang meluas telah dijalankan pada set data padanan tiga mod "teks gambar otak" Keputusan eksperimen ditunjukkan dalam jadual di bawah. Seperti yang dapat dilihat, model yang menggunakan gabungan ciri visual dan teks (V&T) berprestasi jauh lebih baik daripada model yang menggunakan salah satu daripadanya sahaja. Terutama, BraVL berdasarkan ciri V&T meningkatkan purata ketepatan 5 teratas dengan ketara pada kedua-dua set data. Keputusan ini mencadangkan bahawa, walaupun rangsangan yang dikemukakan kepada subjek hanya mengandungi maklumat visual, adalah boleh difikirkan bahawa subjek secara tidak sedar menggunakan perwakilan linguistik yang sesuai, dengan itu menjejaskan pemprosesan visual.
Bagi setiap kategori konsep visual, penulis juga menunjukkan keuntungan ketepatan penyahkodan saraf selepas menambah ciri teks, seperti ditunjukkan dalam Rajah 6 di bawah. Dapat dilihat bahawa untuk kebanyakan kelas ujian, penambahan ciri teks mempunyai kesan positif, dengan purata ketepatan penyahkodan Top-1 meningkat kira-kira 6%.
Rajah 6. Keuntungan ketepatan penyahkodan saraf selepas menambah ciri teks
Selain analisis penyahkodan saraf, penulis juga menganalisis sumbangan ciri teks dalam pengekodan saraf peringkat voxel (meramalkan otak yang sepadan berdasarkan visual atau teks menampilkan aktiviti Voxel), hasilnya ditunjukkan dalam Rajah 7. Dapat dilihat bahawa bagi kebanyakan korteks visual peringkat tinggi (HVC, seperti FFA, LOC dan IT), gabungan ciri teks berdasarkan ciri visual boleh meningkatkan ketepatan ramalan aktiviti otak, manakala bagi kebanyakan korteks visual peringkat rendah. (LVC, seperti V1, V2 dan V3), menggabungkan ciri teks tidak berfaedah malah berbahaya.
Dari perspektif neurosains kognitif, keputusan kami adalah munasabah, kerana secara amnya dipercayai bahawa HVC bertanggungjawab untuk memproses maklumat semantik peringkat lebih tinggi seperti maklumat kategori dan maklumat gerakan objek. LVC bertanggungjawab untuk memproses maklumat peringkat rendah seperti arah dan garis besar. Di samping itu, kajian saintifik baru-baru ini mendapati bahawa perwakilan semantik visual dan linguistik diselaraskan pada sempadan korteks visual manusia (iaitu, "hipotesis penjajaran semantik")[10], dan hasil eksperimen pengarang juga menyokong hipotesis ini
Rajah 7. Unjuran sumbangan ciri teks kepada korteks visual
Untuk lebih banyak hasil percubaan, sila lihat teks asal.
Secara keseluruhannya, kertas kerja ini membuat beberapa kesimpulan dan pandangan kognitif yang menarik: 1) Menyahkod kategori visual baharu daripada aktiviti otak manusia boleh dicapai dengan ketepatan yang tinggi 2) Menyahkod model menggunakan gabungan visual dan ciri linguistik berprestasi jauh lebih baik daripada model penyahkodan menggunakan sama ada secara bersendirian; 3) Persepsi visual mungkin disertai dengan pengaruh linguistik untuk mewakili semantik rangsangan visual 4) Menggunakan Bahasa semulajadi sebagai penerangan konsep mempunyai prestasi penyahkodan saraf yang lebih tinggi daripada menggunakan nama kelas; ) Data tambahan dalam kedua-dua unimodaliti dan bimodaliti boleh meningkatkan ketepatan penyahkodan dengan ketara.
Du Changde, pengarang pertama kertas kerja dan pembantu penyelidik khas di Institut Automasi, Akademi Sains China, berkata: "Ini kerja mengesahkan hasil daripada aktiviti otak, imej visual dan teks Ciri yang diekstrak dalam huraian adalah berkesan untuk menyahkod isyarat saraf Walau bagaimanapun, ciri visual yang diekstrak mungkin tidak menggambarkan dengan tepat semua peringkat pemprosesan visual manusia, dan set ciri yang lebih baik akan membantu untuk. Sebagai contoh, yang lebih besar boleh digunakan Selain itu, walaupun artikel Wikipedia mengandungi maklumat visual yang kaya, maklumat ini mudah dikaburkan oleh sejumlah besar ayat bukan visual penerangan visual melalui pengekstrakan ayat visual atau menggunakan model seperti ChatGPT dan GPT-4 Akhir sekali, walaupun kajian ini menggunakan lebih banyak data tri-modal berbanding dengan kajian berkaitan Satu set data yang lebih besar dan lebih berfaedah kepada penyelidikan masa hadapan.”
Pengarang kertas yang sepadan, penyelidik He Huiguang dari Institut Automasi, Akademi Sains China, menegaskan: "Kaedah yang dicadangkan dalam artikel ini mempunyai tiga aplikasi yang berpotensi: 1) Sebagai alat penyahkod semantik saraf , kaedah ini akan digunakan dalam jenis baru membaca maklumat semantik otak manusia Walaupun aplikasi ini belum matang, kaedah kami menyediakan asas teknikal untuknya 2) Dengan membuat kesimpulan aktiviti otak merentasi modaliti, kaedah kami juga boleh digunakan sebagai alat pengekodan saraf Untuk mengkaji bagaimana ciri visual dan linguistik diekspresikan pada korteks serebrum manusia, mendedahkan kawasan otak yang mempunyai sifat multimodal (iaitu, sensitif kepada ciri visual dan linguistik) 3) Kebolehdekodan saraf bagi perwakilan dalaman. model AI boleh dianggap sebagai penunjuk tahap seperti otak Oleh itu, kaedah dalam kertas ini juga boleh digunakan sebagai alat penilaian sifat seperti otak untuk menguji perwakilan model (visual atau bahasa) yang lebih dekat dengan. aktiviti otak manusia, dengan itu memotivasikan penyelidik untuk mereka bentuk lebih banyak model pengiraan seperti otak 》
Pengekodan dan penyahkodan maklumat saraf adalah isu teras dalam bidang antara muka otak-komputer cara yang berkesan untuk meneroka prinsip di sebalik fungsi kompleks otak manusia dan menggalakkan perkembangan kecerdasan seperti otak. Pasukan penyelidikan pengkomputeran saraf dan interaksi otak-komputer Institut Automasi telah bekerja dalam bidang ini selama bertahun-tahun dan telah membuat satu siri kerja penyelidikan, yang diterbitkan dalam TPAMI 2023, TMI2023, TNNLS 2022/2019, TMM 2021, Maklumat Fusion 2021, AAI 2020, dsb. Kerja awal telah dilaporkan dalam tajuk utama Kajian Teknologi MIT dan memenangi Anugerah Naib Juara Kertas Terbaik ICME 2019.
Penyelidikan ini disokong oleh Inovasi Sains dan Teknologi 2030 - projek utama "Generasi Baharu Kecerdasan Buatan", Projek Yayasan Kebangsaan, Projek Institut Automasi 2035 dan China Buatan Persatuan Perisikan-Huawei MindSpore Academic Award Fund and Intelligence Support for pedestals dan projek lain.
Pengarang pertama: Du Changde, pembantu penyelidik khas di Institut Automasi, Akademi Sains China, terlibat dalam penyelidikan tentang kognisi otak dan kecerdasan buatan , dalam maklumat saraf visual Beliau telah menerbitkan lebih daripada 40 kertas kerja mengenai pengekodan, penyahkodan, pengkomputeran saraf berbilang modal, dsb., termasuk TPAMI/TNNLS/AAAI/KDD/ACMMM, dsb. Beliau telah memenangi Anugerah Naib Juara Kertas Terbaik IEEE ICME 2019 dan 100 Bintang Meningkat AI Cina Teratas 2021. Beliau telah menjalankan beberapa tugas penyelidikan saintifik secara berturut-turut untuk Kementerian Sains dan Teknologi, Yayasan Kebangsaan Sains dan Teknologi, dan Akademi Sains China, dan hasil penyelidikannya dilaporkan dalam tajuk utama Kajian Teknologi MIT.
Halaman utama peribadi: https://changdedu.github.io/
Pengarang yang sepadan: He Huiguang, penyelidik di Institut Automasi, Akademi Sains China, penyelia kedoktoran, jawatan profesor di Universiti Akademi Sains China, profesor terkenal di Universiti Sains dan Teknologi Shanghai, ahli cemerlang Promosi Belia Persatuan Akademi Sains China, dan pemenang pingat peringatan untuk ulang tahun ke-70 penubuhan Republik Rakyat China. Beliau telah menjalankan 7 projek Dana Asli Nasional (termasuk dana utama dan projek kerjasama antarabangsa), 2 863 projek, dan projek rancangan penyelidikan utama negara. Beliau telah memenangi dua Anugerah Kemajuan Sains dan Teknologi Kebangsaan kelas kedua (masing-masing menduduki tempat kedua dan ketiga), dua Anugerah Kemajuan Sains dan Teknologi Beijing, Anugerah Kemajuan Sains dan Teknologi kelas pertama Kementerian Pendidikan, Anugerah Tesis Kedoktoran Cemerlang pertama daripada Akademi Sains China, Bintang Kebangkitan Sains dan Teknologi Beijing, dan Akademi Sains China "Anugerah Bakat Muda Lu Jiaxi", Profesor Pengerusi "Ulama Minjiang" Wilayah Fujian. Bidang penyelidikannya termasuk kecerdasan buatan, antara muka otak-komputer, analisis imej perubatan, dll. Dalam tempoh lima tahun yang lalu, beliau telah menerbitkan lebih daripada 80 artikel dalam jurnal dan persidangan seperti IEEE TPAMI/TNNLS dan ICML. Beliau ialah ahli lembaga editorial IEEEE TCDS, Jurnal Automasi dan jurnal lain, ahli CCF yang terkenal, dan ahli CSIG yang terkenal.
Atas ialah kandungan terperinci Model pembelajaran multi-modal bukan invasif yang dibangunkan oleh Institut Automasi merealisasikan penyahkodan isyarat otak dan analisis semantik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!