Rumah > Artikel > Peranti teknologi > AI membantu penyelidikan antara muka otak-komputer, teknologi penyahkodan pertuturan saraf terobosan Universiti New York, diterbitkan dalam sub-jurnal Alam
Pengarang |. Chen Xupeng
Dalam beberapa tahun kebelakangan ini, perkembangan pesat teknologi pembelajaran mendalam dan antara muka otak-komputer (BCI) telah menyediakan kemungkinan untuk membangunkan prostesis pertuturan saraf yang boleh membantu orang aphasic berkomunikasi. Walau bagaimanapun, penyahkodan pertuturan bagi isyarat saraf menghadapi cabaran.
Baru-baru ini, penyelidik dari VideoLab dan Flinker Lab di Universiti Jordan telah membangunkan jenis pensintesis pertuturan boleh dibezakan baharu yang boleh menggunakan rangkaian saraf konvolusi ringan untuk mengekod pertuturan ke dalam satu siri parameter pertuturan yang boleh ditafsir (seperti pic, kenyaringan, forman. frekuensi, dsb.), dan parameter ini disintesis ke dalam pertuturan melalui rangkaian neural yang boleh dibezakan. Pensintesis ini juga boleh menghuraikan parameter pertuturan (seperti pic, kenyaringan, frekuensi forman, dsb.) melalui rangkaian saraf konvolusi ringan dan mensintesis semula pertuturan melalui pensintesis pertuturan yang boleh dibezakan.
Para penyelidik mewujudkan sistem penyahkodan isyarat saraf yang sangat boleh ditafsirkan dan boleh digunakan untuk situasi dengan volum data yang kecil, dengan memetakan isyarat saraf kepada parameter pertuturan ini tanpa mengubah maksud kandungan asal.
Penyelidikan itu bertajuk "
Rangka kerja penyahkodan pertuturan saraf yang memanfaatkan pembelajaran mendalam dan sintesis pertuturan" dan diterbitkan dalam majalah "Nature Machine Intelligence" pada 8 April 2024.
Pautan kertas:
https://www.nature.com/articles/s42256-024-00824-8Latar belakang penyelidikan
Kebanyakan percubaan dekod khusus untuk membangunkan neural jenis data: data yang diperoleh daripada pesakit yang menjalani pembedahan epilepsi melalui rakaman electrocorticography (ECoG). Menggunakan elektrod yang ditanam pada pesakit epilepsi untuk mengumpul data korteks serebrum semasa pengeluaran pertuturan, data ini mempunyai resolusi spatiotemporal yang tinggi dan telah membantu penyelidik mencapai satu siri hasil yang luar biasa dalam bidang penyahkodan pertuturan, membantu mempromosikan antara muka otak-komputer padang.
Penyahkodan pertuturan bagi isyarat saraf menghadapi dua cabaran utama.
Pertama sekali, data yang digunakan untuk melatih model penyahkodan saraf kepada pertuturan diperibadikan adalah sangat terhad dalam masa, biasanya hanya kira-kira sepuluh minit, manakala model pembelajaran mendalam selalunya memerlukan sejumlah besar data latihan untuk memandu.
Kedua, sebutan manusia sangat pelbagai Walaupun orang yang sama bercakap perkataan yang sama berulang kali, kelajuan pertuturan, intonasi dan pic akan berubah, yang menambah kerumitan ruang perwakilan yang dibina oleh model.
Percubaan awal untuk menyahkod isyarat saraf kepada pertuturan terutamanya bergantung pada model linear Model biasanya tidak memerlukan set data latihan yang besar dan sangat boleh ditafsirkan, tetapi ketepatannya sangat rendah.
Penyelidikan terkini berdasarkan rangkaian saraf dalam, terutamanya penggunaan seni bina rangkaian saraf konvolusi dan berulang, dibangunkan dalam dua dimensi utama: perwakilan laten perantaraan pertuturan simulasi dan kualiti pertuturan yang disintesis. Sebagai contoh, terdapat kajian yang menyahkod aktiviti korteks serebrum ke dalam ruang pergerakan mulut dan kemudian menukarnya kepada pertuturan Walaupun prestasi penyahkodan adalah berkuasa, suara yang dibina semula kedengaran tidak semula jadi.
Sebaliknya, beberapa kaedah berjaya membina semula pertuturan yang berbunyi semula jadi dengan menggunakan vocoder wavenet, rangkaian musuh generatif (GAN), dll., tetapi ketepatannya adalah terhad. Baru-baru ini, dalam kajian pesakit dengan peranti yang diimplan, bentuk gelombang pertuturan yang tepat dan semula jadi telah dicapai dengan menggunakan ciri HuBERT terkuantisasi sebagai ruang perwakilan perantaraan dan pensintesis pertuturan terlatih untuk menukar ciri ini kepada pertuturan.
Walau bagaimanapun, ciri HuBERT tidak boleh mewakili maklumat akustik khusus pembesar suara dan hanya boleh menjana bunyi pembesar suara tetap dan bersatu, jadi model tambahan diperlukan untuk menukar bunyi universal ini kepada suara pesakit tertentu. Tambahan pula, kajian ini dan kebanyakan percubaan terdahulu menggunakan seni bina bukan sebab, yang mungkin mengehadkan penggunaannya dalam aplikasi antara muka otak-komputer praktikal yang memerlukan operasi kausa temporal.
Rangka kerja model utama
Rajah 1: Rangka kerja penyahkodan pertuturan saraf yang dicadangkan. (Sumber: kertas)
Rangka kerja yang dicadangkan oleh penyelidikan terdiri daripada dua bahagian: satu ialah penyahkod ECoG, yang menukar isyarat ECoG kepada parameter pertuturan akustik yang boleh kita fahami (seperti pic, sama ada ia disebut, kenyaringan dan frekuensi forman, dsb. ); bahagian lain ialah pensintesis pertuturan yang menukar parameter pertuturan ini kepada spektrogram.
Para penyelidik membina pensintesis pertuturan yang boleh dibezakan, yang membolehkan pensintesis pertuturan turut mengambil bahagian dalam latihan semasa latihan penyahkod ECoG dan bersama-sama mengoptimumkan untuk mengurangkan ralat pembinaan semula spektrogram. Ruang terpendam berdimensi rendah ini mempunyai kebolehtafsiran yang kuat, ditambah dengan pengekod pertuturan pra-terlatih yang ringan untuk menjana parameter pertuturan rujukan, membantu penyelidik membina rangka kerja penyahkodan pertuturan saraf yang cekap dan mengatasi masalah kekurangan data.
Rangka kerja ini boleh menjana pertuturan semula jadi yang sangat dekat dengan suara pembesar suara itu sendiri, dan bahagian penyahkod ECoG boleh dipalamkan ke dalam seni bina model pembelajaran mendalam yang berbeza dan juga menyokong operasi sebab akibat. Para penyelidik mengumpul dan memproses data ECoG daripada 48 pesakit neurosurgeri, menggunakan berbilang seni bina pembelajaran mendalam (termasuk konvolusi, rangkaian saraf berulang dan Transformer) sebagai penyahkod ECoG.
Rangka kerja telah menunjukkan ketepatan yang tinggi pada pelbagai model, antaranya seni bina konvolusi (ResNet) mencapai prestasi terbaik, dengan Pekali Korelasi Pearson (PCC) antara spektrogram asal dan dinyahkod mencapai 0.806. Rangka kerja yang dicadangkan oleh penyelidik boleh mencapai ketepatan yang tinggi hanya melalui operasi sebab dan kadar persampelan yang agak rendah (ketumpatan rendah, jarak 10mm).
Para penyelidik juga menunjukkan bahawa penyahkodan pertuturan yang berkesan boleh dilakukan dari kedua-dua hemisfera kiri dan kanan otak, memanjangkan penggunaan penyahkodan pertuturan saraf ke otak kanan.
Kajian kod berkaitan sumber terbuka: https://github.com/flinkerlab/neural_speech_decoding
Hasil penyelidikan
Hasil penyahkodan pertuturan dengan kausaliti temporal
Rajah 2: Membandingkan prestasi penyahkodan spektrogram asal dan spektrogram kausal dan bukan sal yang dinyahkod (Sumber: Kertas) Pertama, penyelidik membandingkan secara langsung perbezaan dalam prestasi penyahkodan pertuturan bagi seni bina model yang berbeza (Convolution (ResNet), Recurrent (LSTM) dan Transformer (3D Swin). Perlu diingat bahawa model ini boleh Perform non -operasi sebab atau sebab tepat pada masanya Hasilnya menunjukkan bahawa model ResNet menunjukkan prestasi terbaik antara semua model, mencapai Pekali Korelasi Pearson (PCC) tertinggi di kalangan 48 peserta Purata PCC untuk sebab dan sebab adalah 0.806 dan 0.797, masing-masing. diikuti oleh model Swin (purata PCC untuk bukan sebab dan sebab masing-masing ialah 0.792 dan 0.798) (Rajah 2a) Hasil yang sama diperolehi oleh penilaian penunjuk STOI+ Penemuan sifat penyebab model implikasi yang ketara untuk aplikasi antara muka otak-komputer (BCI): model kausal hanya menggunakan isyarat saraf masa lalu dan semasa untuk menjana pertuturan, manakala model kausal juga menggunakan isyarat saraf masa depan Menggunakan model bukan sebab, ini tidak boleh dilaksanakan dalam aplikasi masa nyata . dan tiada perbezaan yang ketara di antara mereka Begitu juga, prestasi versi kausal dan bukan sebab bagi model Swin adalah serupa, tetapi prestasi versi kausal model LSTM adalah jauh lebih rendah daripada versi bukan kausal. , jadi penyelidik akan menumpukan pada model ResNet dan Swin pada masa hadapanUntuk memastikan rangka kerja yang dicadangkan dalam artikel ini dapat digeneralisasikan dengan baik kepada perkataan yang tidak kelihatan, penyelidik menjalankan pengesahan silang peringkat perkataan yang lebih ketat, yang bermaksud bahawa percubaan yang berbeza. perkataan yang sama tidak akan muncul dalam set latihan dan ujian pada masa yang sama Tertumpu
Seperti yang ditunjukkan dalam Rajah 2b, prestasi pada perkataan ghaib adalah setanding dengan kaedah eksperimen standard dalam artikel, menunjukkan bahawa model boleh menyahkod dengan baik. walaupun ia tidak dilihat semasa latihan, yang disebabkan terutamanya oleh artikel ini Model yang dibina melakukan penyahkodan pertuturan tahap fonem atau serupa
.Selanjutnya, penyelidik menunjukkan prestasi penyahkod sebab ResNet pada peringkat perkataan tunggal, menunjukkan data daripada dua peserta (kadar pensampelan berketumpatan rendah ECoG). Spektrogram yang dinyahkod dengan tepat mengekalkan struktur spektrum-temporal ucapan asal (Rajah 2c, d).
Para penyelidik juga membandingkan parameter pertuturan yang diramalkan oleh penyahkod saraf dengan parameter yang dikodkan oleh pengekod pertuturan (sebagai nilai rujukan para penyelidik menunjukkan purata nilai PCC (N=48) bagi beberapa parameter pertuturan utama, termasuk berat bunyi (). Digunakan untuk membezakan vokal dan konsonan), kenyaringan, pic f0, forman pertama f1 dan forman kedua f2. Pembinaan semula yang tepat bagi parameter pertuturan ini, terutamanya pic, berat bunyi dan dua pembentuk pertama, adalah penting untuk mencapai penyahkodan pertuturan yang tepat dan pembinaan semula yang secara semula jadi meniru suara peserta.
Penemuan penyelidikan menunjukkan bahawa kedua-dua model bukan sebab dan sebab boleh memperoleh hasil penyahkodan yang munasabah, yang memberikan panduan positif untuk penyelidikan dan aplikasi masa hadapan.
Kajian tentang penyahkodan pertuturan isyarat saraf otak kiri dan kanan dan kadar pensampelan spatial
Para penyelidik membandingkan lagi hasil penyahkodan pertuturan hemisfera serebrum kiri dan kanan. Kebanyakan kajian memberi tumpuan kepada hemisfera kiri otak, yang bertanggungjawab untuk fungsi pertuturan dan bahasa. Walau bagaimanapun, sedikit yang diketahui tentang bagaimana maklumat bahasa dinyahkodkan dari hemisfera otak kanan. Sebagai tindak balas kepada ini, penyelidik membandingkan prestasi penyahkodan hemisfera kiri dan kanan peserta untuk mengesahkan kemungkinan menggunakan hemisfera kanan untuk pemulihan pertuturan.
Di antara 48 subjek yang dikumpul dalam kajian, isyarat ECoG daripada 16 subjek dikumpulkan dari otak kanan. Dengan membandingkan prestasi penyahkod ResNet dan Swin, penyelidik mendapati bahawa hemisfera kanan juga boleh menyahkod pertuturan secara stabil (nilai PCC ResNet ialah 0.790, nilai PCC Swin ialah 0.798), yang sedikit berbeza daripada kesan penyahkodan hemisfera kiri ( As ditunjukkan dalam Rajah 3a).
Penemuan ini juga terpakai pada penilaian STOI+. Ini bermakna bagi pesakit yang mengalami kerosakan pada hemisfera kiri dan kehilangan keupayaan bahasa, menggunakan isyarat saraf dari hemisfera kanan untuk memulihkan bahasa mungkin merupakan penyelesaian yang boleh dilaksanakan.
Seterusnya, penyelidik meneroka kesan ketumpatan pensampelan elektrod pada kesan penyahkodan pertuturan. Kajian terdahulu kebanyakannya menggunakan grid elektrod berketumpatan lebih tinggi (0.4 mm), manakala ketumpatan grid elektrod yang biasa digunakan dalam amalan klinikal adalah lebih rendah (LD 1 cm).
Lima peserta menggunakan grid elektrod jenis hibrid (HB) (lihat Rajah 3b), yang terutamanya adalah pensampelan berketumpatan rendah tetapi menggabungkan elektrod tambahan. Baki empat puluh tiga peserta telah diambil sampel pada ketumpatan rendah. Prestasi penyahkodan bagi sampel hibrid (HB) ini adalah serupa dengan sampel berketumpatan rendah (LD) tradisional, tetapi berprestasi lebih baik sedikit pada STOI+.
Para penyelidik membandingkan kesan penyahkodan menggunakan hanya elektrod berketumpatan rendah dengan menggunakan semua elektrod campuran dan mendapati bahawa perbezaan antara kedua-duanya adalah tidak ketara (lihat Rajah 3d), menunjukkan bahawa model itu dapat mengambil sampel korteks serebrum daripada berbeza. ketumpatan spatial. Maklumat pertuturan dipelajari, yang juga membayangkan bahawa ketumpatan pensampelan yang biasa digunakan dalam amalan klinikal mungkin mencukupi untuk aplikasi antara muka otak-komputer masa hadapan.
Penyelidikan tentang sumbangan kawasan otak berbeza otak kiri dan kanan kepada penyahkodan pertuturan
Akhirnya, para penyelidik meneliti sumbangan kawasan otak yang berkaitan dengan pertuturan dalam proses penyahkodan pertuturan, yang menyediakan rujukan penting untuk implantasi peranti pemulihan pertuturan pada masa hadapan di hemisfera kiri dan kanan otak. . Para penyelidik menggunakan analisis oklusi untuk menilai sumbangan kawasan otak yang berbeza kepada penyahkodan pertuturan.
Ringkasnya, jika kawasan tertentu adalah kritikal untuk penyahkodan, maka menyekat isyarat elektrod di kawasan itu (iaitu menetapkan isyarat kepada sifar) akan mengurangkan ketepatan pertuturan yang dibina semula (nilai PCC).
Dengan kaedah ini, penyelidik mengukur pengurangan nilai PCC apabila setiap kawasan tersumbat. Dengan membandingkan model kausal dan bukan sebab bagi penyahkod ResNet dan Swin, didapati bahawa korteks pendengaran menyumbang lebih banyak dalam model bukan sebab akibat ini menekankan bahawa dalam aplikasi penyahkodan pertuturan masa nyata, model kausal mesti digunakan kerana dalam penyahkodan pertuturan masa nyata, kami isyarat Neurofeedback tidak boleh dimanfaatkan.
Selain itu, sumbangan korteks sensorimotor, terutamanya kawasan perut, adalah sama sama ada di hemisfera kanan atau kiri, yang menunjukkan bahawa ia mungkin boleh dilakukan untuk menanam prostesis saraf di hemisfera kanan.
Kesimpulan & Tinjauan Menginspirasi
Penyelidik telah membangunkan jenis baharu pensintesis pertuturan boleh dibezakan yang boleh menggunakan rangkaian saraf konvolusi ringan untuk mengekod pertuturan ke dalam satu siri parameter pertuturan yang boleh ditafsir (seperti pic, kenyaringan, frekuensi forman, dsb. ) dan mensintesis semula pertuturan melalui pensintesis pertuturan yang boleh dibezakan.
Dengan memetakan isyarat saraf kepada parameter pertuturan ini, penyelidik membina sistem penyahkodan pertuturan saraf yang sangat boleh ditafsirkan dan boleh digunakan pada situasi volum data yang kecil serta boleh menjana pertuturan yang berbunyi semula jadi. Kaedah ini sangat boleh dihasilkan semula merentas peserta (jumlah 48 orang), dan penyelidik berjaya menunjukkan keberkesanan penyahkodan sebab menggunakan seni bina konvolusi dan Transformer (3D Swin), kedua-duanya lebih unggul daripada seni bina berulang (LSTM).
Rangka kerja ini boleh mengendalikan ketumpatan pensampelan spatial yang tinggi dan rendah, dan boleh memproses isyarat EEG dari hemisfera kiri dan kanan, menunjukkan potensi penyahkodan pertuturan yang kuat.
Kebanyakan kajian terdahulu tidak mempertimbangkan sebab musabab sementara bagi operasi penyahkodan dalam aplikasi antara muka otak-komputer masa nyata. Banyak model bukan sebab bergantung pada isyarat maklum balas deria pendengaran. Analisis penyelidik menunjukkan bahawa model bukan sebab bergantung terutamanya pada sumbangan gyrus temporal yang unggul, manakala model kausal pada dasarnya menghapuskan ini. Penyelidik percaya bahawa fleksibiliti model bukan sebab dalam aplikasi BCI masa nyata adalah terhad kerana terlalu bergantung pada isyarat maklum balas.
Sesetengah kaedah cuba mengelakkan maklum balas semasa latihan, seperti menyahkod pertuturan yang dibayangkan subjek. Walaupun begitu, kebanyakan kajian masih menggunakan model sebab akibat dan tidak boleh menolak kesan maklum balas semasa latihan dan inferens. Di samping itu, rangkaian saraf berulang yang digunakan secara meluas dalam kesusasteraan biasanya adalah dwiarah, yang membawa kepada kelakuan bukan sebab dan kelewatan ramalan, manakala eksperimen kami menunjukkan bahawa rangkaian berulang yang dilatih secara satu arah melakukan yang paling teruk.
Walaupun kajian itu tidak menguji penyahkodan masa nyata, para penyelidik mencapai kependaman kurang daripada 50 milisaat dalam mensintesis pertuturan daripada isyarat saraf, hampir tidak menjejaskan kelewatan pendengaran dan membenarkan pengeluaran pertuturan biasa.
Kajian itu meneroka sama ada liputan kepadatan yang lebih tinggi boleh meningkatkan prestasi penyahkodan. Para penyelidik mendapati bahawa kedua-dua liputan grid berketumpatan rendah dan tinggi mencapai prestasi penyahkodan yang tinggi (lihat Rajah 3c). Tambahan pula, penyelidik mendapati bahawa prestasi penyahkodan menggunakan semua elektrod tidak jauh berbeza daripada prestasi hanya menggunakan elektrod berketumpatan rendah (Rajah 3d).
Ini membuktikan bahawa selagi liputan peritemporal mencukupi, walaupun dalam peserta berketumpatan rendah, penyahkod ECoG yang dicadangkan oleh penyelidik boleh mengekstrak parameter pertuturan daripada isyarat saraf untuk membina semula pertuturan. Satu lagi penemuan penting ialah struktur kortikal hemisfera kanan dan sumbangan korteks peritemporal kanan kepada penyahkodan pertuturan. Walaupun beberapa kajian terdahulu telah menunjukkan kemungkinan sumbangan hemisfera kanan kepada penyahkodan vokal dan ayat, hasil kami memberikan bukti perwakilan fonologi yang mantap di hemisfera kanan.
Para penyelidik juga menyebut beberapa batasan model semasa, seperti proses penyahkodan yang memerlukan data latihan pertuturan yang dipasangkan dengan rakaman ECoG, yang mungkin tidak boleh digunakan untuk pesakit aphasic. Pada masa hadapan, penyelidik juga berharap untuk membangunkan seni bina model yang boleh mengendalikan data bukan grid dan menggunakan data EEG berbilang pesakit dan pelbagai mod dengan lebih baik.
Pengarang pertama artikel ini: Xupeng Chen, Ran Wang, pengarang yang sepadan: Adeen Flinker.
Sokongan pembiayaan: Yayasan Sains Negara di bawah Geran No. IIS-1912286, 2309057 (Y.W., A.F.) dan Institut Kesihatan Negara R01NS109367, R01NS115929, R01DC018805)
Untuk perbincangan lanjut tentang kausaliti dalam penyahkodan pertuturan saraf, anda boleh merujuk kepada kertas lain oleh pengarang "Maklum balas yang diedarkan dan pemprosesan kortikal maklum balas menyokong pengeluaran pertuturan manusia": https://www.pnas.org/doi /10.1073 /pnas.2300255120
Sumber: Komuniti Antaramuka Komputer Otak
Atas ialah kandungan terperinci AI membantu penyelidikan antara muka otak-komputer, teknologi penyahkodan pertuturan saraf terobosan Universiti New York, diterbitkan dalam sub-jurnal Alam. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!