Rumah >Peranti teknologi >AI >Antara muka otak-komputer, gelombang otak dan fMRI, AI sedang menguasai pembacaan minda
Membaca minda boleh dikatakan sebagai salah satu kuasa besar yang paling diinginkan manusia, dan ia juga mesti menjadi kuasa besar yang paling tidak diingini orang lain miliki. Hanya masukkan kata kunci "membaca minda" ke dalam enjin carian dan anda akan menemui sejumlah besar buku, video dan tutorial yang berkaitan, yang menunjukkan bahawa orang ramai terobsesi dengan keupayaan ini. Tetapi mengetepikan kandungan psikologi, tingkah laku atau mistik itu, dari sudut teknikal, terdapat corak dalam isyarat otak manusia, dan oleh itu membaca minda (menganalisis corak isyarat otak) adalah mungkin.
Kini, dengan perkembangan teknologi AI, keupayaannya untuk menganalisis corak menjadi lebih canggih, dan pembacaan minda menjadi kenyataan.
Beberapa hari lalu, kertas kerja yang diterbitkan oleh Universiti Texas di Austin dalam Nature Neuroscience membangkitkan perbincangan hangat, yang boleh membina semula urutan semantik yang konsisten dengan membaca isyarat otak secara tidak invasif -. Tidak menghairankan, model ini juga menggunakan model bahasa GPT yang popular pada masa ini. Tetapi mari kita ketepikan hasil terbaharu ini buat masa ini dan lihat beberapa hasil penyelidikan terdahulu lain mengenai bacaan minda AI untuk mendapatkan pemahaman kasar tentang landskap penyelidikan semasa mengenai topik ini.
Secara umum, bacaan minda boleh dibahagikan kepada dua kategori: bacaan minda secara langsung dan bacaan minda tidak langsung.
Bacaan minda tidak langsung merujuk kepada menyimpulkan pemikiran dan emosi seseorang melalui ciri-ciri tidak langsung. Ciri-ciri ini termasuk ekspresi muka, postur badan, suhu badan, kadar denyutan jantung, irama pernafasan, kelajuan dan nada bercakap, dsb. Dalam beberapa tahun kebelakangan ini, teknologi pembelajaran mendalam berdasarkan data besar telah membolehkan AI mengenal pasti emosi melalui ekspresi muka dengan agak tepat Contohnya, Deepface, perpustakaan perisian pengecaman muka sumber terbuka yang ringan, boleh menganalisis pelbagai ciri secara komprehensif seperti umur, jantina, emosi dan. perlumbaan. Mencapai 97.53% ketepatan set ujian. Walau bagaimanapun, teknologi analisis emosi berdasarkan ciri-ciri di atas biasanya tidak dianggap sebagai membaca minda Lagipun, manusia sendiri lebih kurang boleh meneka emosi orang lain melalui ekspresi dan ciri-ciri lain yang difokuskan dalam artikel ini terhad kepada pembacaan minda secara langsung.
Gunakan perpustakaan Deepfake untuk mendapatkan hasil analisis atribut wajah
Bacaan minda secara langsung merujuk kepada "menterjemah" isyarat otak secara langsung ke dalam bentuk yang boleh difahami oleh orang lain, seperti teks, suara dan imej. Pada masa ini, terdapat tiga jenis isyarat otak utama yang difokuskan oleh penyelidik: antara muka otak-komputer invasif, gelombang otak dan pengimejan neuro.
Antara muka otak-komputer yang mengganggu boleh dikatakan sebagai ciri standard kerja cyberpunk. Anda boleh membacanya dalam "Cyberpunk" 2077" dan banyak filem atau permainan lain. Idea asasnya ialah membaca isyarat elektrik yang dihantar antara sel saraf di dalam atau berhampiran otak atau sistem saraf. Isyarat otak yang dibaca secara invasif biasanya lebih tepat dan kurang bising daripada kaedah bukan invasif.
Pada tahun 2021, dalam kertas kerja "Neuroprosthesis untuk Menyahkod Pertuturan dalam Orang Lumpuh dengan Anarthria", penyelidik dari University of California, San Francisco mencadangkan menggunakan AI untuk membantu orang kurang upaya yang mengalami masalah pertuturan berkomunikasi. Dalam kajian ini, subjek adalah seorang yang kurang upaya sebelah tangan yang mempunyai pertuturan yang tidak jelas. Terutama, eksperimen mereka menggunakan implan saraf untuk memperoleh isyarat, yang menggunakan gabungan susunan elektrod EEG kortikal berketumpatan tinggi dan penyambung transkutan. Pendekatan mengganggu ini secara semula jadi membawa kepada ketepatan yang lebih tinggi - mencapai ketepatan maksimum 98% dan kadar penyahkodan median sebanyak 75%, dengan model itu dapat menyahkod pada kelajuan sehingga 18 perkataan seminit. Di samping itu, aplikasi model bahasa juga banyak meningkatkan ekspresi makna hasil penyahkodan, yang bukan lagi sekadar pengumpulan mudah rentetan.
Kemudian, pasukan itu menambah baik lagi sistem mereka dalam kertas kerja Nature Neuroscience 2022 "Ejaan umum menggunakan neuroprosthesis pertuturan dalam individu yang mengalami lumpuh anggota badan dan vokal yang teruk", mengintegrasikan Model bahasa yang muncul GPT meningkatkan lagi prestasi.
Rajah aliran kerja antara muka otak-komputer suara langsung
Khususnya, ia aliran kerja ialah:
Satu lagi penyelidikan antara muka otak-komputer yang boleh ditanam mendakwa telah berjaya mencapai pengecaman tulisan tangan yang cekap dan penukaran isyarat EEG kepada teks. Dalam kertas Nature "Komunikasi otak-ke-teks berprestasi tinggi melalui tulisan tangan," penyelidik di Universiti Stanford berjaya membolehkan orang lumpuh yang mengalami kecederaan saraf tunjang menaip pada kelajuan 90 aksara seminit, dan ketepatan dalam talian asal mencapai 94.1%, menggunakan Ketepatan luar talian model bahasa melebihi 99%!
Menyahkod isyarat otak subjek yang cuba menulis tangan dalam masa nyata
A dalam rajah ialah rajah skematik algoritma penyahkodan. Pertama, aktiviti saraf pada setiap elektrod digabungkan secara sementara dan dilicinkan. RNN kemudiannya digunakan untuk menukar siri masa populasi neural kepada siri masa kebarangkalian, yang menerangkan kemungkinan setiap watak dan kebarangkalian sebarang watak baharu bermula. RNN mempunyai kelewatan keluaran (d) selama 1 saat, memberikannya masa untuk memerhati sepenuhnya setiap aksara sebelum menentukan identitinya. Akhir sekali, tetapkan ambang kebarangkalian aksara untuk mendapatkan "output dalam talian asal" untuk kegunaan masa nyata (apabila kebarangkalian aksara baharu melebihi ambang tertentu pada masa t, aksara yang paling berkemungkinan diberikan pada masa t+0.3 saat dan dipaparkan pada skrin). Dalam analisis retrospektif luar talian, penyelidik menggabungkan kebarangkalian aksara dengan model bahasa dengan perbendaharaan kata yang besar untuk menyahkod teks yang paling mungkin ditulis oleh peserta.
Berdasarkan hasil penyelidikan sains otak dalam beberapa dekad kebelakangan ini, kita tahu bahawa terdapat arus kecil dalam proses penghantaran sel saraf isyarat dalam otak Ini menghasilkan turun naik elektromagnet yang halus. Apabila sebilangan besar sel saraf berfungsi secara serentak, turun naik elektromagnet ini boleh ditangkap menggunakan instrumen ketepatan bukan invasif. Pada tahun 1875, saintis mula-mula memerhatikan fenomena medan elektrik yang mengalir dikenali sebagai gelombang otak pada haiwan. Pada tahun 1925, Hans Berger mencipta electroencephalogram (EEG) dan merekodkan aktiviti elektrik otak manusia buat kali pertama. Dalam hampir seratus tahun sejak itu, teknologi EEG telah terus bertambah baik, dan ketepatan serta prestasi masa nyatanya telah mencapai tahap yang sangat tinggi dan telah digunakan secara komersil Kini anda malah boleh membeli peralatan pengesanan dan analisis gelombang otak mudah alih.
Beberapa sampel bentuk gelombang otak yang berbeza, dari atas ke bawah ialah gelombang gamma (melebihi 35Hz ), beta gelombang (12-35 Hz), gelombang alfa (8-12 Hz), gelombang theta (4-8 Hz), gelombang delta (0.5-4 Hz), yang secara kasarnya bersamaan dengan keadaan otak yang berbeza.
Dari segi menganalisis emosi dan pemikiran manusia melalui gelombang otak, kaedah yang paling biasa adalah menganalisis gelombang P300, iaitu gelombang otak yang dihasilkan oleh otak subjek kira-kira 300 milisaat selepas melihat rangsangan. Penyelidikan tentang menganalisis gelombang otak telah diteruskan tanpa gangguan sejak penemuan gelombang otak Sebagai contoh, pada tahun 2001, Lawrence Farwell, seorang penyelidik kontroversi dalam bidang itu, mencadangkan algoritma yang boleh mengesan sama ada subjek telah mengalami sesuatu dengan menilai tindak balas gelombang otak , dan walaupun subjek cuba menyembunyikannya, ia akan menjadi sia-sia. Dalam erti kata lain, ini adalah pengesan pembohongan berasaskan gelombang otak.
Memandangkan gelombang otak itu sendiri adalah isyarat dengan corak, adalah wajar untuk menggunakan rangkaian saraf untuk menganalisis gelombang otak. Di bawah ini kami akan memperkenalkan beberapa kaedah yang digunakan oleh saintis untuk menterjemah isyarat gelombang otak ke dalam pertuturan, teks dan imej melalui beberapa penyelidikan dalam beberapa tahun kebelakangan ini.
Pada 2019, pasukan penyelidik Rusia mencadangkan sistem antara muka otak-komputer visual (BCI) yang boleh membina semula imej berdasarkan gelombang otak. Idea penyelidikan adalah sangat mudah, iaitu mengekstrak ciri daripada isyarat gelombang otak, kemudian mengekstrak vektor ciri, kemudian memetakannya untuk mencari lokasi ciri dalam ruang tersembunyi, dan akhirnya menyahkod dan membina semula imej. Antaranya, penyahkod imej adalah sebahagian daripada model pengekod autokonvolusi imej-ke-imej, termasuk 1 lapisan input yang disambungkan sepenuhnya, diikuti dengan 5 modul penyahkonvolusi, setiap modul terdiri daripada 1 lapisan penyahkonvolusi dan Ia terdiri daripada pengaktifan ReLU, manakala pengaktifan modul terakhir ialah lapisan pengaktifan tangen hiperbolik.
Satu lagi komponen penting model ialah pemeta ciri EEG, yang berfungsi untuk menterjemah data daripada domain ciri EEG kepada domain ruang tersembunyi penyahkod imej. Pasukan itu menggunakan LSTM sebagai unit berulang dalam model dan menggunakan mekanisme perhatian untuk penyempurnaan selanjutnya. Fungsi kehilangannya adalah untuk meminimumkan ralat kuasa dua min antara perwakilan ciri EEG dan imej. Untuk butiran, lihat kertas kerja mereka "Pembinaan semula imej semulajadi daripada gelombang otak: sistem BCI visual novel dengan maklum balas asli."
Struktur model (a) dan rutin latihan (b) pemeta ciri EEG
Berikut ialah beberapa contoh keputusan, menunjukkan bahawa terdapat korelasi yang ketara antara imej yang dibina semula dan imej asal.
Imej asal yang dilihat oleh subjek (kiri setiap pasangan) dan imej asal mengikut otak subjek Imej yang dibina semula daripada gelombang (kanan setiap pasangan imej)
Pada tahun 2022, pasukan Meta AI mencadangkan kaedah untuk mengekstrak pertuturan daripada rakaman otak bukan invasif dalam kertas "Menyahkod pertuturan daripada rakaman otak bukan invasif" Seni bina rangkaian saraf yang menyahkod isyarat pertuturan daripada isyarat elektroensefalografi (EEG) atau magnetoensefalografi (MEG).
Rajah kaedah pasukan Meta AI
Pasukan itu menggunakan electroencephalogram atau magnetoencephalogram untuk merekodkan aktiviti otak peserta eksperimen semasa mereka mendengar cerita atau ayat. Untuk melakukan ini, model ini mula-mula mengekstrak perwakilan kontekstual yang mendalam bagi isyarat pertuturan 3 saat (Y) melalui model penyeliaan kendiri yang telah terlatih (wav2vec 2.0), dan juga mempelajari perwakilan aktiviti otak dalam 3 sejajar yang sepadan. -tetingkap kedua (X) (Z). Perwakilan Z diberikan oleh rangkaian konvolusi yang mendalam. Semasa penilaian, penyelidik memberi model ayat yang selebihnya dan mengira setiap segmen bahasa 3 saat berdasarkan setiap perwakilan otak. Akibatnya, proses penyahkodan ini boleh menjadi sifar tangkapan, membolehkan model meramalkan klip audio yang tidak disertakan dalam set latihan.
Para saintis juga boleh menggunakan teknologi yang dipanggil pengimejan resonans magnetik berfungsi (fMRI) untuk memahami aktiviti otak. Teknologi yang dibangunkan pada awal 1990-an berfungsi dengan melihat aliran darah dalam otak melalui pengimejan resonans magnetik untuk mengesan aktiviti otak. Teknologi ini boleh mendedahkan sama ada kawasan fungsi tertentu dalam otak aktif.
Apabila kita mengatakan kawasan otak tertentu "lebih aktif," apakah yang kita maksudkan? Bagaimanakah fMRI mengesan aktiviti ini?
Apabila neuron di kawasan otak mula menghantar lebih banyak isyarat elektrik berbanding sebelum ini, kita katakan kawasan otak lebih aktif. Sebagai contoh, jika kawasan otak tertentu menjadi lebih aktif apabila anda mengangkat kaki anda, maka kawasan otak itu boleh dianggap bertanggungjawab untuk mengawal angkat kaki.
fMRI mengesan aktiviti elektrik ini dengan mengesan tahap oksigen dalam darah. Ini dipanggil tindak balas bergantung paras oksigen darah (BOLD). Cara ia berfungsi ialah apabila neuron lebih aktif, mereka memerlukan lebih banyak oksigen daripada sel darah merah. Untuk melakukan ini, saluran darah di sekeliling melebar untuk membolehkan lebih banyak darah mengalir melaluinya. Jadi, apabila neuron lebih aktif, tahap oksigen meningkat. Darah beroksigen menghasilkan kurang gangguan medan daripada darah terdeoksigen, membolehkan isyarat neuron (yang pada asasnya hidrogen di dalam air) bertahan lebih lama. Jadi apabila isyarat berterusan lebih lama, fMRI tahu bahawa kawasan itu mempunyai lebih banyak oksigen, yang bermaksud ia lebih aktif. Selepas pengekodan warna aktiviti ini, imej fMRI diperolehi.
Seterusnya, mari kita lihat penyelidikan yang dinyatakan sebelum ini mengenai penggunaan GPT untuk membina semula ayat berterusan yang konsisten secara semantik "Pembinaan semula semantik bahasa berterusan daripada rakaman otak bukan invasif". Mereka mencadangkan penyahkod bukan invasif yang boleh membina semula bahasa semula jadi yang berterusan berdasarkan perwakilan kortikal makna semantik dalam rakaman fMRI. Apabila dipersembahkan dengan rakaman otak baharu, penyahkod dapat menjana urutan perkataan yang boleh difahami yang mereplikasi makna pertuturan yang didengar oleh subjek, pertuturan yang dibayangkan dan juga video senyap, menunjukkan bahawa penyahkod bahasa tunggal boleh digunakan Pelbagai tugas semantik yang berbeza. . Aliran kerja penyahkod bahasa ini adalah seperti berikut:
(a) Apabila tiga subjek mendengar 16 jam naratif BOLD Respons fMRI direkodkan semasa masa cerita. Sistem menganggarkan untuk setiap subjek model pengekodan yang meramalkan tindak balas otak yang ditimbulkan oleh ciri semantik perkataan yang digunakan sebagai rangsangan. (b) Untuk membina semula bahasa berdasarkan rakaman otak segar, penyahkod mengekalkan satu set urutan perkataan calon. Apabila perkataan baharu dikesan, model bahasa mencadangkan kesinambungan untuk setiap jujukan, dan model pengekodan kemudiannya digunakan untuk menilai kemungkinan tindak balas otak yang direkodkan untuk setiap keadaan kesinambungan. Urutan bersebelahan yang berkemungkinan besar dikekalkan terakhir.
Antaranya, model bahasa menggunakan model GPT yang kini menjadi teras penyelidikan AI. Para penyelidik memperhalusi GPT yang mereka gunakan pada korpus besar lebih daripada 200 juta perkataan komen Reddit dan 240 cerita autobiografi daripada The Moth Radio Hour dan Modern Love. Model ini dilatih selama 50 zaman dengan panjang konteks maksimum 100. Beberapa keputusan percubaan ditunjukkan di bawah:
Akhir sekali, mari kita lihat kertas kerja CVPR 2023 ini "Melihat Di Luar Otak " : Model Resapan Bersyarat dengan Pemodelan Bertopeng Jarang untuk Penyahkodan Penglihatan》. Penyelidik dari Universiti Nasional Singapura, Universiti China Hong Kong dan Universiti Stanford mendakwa bahawa model MinD-Vis yang mereka cadangkan telah mencapai pencapaian penyahkodan isyarat aktiviti otak berasaskan fMRI kepada imej untuk kali pertama, dan imej yang dibina semula adalah bukan sahaja kaya dengan butiran tetapi juga mengandungi ciri Semantik dan imej yang tepat (tekstur, bentuk, dll.).
Rajah aliran kerja MinD-Vis
Mari kita lihat dua peringkat kerja MinD-Vis. Seperti yang ditunjukkan dalam rajah, dalam peringkat A, pralatihan dilakukan pada fMRI menggunakan SC-MBM (Sparse Coding Masked Brain Modeling). Kemudian tutup fMRI secara rawak dan tokenkannya ke dalam benam yang besar. Para penyelidik melatih pengekod auto untuk memulihkan patch bertopeng. Dalam peringkat B, ia disepadukan dengan model resapan terpendam (LDM) melalui pelaziman berganda. Algoritma unjuran dimensi terpendam telah digunakan untuk mengunjurkan ruang terpendam fMRI ke ruang bersyarat LDM melalui dua laluan. Salah satu laluan adalah untuk menyambung secara langsung kepala perhatian silang dalam LDM. Laluan lain ialah menambah implikasi fMRI pada pembenaman temporal.
Berdasarkan keputusan eksperimen yang diberikan dalam kertas kerja, keupayaan membaca minda model ini sememangnya sangat baik:
Gambar kiri ialah gambar asal yang dilihat oleh subjek, kotak merah menandakan hasil pembinaan semula MinD-Vis dan tiga lajur seterusnya adalah Hasil daripada kaedah lain.
Dengan peningkatan jumlah data dan penambahbaikan algoritma, kecerdasan buatan memahami dunia kita dengan lebih dan lebih mendalam, dan kita manusia sebagai dunia Sebahagian daripada alam semula jadi juga merupakan objek yang perlu difahami - dengan meneroka corak aktiviti otak manusia, mesin memperoleh keupayaan untuk memahami apa yang manusia fikirkan dari bawah ke atas. Mungkin suatu hari nanti, AI boleh menjadi mahir membaca minda yang sebenar, malah mungkin mempunyai keupayaan untuk menangkap impian manusia dengan kesetiaan yang tinggi!
Perkara di atas hanya memperkenalkan secara ringkas beberapa hasil penyelidikan AI dalam pembacaan minda langsung Malah, beberapa syarikat telah mula mengusahakan pengkomersialan teknologi berkaitan, seperti Neuralink dan Brain-. antara muka komputer dan syarikat neuroteknologi yang diwakili oleh Blackrock Neurotech, produk berpotensi masa depan mereka akan mempunyai prospek aplikasi yang menarik, seperti membantu orang kurang upaya yang tidak dapat diungkapkan mewujudkan semula hubungan mereka dengan dunia, dan mengawal robot dari jauh yang beroperasi di kawasan berbahaya seperti laut dalam dan angkasa lepas. mesin. Pada masa yang sama, perkembangan teknologi ini juga telah memberi harapan kepada ramai orang untuk menguraikan misteri kesedaran manusia.
Sudah tentu, teknologi jenis ini juga menyebabkan ramai orang bimbang tentang privasi, keselamatan dan etika Lagipun, kita telah melihat jenis teknologi ini digunakan dalam banyak filem atau novel untuk tujuan jahat. Pada masa kini, perkembangan lanjut teknologi sedemikian tidak dapat dielakkan, jadi bagaimana untuk memastikan teknologi ini selaras dengan kepentingan manusia telah menjadi isu penting yang memerlukan pemikiran dan perbincangan oleh semua orang dan pembuat dasar yang berkaitan.
Atas ialah kandungan terperinci Antara muka otak-komputer, gelombang otak dan fMRI, AI sedang menguasai pembacaan minda. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!