Rumah >Peranti teknologi >AI >Fellow IEEE Li Xuelong: Pengkomputeran kognitif multimodal adalah kunci untuk merealisasikan kecerdasan buatan am

Fellow IEEE Li Xuelong: Pengkomputeran kognitif multimodal adalah kunci untuk merealisasikan kecerdasan buatan am

王林ke hadapan: 2023-04-12 09:58:111816semak imbas

Dalam penyelidikan kecerdasan buatan yang dipacu data hari ini, maklumat yang disediakan oleh data modal tunggal tidak lagi dapat memenuhi keperluan untuk meningkatkan keupayaan kognitif mesin. Sama seperti cara manusia menggunakan pelbagai maklumat deria seperti penglihatan, pendengaran, bau dan sentuhan untuk melihat dunia, mesin juga perlu mensimulasikan sinestesia manusia untuk meningkatkan tahap kognitif.

Pada masa yang sama, dengan ledakan data spatio-temporal berbilang mod dan peningkatan kuasa pengkomputeran, penyelidik telah mencadangkan sejumlah besar kaedah untuk menampung keperluan yang semakin meningkat. . Walau bagaimanapun, pengkomputeran kognitif multi-modal semasa masih terhad untuk meniru kebolehan manusia yang jelas dan tidak mempunyai asas teori di peringkat kognitif. Menghadapi tugas pintar yang lebih kompleks, persimpangan sains kognitif dan sains pengkomputeran telah menjadi tidak dapat dielakkan.

Baru-baru ini, Profesor Li Xuelong dari Northwestern Polytechnical University menerbitkan artikel "Multimodal Cognitive Computing" dalam jurnal "Science China: Information Science", dengan tema "Information Capacity" ) sebagai asas, menubuhkan model pemindahan maklumat bagi proses kognitif, dan mengemukakan pandangan bahawa "pengkomputeran kognitif pelbagai mod boleh meningkatkan keupayaan pengekstrakan maklumat mesin" , secara teorinya mengkaji kognisi multimodal Tugas pengiraan disatukan.

Li Xuelong percaya bahawa pengkomputeran kognitif pelbagai mod adalah salah satu kunci untuk merealisasikan kecerdasan buatan am dan mempunyai aplikasi yang luas dalam bidang seperti prospek "Vicinagearth Security". Artikel ini meneroka model kognitif bersatu manusia dan mesin, dan memberi inspirasi kepada penyelidikan tentang pengkomputeran kognitif pelbagai mod.

Fellow IEEE Li Xuelong: Pengkomputeran kognitif multimodal adalah kunci untuk merealisasikan kecerdasan buatan am

Format petikan: Xuelong Li, “Pengkomputeran Kognitif Berbilang Modal,” SCIENTIA SINICA Informationis, DOI: 10.1360/SSI-2022- 0226

Li Xuelong ialah seorang profesor di Northwestern Polytechnical University. Beliau memfokuskan pada hubungan antara pemerolehan pintar, pemprosesan dan pengurusan data berdimensi tinggi Keselamatan", dsb. memainkan peranan dalam sistem aplikasi. Beliau telah dipilih sebagai Fellow IEEE pada tahun 2011 dan merupakan ulama tanah besar pertama yang dipilih untuk jawatankuasa eksekutif Persatuan Antarabangsa untuk Kepintaran Buatan (AAAI).

AI Technology Review meringkaskan perkara utama artikel "Multimodal Cognitive Computing" dan menjalankan dialog yang mendalam dengan Profesor Li Xuelong sepanjang arah ini.

1 Keupayaan kognitif mesin terletak pada penggunaan maklumat

Berdasarkan teori maklumat, Li Xuelong mencadangkan: Pengkomputeran kognitif pelbagai mod boleh meningkatkan mesin maklumat Keupayaan diekstrak dan perspektif ini dimodelkan secara teori (di bawah).

Pertama, kita perlu memahami cara manusia mengekstrak maklumat peristiwa.

Pada tahun 1948, Shannon, pengasas teori maklumat, mencadangkan konsep "entropi maklumat" untuk mewakili tahap ketidakpastian pembolehubah rawak Semakin kecil kebarangkalian sesuatu peristiwa, iaitu lebih besar jumlah maklumat kejadiannya memberikan besar. Maksudnya, dalam tugasan kognitif yang diberikan T, jumlah maklumat yang dibawa oleh kejadian peristiwa x adalah berkadar songsang dengan kebarangkalian kejadian p(x):

Fellow IEEE Li Xuelong: Pengkomputeran kognitif multimodal adalah kunci untuk merealisasikan kecerdasan buatan am

Dan maklumat dihantar menggunakan pelbagai modaliti sebagai pembawa Anggapkan ruang acara Jumlah maklumat yang diperolehi dalam ruang acara boleh ditakrifkan sebagai:

<.> Fellow IEEE Li Xuelong: Pengkomputeran kognitif multimodal adalah kunci untuk merealisasikan kecerdasan buatan am

Manusia mempunyai perhatian terhad dalam julat masa dan ruang tertentu (diandaikan sebagai 1), jadi apabila peristiwa ruang masa berubah daripada modaliti tunggal kepada pelbagai mod, manusia tidak perlu sentiasa menyesuaikan perhatian mereka dan fokus pada maklumat acara yang tidak diketahui untuk mendapatkan jumlah maksimum maklumat:

Fellow IEEE Li Xuelong: Pengkomputeran kognitif multimodal adalah kunci untuk merealisasikan kecerdasan buatan am

Ia dapat dilihat bahawa semakin banyak modaliti yang terkandung dalam acara ruang masa, semakin besar jumlah maklumat yang diperolehi individu, dan semakin tinggi tahap kognitifnya.

Jadi untuk mesin, lebih banyak maklumat yang diperolehi, lebih dekat mesin itu dengan tahap kognitif manusia?

Jawapannya tidak begitu. Untuk mengukur keupayaan kognitif mesin, Li Xuelong menyatakan proses mesin mengekstrak maklumat dari ruang acara seperti berikut berdasarkan teori "kapasiti keyakinan" . Antaranya, D ialah jumlah data ruang acara x.

Fellow IEEE Li Xuelong: Pengkomputeran kognitif multimodal adalah kunci untuk merealisasikan kecerdasan buatan am

Oleh itu, keupayaan kognitif mesin boleh ditakrifkan sebagai keupayaan untuk mendapatkan jumlah maksimum maklumat daripada unit data cara, manusia dan mesin Pembelajaran kognitif disatukan menjadi satu proses memperbaiki penggunaan maklumat.

Jadi, bagaimana untuk meningkatkan penggunaan data berbilang modal mesin dan dengan itu meningkatkan keupayaan pengkomputeran kognitif berbilang mod?

Sama seperti peningkatan kognisi manusia tidak dapat dipisahkan daripada persatuan, penaakulan, induksi dan deduksi dunia sebenar, untuk meningkatkan keupayaan kognitif mesin, ia juga perlu untuk memulakan daripada tiga aspek yang sepadan: Persatuan, penjanaan dan kerjasama, Ini juga merupakan tiga tugas asas analisis multimodal hari ini.

2 Tiga baris utama pengkomputeran kognitif multimodal

Tiga baris utama persatuan multimodal, penjanaan silang mod dan kolaborasi multimodal Tumpuan tugas pemprosesan data berbilang modal adalah berbeza, tetapi terasnya adalah menggunakan data sesedikit mungkin untuk memaksimumkan jumlah maklumat.

Persatuan berbilang modal

Bagaimana kandungan yang berasal daripada modaliti yang berbeza berkaitan dalam ruang, masa dan Surat-menyurat pada peringkat semantik? Ini adalah matlamat tugas persatuan pelbagai modal dan juga merupakan prasyarat untuk meningkatkan penggunaan maklumat.

Penjajaran maklumat multi-modal pada tahap spatial, temporal dan semantik adalah asas persepsi silang-modal, dan perolehan semula multi-modal adalah aplikasi persepsi dalam kehidupan sebenar , sebagai contoh, bergantung pada teknologi carian multimedia, kita boleh memasukkan frasa perbendaharaan kata untuk mendapatkan semula klip video.

Fellow IEEE Li Xuelong: Pengkomputeran kognitif multimodal adalah kunci untuk merealisasikan kecerdasan buatan am

Kapsyen: Gambar rajah penjajaran pelbagai mod

Diilhamkan oleh mekanisme persepsi sentuhan manusia, penyelidik AI telah menggunakan model yang boleh dikira untuk tugas persepsi silang modal seperti pembacaan bibir dan generasi modal yang hilang. Ia juga seterusnya membantu persepsi silang modal kumpulan kurang upaya. Pada masa hadapan, senario aplikasi utama persepsi silang modal tidak lagi terhad kepada aplikasi penggantian persepsi untuk orang kurang upaya, tetapi akan lebih bersepadu dengan persepsi silang deria manusia untuk meningkatkan tahap persepsi pelbagai deria manusia.

Pada masa kini, kandungan modal digital berkembang pesat, dan keperluan aplikasi untuk mendapatkan semula mod silang semakin banyak. Ini sudah pasti memberikan peluang dan cabaran baharu untuk pembelajaran persatuan pelbagai mod.

Generasi silang modal

Apabila kita membaca plot novel, gambar yang sepadan secara semula jadi akan muncul dalam minda kita, yang merupakan manifestasi penaakulan rentas modal manusia dan keupayaan generasi.

Begitu juga, dalam pengkomputeran kognitif multimodal, matlamat tugas penjanaan rentas mod adalah untuk memberi mesin keupayaan untuk menjana entiti modal yang tidak diketahui. Dari perspektif teori maklumat, intipati tugas ini adalah untuk meningkatkan keupayaan kognitif mesin dalam saluran maklumat berbilang modal Terdapat dua cara: satu adalah untuk meningkatkan jumlah maklumat, iaitu, sintesis silang modal, 🎜> The. kedua ialah

mengurangkan jumlah data, iaitu penukaran rentas modal.

Tugas sintesis silang modal adalah untuk memperkayakan maklumat sedia ada apabila menjana entiti modal baharu, dengan itu meningkatkan jumlah maklumat. Mengambil penjanaan imej berdasarkan teks sebagai contoh, pada zaman awal, perkaitan entiti digunakan terutamanya, yang sering bergantung pada perpustakaan perolehan semula. Hari ini, teknologi penjanaan imej terutamanya berdasarkan rangkaian lawan generatif, yang boleh menjana imej realistik dan berkualiti tinggi. Walau bagaimanapun, penjanaan imej wajah masih sangat mencabar, kerana dari peringkat maklumat, walaupun perubahan ekspresi kecil mungkin menyampaikan jumlah maklumat yang sangat besar.

Pada masa yang sama, menukar modaliti kompleks kepada modaliti mudah dan mencari ungkapan yang lebih ringkas boleh mengurangkan jumlah data dan meningkatkan keupayaan pemerolehan maklumat.

Fellow IEEE Li Xuelong: Pengkomputeran kognitif multimodal adalah kunci untuk merealisasikan kecerdasan buatan am

Kapsyen: Tugasan transformasi rentas modal biasa

Sebagai Contoh daripada gabungan penglihatan komputer dan teknologi pemprosesan bahasa semula jadi, penukaran rentas modal boleh meningkatkan kecekapan perolehan semula dalam talian. Contohnya, berikan penerangan bahasa semula jadi yang ringkas tentang video yang panjang lebar, atau jana isyarat audio yang berkaitan dengan sekeping maklumat video.

Dua model generatif arus perdana semasa, VAE (pengekod auto variasi) dan GAN (rangkaian musuh generatif), masing-masing mempunyai kekuatan dan kelemahan sendiri Li Xuelong percaya bahawa VAE bergantung pada andaian, manakala GAN boleh Penjelasan adalah lemah, dan kedua-duanya perlu digabungkan secara munasabah. Perkara yang sangat penting ialah cabaran tugas penjanaan pelbagai mod bukan sahaja terletak pada kualiti penjanaan, tetapi juga pada jurang semantik dan perwakilan antara modaliti yang berbeza Bagaimana untuk melaksanakan penaakulan pengetahuan di bawah premis jurang semantik perlu diselesaikan pada masa hadapan.

Kolaborasi multimodal

Dalam mekanisme kognitif manusia, induksi dan deduksi memainkan peranan yang penting, kita persepsi Multimodal seperti kerana apa yang dilihat, didengar, dihidu, dan disentuh boleh diringkaskan, digabungkan, dan disimpulkan bersama sebagai asas untuk membuat keputusan.

Begitu juga, pengkomputeran kognitif pelbagai mod juga memerlukan penyelarasan dua atau lebih data modal, bekerjasama antara satu sama lain untuk menyelesaikan tugas berbilang modal yang lebih kompleks, dan meningkatkan ketepatan dan keupayaan Generalisasi. Dari perspektif teori maklumat, intipatinya ialah gabungan maklumat berbilang modal untuk mencapai tujuan pelengkap maklumat, dan ia adalah pengoptimuman perhatian.

Pertama sekali, gabungan modal adalah untuk menyelesaikan masalah perbezaan data berbilang modal yang disebabkan oleh format data, penjajaran spatiotemporal, gangguan hingar, dsb. Pada masa ini, kaedah gabungan peraturan peluang termasuk gabungan bersiri, gabungan selari dan gabungan berwajaran, dan kaedah gabungan berasaskan pembelajaran termasuk model mekanisme perhatian, pembelajaran pemindahan dan penyulingan pengetahuan.

Kedua, selepas gabungan maklumat berbilang modal selesai, pembelajaran bersama maklumat modal diperlukan untuk membantu model melombong hubungan antara data modal dan mewujudkan hubungan antara modaliti atau sambungan pelengkap.

Melalui pembelajaran bersama, dalam satu pihak, prestasi modal boleh dipertingkatkan, seperti audio bimbingan visual, penglihatan bimbingan audio, penglihatan bimbingan mendalam dan aplikasi lain; boleh menyelesaikan masalah Tugasan mod tunggal sebelumnya yang sukar dicapai dengan cara modal, seperti pengkomputeran emosi yang kompleks, pemodelan wajah padanan audio, penjanaan muzik berpandukan audio-visual, dsb., adalah pembangunan arah pengkomputeran kognitif pelbagai mod pada masa hadapan.

3 Peluang dan Cabaran

Dalam beberapa tahun kebelakangan ini, teknologi pembelajaran mendalam telah menggalakkan pengkomputeran kognitif pelbagai mod dalam teori dan pembangunan kejuruteraan. Tetapi pada masa kini, keperluan aplikasi menjadi lebih pelbagai dan kelajuan lelaran data semakin pantas, yang menimbulkan cabaran baharu dan banyak peluang untuk pengkomputeran kognitif pelbagai mod.

Kita boleh melihat empat tahap peningkatan keupayaan kognitif mesin:

Pada peringkat data, penyelidikan pelbagai mod tradisional akan Pengumpulan dan pengiraan data dipisahkan kepada dua proses bebas, yang mempunyai kelemahan. Dunia manusia terdiri daripada isyarat analog berterusan, manakala mesin memproses isyarat digital diskret, dan proses penukaran pasti akan menyebabkan herotan dan kehilangan maklumat.

Dalam hal ini, Li Xuelong percaya bahawa optoelektronik pintar yang diwakili oleh rangkaian saraf optik boleh membawa penyelesaian Jika penderiaan dan pengiraan data berbilang mod boleh disepadukan, kecekapan pemprosesan maklumat mesin akan dipertingkatkan dan tahap kecerdasan akan bertambah baik.

Di peringkat maklumat, kunci kepada pengkomputeran kognitif ialah pemprosesan semantik peringkat tinggi dalam maklumat, seperti hubungan kedudukan dalam penglihatan, gaya imej, dan emosi menunggu muzik. Pada masa ini, tugas multimodal terhad kepada sasaran dan interaksi mudah dalam senario, dan tidak dapat memahami semantik logik yang mendalam atau semantik subjektif. Sebagai contoh, mesin boleh menghasilkan imej bunga yang mekar di padang rumput, tetapi ia tidak dapat memahami akal fikiran bahawa bunga layu pada musim sejuk.

Oleh itu, membina jambatan komunikasi antara logik kompleks dan maklumat semantik persepsi dalam modaliti yang berbeza, dan mewujudkan sistem pengukuran mesin yang unik merupakan trend utama dalam pengkomputeran kognitif pelbagai mod pada masa hadapan.

Pada peringkat mekanisme gabungan, cara melaksanakan pengoptimuman berkualiti tinggi bagi model berbilang modal yang terdiri daripada komponen heterogen adalah sukar pada masa ini. Kebanyakan pengkomputeran kognitif berbilang mod semasa mengoptimumkan model di bawah matlamat pembelajaran yang bersatu Strategi pengoptimuman ini tidak mempunyai pelarasan yang disasarkan kepada komponen heterogen dalam model, mengakibatkan masalah besar dalam model berbilang mod yang sedia ada didekati dari pelbagai aspek seperti pembelajaran mesin pelbagai mod dan kaedah teori pengoptimuman.

Di peringkat tugasan, kaedah pembelajaran kognitif mesin berbeza-beza mengikut tugasan Kami perlu mereka strategi pembelajaran untuk maklum balas tugasan untuk meningkatkan keupayaan menyelesaikan pelbagai tugasan yang berkaitan .

Selain itu, memandangkan kelemahan kaedah pembelajaran mesin "gaya penonton" semasa untuk memahami dunia daripada imej, teks dan data lain, kita boleh belajar daripada hasil penyelidikan sains kognitif, sepertiEmbodied AI ialah penyelesaian yang berpotensi: ejen pintar perlu berinteraksi secara pelbagai mod dengan persekitaran untuk terus berkembang dan membentuk keupayaan untuk menyelesaikan tugas yang kompleks.

4 Perbualan dengan Li Xuelong

Tinjauan Teknologi AI: Mengapa kita perlu memberi perhatian kepada pelbagai mod dalam tiruan penyelidikan kecerdasan? Data dan pengkomputeran kognitif multimodal? Apakah faedah dan halangan yang dibawa oleh pertumbuhan data multimodal kepada prestasi model?

Li Xuelong: Terima kasih atas soalan anda. Sebab mengapa kami memberi perhatian kepada dan mengkaji data berbilang modal ialah kecerdasan buatan pada asasnya bergantung kepada data Maklumat yang boleh diberikan oleh data mod tunggal sentiasa sangat terhad, manakala data berbilang modal boleh menyediakan berbilang Hierarki, berbilang perspektif. maklumat; sebaliknya, kerana dunia fizikal objektif adalah multi-modal, penyelidikan banyak masalah praktikal tidak boleh dipisahkan daripada data multi-modal, seperti mencari gambar melalui teks, mengenal pasti objek dengan mendengar muzik, dsb.

Kami menganalisis isu multimodal dari perspektif pengkomputeran kognitif, bermula dari sifat kecerdasan buatan Dengan membina sistem analisis multimodal yang boleh mensimulasikan corak kognitif manusia, kami berharap Mesin memahaminya sekeliling secara bijak seperti manusia.

Maklumat pelbagai mod yang rumit dan bersilang juga akan membawa banyak bunyi dan redundansi, meningkatkan tekanan pembelajaran model, menjadikan prestasi data berbilang modal lebih rendah daripada modaliti tunggal dalam beberapa kes. , yang menimbulkan cabaran yang lebih besar kepada reka bentuk model dan pengoptimuman.

Tinjauan Teknologi AI: Dari perspektif teori maklumat, apakah persamaan antara pembelajaran kognitif manusia dan pembelajaran kognitif mesin? Apakah kepentingan panduan penyelidikan mengenai mekanisme kognitif manusia untuk pengkomputeran kognitif multimodal? Apakah kesukaran yang akan dihadapi oleh pengkomputeran kognitif multimodal tanpa memahami kognisi manusia?

Li Xuelong: Aristotle percaya bahawa pemahaman orang tentang sesuatu bermula daripada perasaan, manakala Plato percaya bahawa melalui perasaan Apa yang keluar tidak boleh dipanggil pengetahuan.

Manusia menerima sejumlah besar maklumat luaran sejak lahir, dan secara beransur-ansur mewujudkan sistem kognisi diri melalui persepsi, ingatan, penaakulan, dll., dan keupayaan pembelajaran mesin dicapai melalui latihan sejumlah besar data Apa yang dicapai adalah terutamanya untuk mencari kesesuaian antara persepsi dan pengetahuan manusia. Menurut Plato, apa yang dipelajari oleh mesin bukanlah pengetahuan. Kami memetik teori "Kapasiti Maklumat" dalam artikel dan cuba mewujudkan hubungan kognitif antara manusia dan mesin bermula daripada keupayaan untuk mengekstrak maklumat.

Manusia menghantar maklumat multimodal ke otak melalui pelbagai saluran deria seperti penglihatan, pendengaran, bau, rasa, sentuhan, dll., menghasilkan rangsangan sendi korteks serebrum. Penyelidikan psikologi telah mendapati bahawa tindakan gabungan pelbagai deria boleh menghasilkan model pembelajaran kognitif seperti "integrasi pelbagai sensori", "sinesthesia", "penyusunan semula persepsi", dan "memori persepsi manusia ini adalah multimodal pengkomputeran". inspirasi, seperti memperoleh tugas analisis multimodal biasa seperti kolaborasi multimodal, persatuan multimodal, dan penjanaan rentas modal Ia juga telah menimbulkan perkongsian tempatan, memori jangka panjang dan jangka pendek, dan mekanisme analisis mesin biasa.

Pada masa ini, mekanisme kognitif manusia tidak jelas. Tanpa bimbingan penyelidikan kognitif manusia, pengkomputeran kognitif multimodal akan jatuh ke dalam perangkap pemasangan data Kami tidak dapat menilai sama ada model itu telah mempelajari pengetahuan yang diperlukan oleh orang ramai. Ini juga merupakan isu kontroversi dalam kecerdasan buatan. sedikit.

Komen Teknologi AI: Pandangan anda bahawa "pengkomputeran kognitif pelbagai mod boleh meningkatkan keupayaan pengekstrakan maklumat mesin" dari perspektif teori maklumat, secara khusus Apakah bukti menyokong ini dalam tugas pengkomputeran kognitif multimodal?

Li Xuelong: Soalan ini boleh dijawab dari dua aspek. Pertama, maklumat multimodal boleh meningkatkan prestasi modaliti tunggal dalam tugas yang berbeza. Sebilangan besar kerja telah mengesahkan bahawa apabila menambah maklumat bunyi, prestasi algoritma penglihatan komputer akan dipertingkatkan dengan ketara, seperti pengecaman sasaran, pemahaman pemandangan, dsb. Kami juga telah membina kamera alam sekitar dan mendapati bahawa dengan menggabungkan maklumat berbilang modal daripada penderia seperti suhu dan kelembapan, kualiti pengimejan kamera boleh dipertingkatkan.

Kedua, pemodelan bersama maklumat berbilang modal memberikan kemungkinan untuk mencapai tugas pintar yang lebih kompleks Contohnya, kami telah melakukan kerja pada "Listen to the Image" untuk maklumat Visual dikodkan menjadi bunyi, membolehkan orang buta "melihat" pemandangan di hadapan mereka, yang juga membuktikan bahawa pengkomputeran kognitif pelbagai mod membantu mesin mengekstrak lebih banyak maklumat.

Tinjauan Teknologi AI: Apakah kesalinghubungan antara penjajaran, persepsi dan perolehan semula dalam tugas persatuan pelbagai mod?

Li Xuelong: Hubungan antara ketiga-tiga ini agak rumit dalam artikel ini, saya hanya memberikan beberapa pandangan Awal saya sendiri. Premis untuk korelasi maklumat modal yang berbeza adalah bahawa mereka bersama-sama menerangkan kewujudan objektif yang sama Namun, korelasi ini sukar untuk ditentukan apabila maklumat luaran rumit atau terganggu. Ini memerlukan penyelarasan maklumat yang berbeza surat-menyurat yang berkaitan. Kemudian, atas dasar penyelarasan, persepsi dari satu modaliti ke modaliti yang lain dicapai.

Ini seperti apabila kita hanya melihat pergerakan bibir seseorang, kita seolah-olah boleh mendengar apa yang dia katakan. Fenomena ini juga berdasarkan perkaitan dan keselarasan unsur visual (Viseme) dan fonem (Fonem). Dalam kehidupan sebenar, kami telah mengaplikasikan lagi persepsi rentas modal ini pada aplikasi seperti mendapatkan semula, mendapatkan semula gambar atau kandungan video produk melalui teks, dan merealisasikan aplikasi korelasi berbilang modal yang boleh dikira.

Tinjauan Teknologi AI: DALL-E yang sangat popular baru-baru ini dan model lain ialah contoh tugas penjanaan silang modal, dan ia berfungsi dengan baik dalam imej penjanaan teks tasks , tetapi masih terdapat batasan besar dalam perkaitan semantik dan kebolehtafsiran imej yang dihasilkan. Pada pendapat anda, bagaimanakah masalah ini harus diselesaikan? Apa kesukarannya?

Li Xuelong: Menjana imej daripada teks ialah tugas "imaginasi" orang melihat atau mendengar ayat dan memahaminya , dan kemudian bergantung pada ingatan otak untuk membayangkan adegan yang paling sesuai untuk mencipta "deria gambar". Pada masa ini, DALL-E masih dalam peringkat menggunakan pembelajaran statistik untuk pemadanan data untuk meringkaskan dan meringkaskan set data berskala besar, yang merupakan pembelajaran mendalam yang terbaik pada masa ini.

Namun, jika anda benar-benar ingin mempelajari "imaginasi" orang, anda juga perlu mempertimbangkan model kognitif manusia untuk mencapai kecerdasan "tahap tinggi". Ini memerlukan penyepaduan silang antara sains saraf, psikologi dan sains maklumat Ini adalah satu cabaran dan peluang Dalam beberapa tahun kebelakangan ini, banyak pasukan juga telah melakukan kerja yang terbaik dalam bidang ini. Melalui penyepaduan silang pelbagai disiplin, meneroka teori kebolehkiraan model kognitif manusia juga merupakan salah satu hala tuju usaha pasukan kami. Kami percaya ia juga akan membawa kejayaan baharu dalam kecerdasan "peringkat tinggi".

Tinjauan Teknologi AI: Bagaimanakah anda mendapat inspirasi daripada sains kognitif dalam kerja penyelidikan anda? Apakah penyelidikan dalam sains kognitif yang anda minati?

Li Xuelong: Tanya dia betapa jelasnya? Datang untuk mendapatkan air hidup dari sumber. Saya sering memerhati dan memikirkan beberapa fenomena menarik dalam kehidupan seharian saya.

Dua puluh tahun yang lalu, saya melayari halaman web dengan gambar landskap Jiangnan Apabila saya mengklik pada muzik pada halaman web, saya tiba-tiba berasa seperti berada di sana untuk memikirkan hubungan antara pendengaran dan penglihatan dari perspektif kognitif. Dalam proses mempelajari sains kognitif, saya belajar tentang fenomena "Synaesthesia Digabungkan dengan hala tuju penyelidikan saintifik saya sendiri, saya menyiapkan artikel bertajuk "Visual Music and Musical Vision", yang juga pertama kali, " synesthesia" telah diperkenalkan ke dalam bidang maklumat.

Kemudian, saya membuka kursus pengkomputeran kognitif pertama dalam bidang maklumat, dan juga mewujudkan Jawatankuasa Teknikal Pengkomputeran Kognitif IEEE SMC, cuba memecahkan sempadan antara sains kognitif dan sains pengkomputeran pengkomputeran juga ditakrifkan pada masa itu, iaitu penerangan semasa di laman utama jawatankuasa teknikal. Pada tahun 2002, saya mencadangkan keupayaan untuk menyediakan maklumat per unit jumlah data, yang merupakan konsep "Kapasiti Maklumat", dan cuba mengukur keupayaan kognitif mesin Saya berbesar hati untuk membentangkannya pada tahun 2020 dengan tajuk "Multi -modal" "Pengkomputeran Kognitif" memenangi Anugerah Penerokaan Saintifik Tencent.

Sehingga kini, saya terus memberi perhatian kepada perkembangan terkini dalam sinestesia dan persepsi. Secara semula jadi, terdapat banyak mod di luar lima deria manusia, malah terdapat mod berpotensi yang masih belum jelas Sebagai contoh, kuantum kuantum mungkin menunjukkan bahawa ruang tiga dimensi yang kita tinggali hanyalah unjuran dimensi tinggi. ruang. Jika ini memang berlaku , maka kaedah pengesanan kami juga terhad. Mungkin mod berpotensi ini boleh dieksploitasi untuk membolehkan mesin mendekati atau bahkan mengatasi persepsi manusia.

Komen Teknologi AI: Mengenai isu bagaimana untuk menggabungkan kognisi manusia dengan kecerdasan buatan dengan lebih baik, anda mencadangkan untuk membina model berdasarkan "meta-modality" ( Meta- Modal) sebagai rangkaian interaksi modal teras, bolehkah anda memperkenalkan sudut pandangan ini? Apakah asas teorinya?

Li Xuelong: Metamodaliti sendiri adalah konsep yang berasal dari bidang neurosains kognitif Ia merujuk kepada keupayaan otak untuk Organisasi, yang tidak membuat andaian khusus tentang kategori deria maklumat input apabila melaksanakan fungsi atau operasi perwakilan tertentu, tetapi masih boleh mencapai prestasi pelaksanaan yang baik.

Metamodaliti bukanlah konsep aneh, pada asasnya ia adalah hipotesis dan mekanisme saintis kognitif yang mengintegrasikan persepsi silang-modal, keplastikan neuron dan fenomena dan mekanisme lain. Ia juga memberi inspirasi kepada kami untuk membina seni bina pembelajaran dan kaedah yang cekap antara modaliti yang berbeza untuk mencapai keupayaan perwakilan modal yang lebih umum.

Tinjauan Teknologi AI: Apakah aplikasi utama pengkomputeran kognitif pelbagai mod dalam dunia sebenar? Beri contoh.

Li Xuelong: Pengkomputeran kognitif pelbagai mod ialah penyelidikan yang sangat hampir dengan aplikasi praktikal. Pasukan kami sebelum ini telah melakukan kerja pada persepsi rentas modal, yang mengekodkan maklumat visual ke dalam isyarat bunyi dan merangsang korteks visual utama korteks serebrum Ia telah digunakan dalam membantu orang kurang upaya untuk membantu orang buta melihat dunia luar. Dalam kehidupan seharian, kami sering menggunakan teknologi pengkomputeran kognitif berbilang modal Contohnya, platform video pendek akan menggabungkan tag suara, imej dan teks untuk mengesyorkan video yang mungkin menarik minat pengguna.

Secara lebih luas, pengkomputeran kognitif pelbagai mod juga digunakan secara meluas dalam keselamatan di tapak yang disebut dalam artikel, seperti carian dan penyelamatan pintar, dron dan robot darat mengumpul bunyi, Pelbagai data seperti imej, suhu, kelembapan, dll. perlu disepadukan dan dianalisis dari perspektif kognitif, dan strategi mencari dan menyelamat yang berbeza boleh dilaksanakan mengikut situasi di tapak. Terdapat banyak aplikasi serupa, seperti pemeriksaan pintar, penderiaan jauh merentas domain, dsb.

Komen Teknologi AI: Anda menyebut dalam artikel anda bahawa tugas berbilang modal semasa adalah terhad kepada sasaran mudah dan interaksi dalam senario Setelah tugas yang lebih kompleks terlibat, Semantik logik yang mendalam atau semantik subjektif sukar dicapai. Jadi, adakah ini peluang untuk kebangkitan kecerdasan buatan simbolik? Apakah penyelesaian lain yang boleh dilaksanakan yang tersedia untuk meningkatkan keupayaan mesin memproses maklumat semantik peringkat tinggi?

Li Xuelong: Russell percaya bahawa kebanyakan nilai pengetahuan terletak pada ketidakpastiannya. Pembelajaran ilmu memerlukan kemesraan dan keupayaan untuk berinteraksi dan maklum balas dengan dunia luar. Kebanyakan penyelidikan yang kita lihat pada masa ini adalah modal tunggal, pasif, dan berorientasikan kepada data yang diberikan, yang boleh memenuhi keperluan penyelidikan beberapa matlamat dan senario mudah. Tetapi untuk semantik logik atau semantik subjektif yang lebih mendalam, adalah perlu untuk meneroka sepenuhnya dan menggali situasi yang boleh berinteraksi secara aktif dalam pelbagai dimensi masa dan ruang, dengan lebih banyak sokongan modal.

Untuk mencapai matlamat ini, kaedah dan kaedah penyelidikan mungkin mengambil lebih banyak daripada sains kognitif Sebagai contoh, sesetengah penyelidik merujuk kepada hipotesis "pengalaman yang terkandung" dalam sains kognitif yang diperkenalkan ke dalam bidang. kecerdasan buatan, kami meneroka masalah pembelajaran dan tugas baharu apabila mesin berinteraksi secara aktif dengan dunia luar dan memasukkan pelbagai maklumat mod, dan mendapat beberapa hasil yang memuaskan. Ini juga menunjukkan peranan dan kepentingan positif pengkomputeran kognitif multimodal dalam menghubungkan kecerdasan buatan dan sains kognitif.

Komen Teknologi AI: Optoelektronik pintar juga merupakan salah satu hala tuju penyelidikan anda idea. Apakah yang boleh dilakukan oleh optoelektronik pintar dari segi penderiaan dan pengkomputeran data berbilang modal?

Li Xuelong: Isyarat cahaya dan isyarat elektrik ialah cara utama orang ramai memahami dunia hari datang dari penglihatan Melangkah lebih jauh, maklumat visual terutamanya datang dari cahaya. Lima deria penglihatan, pendengaran, bau, rasa dan sentuhan manusia juga menukarkan sensasi yang berbeza seperti cahaya, gelombang bunyi, tekanan, bau dan rangsangan kepada isyarat elektrik untuk kognisi peringkat tinggi. Oleh itu, fotoelektrik adalah sumber maklumat utama bagi manusia untuk melihat dunia. Dalam beberapa tahun kebelakangan ini, dengan bantuan pelbagai peranti optoelektronik termaju, kami telah merasakan lebih banyak maklumat selain cahaya boleh dilihat dan gelombang bunyi yang boleh didengar.

Boleh dikatakan peralatan fotoelektrik adalah terkehadapan persepsi manusia terhadap dunia. Penyelidikan optoelektronik pintar yang kami sertai komited untuk meneroka integrasi perkakasan penderiaan optoelektronik dan algoritma pintar, memperkenalkan prior fizikal ke dalam proses reka bentuk algoritma, menggunakan keputusan algoritma untuk membimbing reka bentuk perkakasan dan membentuk "rasa" dan "pengiraan" maklum balas bersama, meluaskan sempadan persepsi, dan mencapai tujuan meniru atau bahkan mengatasi persepsi pelbagai modal manusia.

Tinjauan Teknologi AI: Apakah kerja penyelidikan yang sedang anda lakukan ke arah pengkomputeran kognitif pelbagai mod? Apakah matlamat penyelidikan masa depan anda?

Li Xuelong: Terima kasih atas soalan itu. Fokus semasa saya adalah pada pengkomputeran kognitif multimodal dalam Vicinagearth Security. Keselamatan dalam erti kata tradisional biasanya merujuk kepada keselamatan bandar. Pada masa ini, ruang aktiviti manusia telah berkembang ke altitud rendah, tanah dan bawah air. sistem.

Masalah besar yang dihadapi oleh keselamatan di tapak ialah cara memproses sejumlah besar data berbilang modal yang dijana oleh penderia yang berbeza, seperti membenarkan mesin memahami sistem tanpa pemandu dari perspektif manusia. Sasaran diperhatikan serentak oleh pesawat dan peralatan pemantauan darat. Ini melibatkan pengkomputeran kognitif pelbagai mod dan gabungan pengkomputeran kognitif pelbagai mod dan optoelektronik pintar.

Pada masa hadapan, saya akan terus mengkaji aplikasi pengkomputeran kognitif berbilang mod dalam keselamatan di tapak, dengan harapan dapat membuka hubungan antara pemerolehan dan pemprosesan data, dan menggunakan secara rasional "majukan "Pi-Noise" untuk mewujudkan sistem keselamatan di tapak yang disokong oleh pengkomputeran kognitif pelbagai mod dan optoelektronik pintar.

Atas ialah kandungan terperinci Fellow IEEE Li Xuelong: Pengkomputeran kognitif multimodal adalah kunci untuk merealisasikan kecerdasan buatan am. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan：

Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel sebelumnya：Video licin dijana berdasarkan GAN, dan kesannya sangat mengagumkan: tiada lekatan tekstur, pengurangan jitterArtikel seterusnya：Video licin dijana berdasarkan GAN, dan kesannya sangat mengagumkan: tiada lekatan tekstur, pengurangan jitter

Artikel berkaitan

Lihat lagi