Rumah > Artikel > Peranti teknologi > Kertas NetEase Yidun AI Lab dipilih untuk ICASSP 2023! Teknologi hitam menjadikan pengecaman pertuturan lebih "mendengar" dan lebih tepat
2023-06-07 17:42:41 Pengarang: Li Wenwen
Setiap peminat fiksyen sains mengimpikan untuk dapat melancarkan kapal angkasa antara bintang dan menakluki bintang dan laut dengan hanya beberapa perkataan pada masa hadapan, sama seperti bercakap dengan rakan lama Datang dengan satu set perisai pertempuran nano. Sebenarnya, gambar ini tidak jauh dari kami - ia sama dekat dengan kami seperti Siri dalam iPhone. Di belakangnya ialah teknologi Pengecaman Pertuturan Automatik. Teknologi utama ini boleh menukar pertuturan kepada teks atau perintah yang boleh dikenali oleh komputer, mencapai pengalaman interaksi manusia-komputer yang mudah, cekap dan pintar.
Dengan pembangunan teknologi AI seperti pembelajaran mendalam, teknologi pengecaman pertuturan telah mencapai kemajuan yang luar biasa - bukan sahaja ketepatan pengecaman telah dipertingkatkan dengan lebih baik, malah ia juga boleh menangani isu seperti aksen, hingar dan bunyi latar belakang dengan lebih baik. Walau bagaimanapun, apabila teknologi terus digunakan dalam kehidupan dan perniagaan, ia masih akan menghadapi beberapa kesesakan Lagipun, terdapat terlalu banyak faktor praktikal untuk dipertimbangkan daripada penyelidikan teori kepada aplikasi praktikal, daripada kertas kerja kepada produk. Bagaimana untuk menjadikan pengecaman pertuturan lebih baik membantu dalam semakan kandungan? Bagaimanakah tindakan pengiktirafan itu sendiri boleh menjadi seperti otak manusia, berdasarkan pemahaman konteks, dan memberikan jawapan yang lebih tepat pada kos yang lebih rendah? Yidun AI Lab, anak syarikat NetEase Intelligence, telah memberikan pendekatan baharu.
Yidun mempunyai satu lagi teknologi hitam, dan syarikat pintar bergerak ke arah dunia!
Baru-baru ini, persidangan ucapan dan akustik global ICASSP 2023 mengumumkan senarai kertas terpilih, dan kertas kerja yang diserahkan oleh Yidun AI Lab, anak syarikat NetEase Intelligence Enterprise, telah berjaya diterima. Tahun ini adalah persidangan ICASSP yang ke-48, dan ia juga merupakan persidangan luar talian pertama selepas wabak tersebut Walaupun pegawai persidangan belum mengumumkan jumlah akhir kertas kerja yang diterima, jumlah kertas yang dihantar telah meningkat sebanyak 50% berbanding tahun-tahun sebelumnya, mencecah. 6,000 + yang menakjubkan.
Berdepan dengan persaingan yang begitu sengit, pasukan NetEase Yidun AILab bergantung pada kertas mengenai pengecaman pertuturan "Meningkatkan ASRMmodels berasaskan CTC dengan Kolaborasi Antara Pemain Berpagar (penambahbaikan model berasaskan CTC untuk mencapai model yang lebih kukuh) Struktur)》 menyerlah dan berjaya mendapatkan tiket untuk menghadiri persidangan luar talian di Pulau Rhodes, Greece.
“GIC” membantu pengecaman pertuturan pergi lebih jauh
Pengecaman pertuturan pada asasnya ialah penukaran urutan pertuturan kepada urutan teks Untuk melengkapkan penukaran tersebut, secara amnya menggunakan tiga jenis model, CTC, berasaskan Perhatian dan RNN-Transducer Mereka sedang melengkapkan laluan yang berbeza digunakan semasa tugasan:
CTC: Berdasarkan model rangkaian saraf, parameter model dikemas kini melalui perambatan belakang semasa proses latihan untuk meminimumkan fungsi kehilangan. Algoritma ini memperkenalkan "aksara ruang putih" untuk mewakili aksara atau simbol ruang yang tidak bermakna. CTC sesuai untuk memproses data dengan perbezaan besar dalam panjang input dan output, seperti memetakan ciri akustik kepada teks dalam pengecaman pertuturan
Berasaskan perhatian: Mekanisme perhatian juga berdasarkan model rangkaian saraf dan menggunakan teknologi yang dipanggil "perhatian" untuk menimbang input. Pada setiap langkah masa, model mengira vektor berat teragih berdasarkan keadaan semasa dan semua input, dan menggunakannya pada semua input untuk menghasilkan purata wajaran sebagai output. Pendekatan ini membolehkan model memfokus dengan lebih baik pada beberapa maklumat yang berkaitan dengan ramalan semasa
RNN-Transducer: Transkriptor, algoritma ini menggabungkan rangka kerja pengekod-penyahkod dan idea pemodelan autoregresif, dan mempertimbangkan interaksi antara ayat bahasa sumber dan ayat bahasa sasaran separa yang dijana apabila menjana jujukan sasaran. Tidak seperti dua kaedah lain, RNN-Transducer tidak membezakan dengan jelas antara peringkat pengekod dan penyahkod, dan menukar terus daripada bahasa sumber kepada bahasa sasaran, jadi ia boleh mempertimbangkan secara serentak hubungan antara ayat bahasa sumber dan ayat bahasa sasaran separa yang dihasilkan interaksi.
Berbanding dengan dua yang terakhir, walaupun CTC mempunyai sifat penyahkodan bukan autoregresif semula jadi dan kelajuan penyahkodan jauh lebih pantas, ia masih mempunyai kelemahan prestasi:
1. Algoritma CTC menetapkan andaian kebebasan bersyarat , iaitu, CTC menganggap bahawa output setiap langkah masa adalah bebas. Ini tidak munasabah untuk tugasan pengecaman pertuturan Jika sebutan "ji rou" disebut, kandungan teks yang diramalkan harus berbeza dalam konteks yang berbeza. Jika ayat di atas adalah "Saya suka makan", kebarangkalian "ayam" sepatutnya lebih tinggi. Jika anda lulus latihan CTC, mudah untuk mengeluarkan teks lucu seperti "Saya suka makan otot" sambil mengabaikan perkara di atas; 2. Dari perspektif pemodelan, model berasaskan Perhatian dan model RNN-Transducer meramalkan output langkah masa semasa berdasarkan input dan output langkah masa sebelumnya, manakala model CTC hanya menggunakan input untuk meramalkan output semasa Semasa proses pemodelan model CTC, maklumat teks hanya dihantar semula ke rangkaian sebagai isyarat penyeliaan, dan tidak berfungsi sebagai input kepada rangkaian untuk mempromosikan ramalan model secara eksplisit.
Kami berharap dapat menyelesaikan dua kelemahan di atas sebaik mungkin sambil mengekalkan kecekapan penyahkodan CTC. Oleh itu, kami ingin bermula daripada model CTC itu sendiri dan mereka bentuk modul ringan untuk memperkenalkan maklumat teks ke dalam model berasaskan CTC, supaya model boleh menyepadukan maklumat akustik dan teks, mempelajari interaksi antara konteks jujukan teks, dan dengan itu mengurangkan andaian kebebasan bersyarat bagi algoritma CTC . Tetapi dalam proses itu, kami menghadapi dua masalah: Bagaimana untuk menyuntik maklumat teks ke dalam model CTC (Pengekod + struktur CTC)? Bagaimana untuk menyesuaikan ciri teks dan ciri akustik secara adaptif?
Untuk mencapai matlamat di atas, kami mereka bentuk mekanisme Kolaborasi Gated Interlayer (disingkat GIC) . Modul GIC terutamanya termasuk lapisan benam dan unit get. Antaranya, lapisan benam digunakan untuk menjana maklumat teks bagi setiap bingkai input audio, dan unit gating digunakan untuk menyesuaikan maklumat teks dan maklumat akustik secara adaptif.
Secara khusus, kaedah kami adalah berdasarkan rangka kerja pembelajaran berbilang tugas (Pembelajaran Pelbagai tugas), menggunakan output lapisan tengah modul pengekod (Pengekod) untuk mengira kehilangan CTC tambahan fungsi objektif keseluruhan rangkaian ialah kehilangan CTC lapisan terakhir dan lapisan tengah Jumlah wajaran kerugian CTC bantuan lapisan. GIC menggunakan ramalan lapisan tengah rangkaian, iaitu, taburan kebarangkalian keluaran Softmax, sebagai label lembut bagi setiap bingkai, dan jumlah matriks lapisan pembenaman produk titik sebagai perwakilan teks setiap bingkai. Akhir sekali, perwakilan teks yang dijana dan perwakilan akustik digabungkan secara adaptif melalui unit gating dan menjadi input ciri baharu ke lapisan seterusnya. Ciri baharu pada masa ini menggabungkan ciri teks dan ciri akustik, membolehkan modul Pengekod peringkat seterusnya mempelajari maklumat konteks jujukan akustik dan maklumat konteks jujukan teks. Rangka kerja keseluruhan model ditunjukkan dalam rajah di bawah:
Percubaan pada model Conformer dan Transformer menunjukkan:
1. GIC Menyokong pengecaman pemandangan dalam bahasa Cina dan Inggeris , sambil mencapai peningkatan prestasi yang ketara dalam ketepatan;
2. Prestasi model GIC melebihi model berasaskan Perhatian dan RNN-transduser dengan skala parameter yang sama, dan mempunyai kelebihan penyahkodan bukan autoregresifmembawa beberapa kali peningkatan dalam kelajuan penyahkodan ;
3. Berbanding dengan model CTC asal, GIC mempunyai peningkatan prestasi relatif jauh lebih daripada 10%dalam berbilang set data sumber terbuka.
Pengubah Kesimpulan berdasarkan model
Transformer Kesimpulan di bawah model
GIC membawa peningkatan hebat kepada prestasi model CTC. Berbanding dengan model CTC asal, modul GIC membawa kira-kira 2M parameter tambahan Antaranya, lapisan linear yang digunakan untuk mengira kehilangan CTC tambahan lapisan tengah dikongsi dengan lapisan terakhir dan tidak membawa parameter tambahan. Berbilang lapisan tengah berkongsi lapisan pembenaman, membawakan 256*5000 parameter yang lebih kurang sama dengan 1.3M. Di samping itu, jumlah parameter tambahan yang diperlukan untuk berbilang unit pintu kawalan ialah 256*256*2*k, berjumlah kira-kira 0.6M.
Teknologi terkemuka mencipta perniagaan yang maju
GIC dalam kertas kerja telah digunakan dalam perniagaan semakan kandungan NetEase Yidun.Sebagai jenama kawalan risiko kandungan digital sehenti di bawah NetEase Intelligence, Yidun telah lama menumpukan pada penyelidikan dan pembangunan teknologi serta inovasi dalam kawalan risiko keselamatan kandungan digital dan maklumat anti-spam. Antaranya, untuk kandungan digital yang menggunakan bunyi sebagai pembawa, Yidun menyediakan pelbagai enjin audit kandungan audio, termasuk pelbagai jenis kandungan audio seperti lagu, radio, program TV, siaran langsung dan sebagainya, untuk mengesan dan menapis kandungan dengan segera. yang mengandungi kandungan sensitif, menyalahi undang-undang dan kesat Suara kandungan pengiklanan, dengan itu mengurangkan kesan sosial kandungan buruk dan mewujudkan persekitaran rangkaian yang baik.
Untuk audio dengan kandungan semantik tertentu, Yidun menggunakan teknologi pengecaman pertuturan untuk menyalin kandungan pertuturan dalam fail audio ke dalam kandungan teks, dan kemudian menggunakan modul pengesanan untuk menganalisis dan memproses teks, dengan itu merealisasikan semakan dan penapisan automatik audio kandungan.
Oleh itu, ketepatan pengecaman pertuturan berkait rapat dengan kecekapan dan ketepatan semakan kandungan audio, yang secara langsung akan menjejaskan keselamatan dan kestabilan operasi perniagaan pelanggan.
Aplikasi GIC dalam semakan kandungan dalam kertas kerja telah mencapai peningkatan yang ketara. Dalam proses aplikasi sebenar, terdapat dua hiperparameter yang perlu dinyahpepijat, iaitu lambda pekali pembelajaran pelbagai tugas dan bilangan lapisan perantaraan k. Dalam struktur pengekod 18 lapisan, kami mendapati bahawa k=5 dan lambda=0.5 mempunyai keputusan eksperimen yang lebih baik. Kami kemudian mula dengan tetapan ini dan memperhalusinya untuk menentukan hiperparameter optimum.
?
Wira di sebalik tabir: NetEase Zhiqi Yidun AI Lab
Ini bukan kali pertama pasukan Yidun AI Lab menerima penghormatan dengan spesifikasi sedemikian.Sebagai pasukan teknikal di bawah Kepintaran NetEase yang sentiasa berada di barisan hadapan dalam penyelidikan kecerdasan buatan, Yidun AI Lab komited untuk membina keupayaan teknologi AI yang komprehensif, teliti, selamat dan boleh dipercayai di sekitar penghalusan, pemberat ringan dan ketangkasan, serta sentiasa menambah baik Tahap perkhidmatan kawalan risiko kandungan digital. Sebelum ini, pasukan
telah memenangi berbilang kejohanan pertandingan algoritma AI dan anugerah penting:
Pertandingan Kepintaran Buatan China yang pertama pada tahun 2019, sijil peringkat A tahap tertinggi dalam trek pengecaman benderaPertandingan Kepintaran Buatan China ke-2 pada tahun 2020, sijil peringkat A tertinggi dalam trek pengesanan pemalsuan dalam video
Pertandingan Kepintaran Buatan China ke-3 pada tahun 2021, dua sijil peringkat A paling maju untuk pengesanan palsu dalam video dan trek pengesanan palsu dalam audio
2021 "Bintang Inovasi" dan "Tokoh Inovatif" Perikatan Pembangunan Industri Kepintaran Buatan China
Persidangan Akademik Komunikasi Pertuturan Manusia-Komputer Kebangsaan Ke-16 (NCMMSC2021) "Pertandingan Pengecaman Multimodal Pelbagai Bahasa Video Panjang dan Pendek" - Juara Landasan Berganda Kata Kunci Langsung (VKW) Video Panjang dan Pendek Cina
Menerima hadiah pertama Anugerah Kemajuan Sains dan Teknologi daripada Kerajaan Wilayah Zhejiang pada tahun 2021
Pemenang Pertandingan Pengecaman Sari Kata Berbilang Modal ICPR 2022 (Pertandingan MSR, pertandingan pengecaman sari kata berbilang modal yang pertama di China) menjejaki tiga "Sistem Pengecaman Sari Kata Pelbagai Modal yang menyepadukan penglihatan dan audio"
Masa depan sudah tiba, dan masa untuk iPhone berkuasa AI telah tiba. Yidun telah berjaya memasuki dewan akademik fonetik hari ini, dan pada masa hadapan, teknologi akan membawa pencapaian dan kemajuan kepada semua aspek perniagaan, dan Yidun akan sentiasa berada di sisi anda.
Atas ialah kandungan terperinci Kertas NetEase Yidun AI Lab dipilih untuk ICASSP 2023! Teknologi hitam menjadikan pengecaman pertuturan lebih "mendengar" dan lebih tepat. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!