cari
RumahPeranti teknologiAIKertas NetEase Yidun AI Lab dipilih untuk ICASSP 2023! Teknologi hitam menjadikan pengecaman pertuturan lebih 'mendengar' dan lebih tepat

2023-06-07 17:42:41 Pengarang: Li Wenwen

Setiap peminat fiksyen sains mengimpikan untuk dapat melancarkan kapal angkasa antara bintang dan menakluki bintang dan laut dengan hanya beberapa perkataan pada masa hadapan, sama seperti bercakap dengan rakan lama Datang dengan satu set perisai pertempuran nano. Sebenarnya, gambar ini tidak jauh dari kami - ia sama dekat dengan kami seperti Siri dalam iPhone. Di belakangnya ialah teknologi Pengecaman Pertuturan Automatik. Teknologi utama ini boleh menukar pertuturan kepada teks atau perintah yang boleh dikenali oleh komputer, mencapai pengalaman interaksi manusia-komputer yang mudah, cekap dan pintar.

Dengan pembangunan teknologi AI seperti pembelajaran mendalam, teknologi pengecaman pertuturan telah mencapai kemajuan yang luar biasa - bukan sahaja ketepatan pengecaman telah dipertingkatkan dengan lebih baik, malah ia juga boleh menangani isu seperti aksen, hingar dan bunyi latar belakang dengan lebih baik. Walau bagaimanapun, apabila teknologi terus digunakan dalam kehidupan dan perniagaan, ia masih akan menghadapi beberapa kesesakan Lagipun, terdapat terlalu banyak faktor praktikal untuk dipertimbangkan daripada penyelidikan teori kepada aplikasi praktikal, daripada kertas kerja kepada produk. Bagaimana untuk menjadikan pengecaman pertuturan lebih baik membantu dalam semakan kandungan? Bagaimanakah tindakan pengiktirafan itu sendiri boleh menjadi seperti otak manusia, berdasarkan pemahaman konteks, dan memberikan jawapan yang lebih tepat pada kos yang lebih rendah? Yidun AI Lab, anak syarikat NetEase Intelligence, telah memberikan pendekatan baharu.

Yidun mempunyai satu lagi teknologi hitam, dan syarikat pintar bergerak ke arah dunia!

Baru-baru ini, persidangan ucapan dan akustik global ICASSP 2023 mengumumkan senarai kertas terpilih, dan kertas kerja yang diserahkan oleh Yidun AI Lab, anak syarikat NetEase Intelligence Enterprise, telah berjaya diterima. Tahun ini adalah persidangan ICASSP yang ke-48, dan ia juga merupakan persidangan luar talian pertama selepas wabak tersebut Walaupun pegawai persidangan belum mengumumkan jumlah akhir kertas kerja yang diterima, jumlah kertas yang dihantar telah meningkat sebanyak 50% berbanding tahun-tahun sebelumnya, mencecah. 6,000 + yang menakjubkan.

Berdepan dengan persaingan yang begitu sengit, pasukan NetEase Yidun AILab bergantung pada kertas mengenai pengecaman pertuturan "Meningkatkan ASRMmodels berasaskan CTC dengan Kolaborasi Antara Pemain Berpagar (penambahbaikan model berasaskan CTC untuk mencapai model yang lebih kukuh) Struktur)》 menyerlah dan berjaya mendapatkan tiket untuk menghadiri persidangan luar talian di Pulau Rhodes, Greece.

“GIC” membantu pengecaman pertuturan pergi lebih jauh

Pengecaman pertuturan pada asasnya ialah penukaran urutan pertuturan kepada urutan teks Untuk melengkapkan penukaran tersebut, secara amnya menggunakan tiga jenis model, CTC, berasaskan Perhatian dan RNN-Transducer Mereka sedang melengkapkan laluan yang berbeza digunakan semasa tugasan:

CTC: Berdasarkan model rangkaian saraf, parameter model dikemas kini melalui perambatan belakang semasa proses latihan untuk meminimumkan fungsi kehilangan. Algoritma ini memperkenalkan "aksara ruang putih" untuk mewakili aksara atau simbol ruang yang tidak bermakna. CTC sesuai untuk memproses data dengan perbezaan besar dalam panjang input dan output, seperti memetakan ciri akustik kepada teks dalam pengecaman pertuturan

Berasaskan perhatian: Mekanisme perhatian juga berdasarkan model rangkaian saraf dan menggunakan teknologi yang dipanggil "perhatian" untuk menimbang input. Pada setiap langkah masa, model mengira vektor berat teragih berdasarkan keadaan semasa dan semua input, dan menggunakannya pada semua input untuk menghasilkan purata wajaran sebagai output. Pendekatan ini membolehkan model memfokus dengan lebih baik pada beberapa maklumat yang berkaitan dengan ramalan semasa

RNN-Transducer: Transkriptor, algoritma ini menggabungkan rangka kerja pengekod-penyahkod dan idea pemodelan autoregresif, dan mempertimbangkan interaksi antara ayat bahasa sumber dan ayat bahasa sasaran separa yang dijana apabila menjana jujukan sasaran. Tidak seperti dua kaedah lain, RNN-Transducer tidak membezakan dengan jelas antara peringkat pengekod dan penyahkod, dan menukar terus daripada bahasa sumber kepada bahasa sasaran, jadi ia boleh mempertimbangkan secara serentak hubungan antara ayat bahasa sumber dan ayat bahasa sasaran separa yang dihasilkan interaksi.

Berbanding dengan dua yang terakhir, walaupun CTC mempunyai sifat penyahkodan bukan autoregresif semula jadi dan kelajuan penyahkodan jauh lebih pantas, ia masih mempunyai kelemahan prestasi:

1. Algoritma CTC menetapkan andaian kebebasan bersyarat , iaitu, CTC menganggap bahawa output setiap langkah masa adalah bebas. Ini tidak munasabah untuk tugasan pengecaman pertuturan Jika sebutan "ji rou" disebut, kandungan teks yang diramalkan harus berbeza dalam konteks yang berbeza. Jika ayat di atas adalah "Saya suka makan", kebarangkalian "ayam" sepatutnya lebih tinggi. Jika anda lulus latihan CTC, mudah untuk mengeluarkan teks lucu seperti "Saya suka makan otot" sambil mengabaikan perkara di atas; 2. Dari perspektif pemodelan, model berasaskan Perhatian dan model RNN-Transducer meramalkan output langkah masa semasa berdasarkan input dan output langkah masa sebelumnya, manakala model CTC hanya menggunakan input untuk meramalkan output semasa Semasa proses pemodelan model CTC, maklumat teks hanya dihantar semula ke rangkaian sebagai isyarat penyeliaan, dan tidak berfungsi sebagai input kepada rangkaian untuk mempromosikan ramalan model secara eksplisit.

Kami berharap dapat menyelesaikan dua kelemahan di atas sebaik mungkin sambil mengekalkan kecekapan penyahkodan CTC. Oleh itu, kami ingin bermula daripada model CTC itu sendiri dan mereka bentuk modul ringan untuk memperkenalkan maklumat teks ke dalam model berasaskan CTC, supaya model boleh menyepadukan maklumat akustik dan teks, mempelajari interaksi antara konteks jujukan teks, dan dengan itu mengurangkan andaian kebebasan bersyarat bagi algoritma CTC . Tetapi dalam proses itu, kami menghadapi dua masalah: Bagaimana untuk menyuntik maklumat teks ke dalam model CTC (Pengekod + struktur CTC)? Bagaimana untuk menyesuaikan ciri teks dan ciri akustik secara adaptif?

Untuk mencapai matlamat di atas, kami mereka bentuk mekanisme Kolaborasi Gated Interlayer (disingkat GIC) . Modul GIC terutamanya termasuk lapisan benam dan unit get. Antaranya, lapisan benam digunakan untuk menjana maklumat teks bagi setiap bingkai input audio, dan unit gating digunakan untuk menyesuaikan maklumat teks dan maklumat akustik secara adaptif.

Secara khusus, kaedah kami adalah berdasarkan rangka kerja pembelajaran berbilang tugas (Pembelajaran Pelbagai tugas), menggunakan output lapisan tengah modul pengekod (Pengekod) untuk mengira kehilangan CTC tambahan fungsi objektif keseluruhan rangkaian ialah kehilangan CTC lapisan terakhir dan lapisan tengah Jumlah wajaran kerugian CTC bantuan lapisan. GIC menggunakan ramalan lapisan tengah rangkaian, iaitu, taburan kebarangkalian keluaran Softmax, sebagai label lembut bagi setiap bingkai, dan jumlah matriks lapisan pembenaman produk titik sebagai perwakilan teks setiap bingkai. Akhir sekali, perwakilan teks yang dijana dan perwakilan akustik digabungkan secara adaptif melalui unit gating dan menjadi input ciri baharu ke lapisan seterusnya. Ciri baharu pada masa ini menggabungkan ciri teks dan ciri akustik, membolehkan modul Pengekod peringkat seterusnya mempelajari maklumat konteks jujukan akustik dan maklumat konteks jujukan teks. Rangka kerja keseluruhan model ditunjukkan dalam rajah di bawah:

Percubaan pada model Conformer dan Transformer menunjukkan:

1. GIC Menyokong pengecaman pemandangan dalam bahasa Cina dan Inggeris , sambil mencapai peningkatan prestasi yang ketara dalam ketepatan;

2. Prestasi model GIC melebihi model berasaskan Perhatian dan RNN-transduser dengan skala parameter yang sama, dan mempunyai kelebihan penyahkodan bukan autoregresif

membawa beberapa kali peningkatan dalam kelajuan penyahkodan ;

3. Berbanding dengan model CTC asal, GIC mempunyai peningkatan prestasi relatif jauh lebih daripada 10%

dalam berbilang set data sumber terbuka.

Pengubah Kesimpulan berdasarkan model

Transformer Kesimpulan di bawah model

GIC membawa peningkatan hebat kepada prestasi model CTC. Berbanding dengan model CTC asal, modul GIC membawa kira-kira 2M parameter tambahan Antaranya, lapisan linear yang digunakan untuk mengira kehilangan CTC tambahan lapisan tengah dikongsi dengan lapisan terakhir dan tidak membawa parameter tambahan. Berbilang lapisan tengah berkongsi lapisan pembenaman, membawakan 256*5000 parameter yang lebih kurang sama dengan 1.3M. Di samping itu, jumlah parameter tambahan yang diperlukan untuk berbilang unit pintu kawalan ialah 256*256*2*k, berjumlah kira-kira 0.6M.

Teknologi terkemuka mencipta perniagaan yang maju

GIC dalam kertas kerja telah digunakan dalam perniagaan semakan kandungan NetEase Yidun.

Sebagai jenama kawalan risiko kandungan digital sehenti di bawah NetEase Intelligence, Yidun telah lama menumpukan pada penyelidikan dan pembangunan teknologi serta inovasi dalam kawalan risiko keselamatan kandungan digital dan maklumat anti-spam. Antaranya, untuk kandungan digital yang menggunakan bunyi sebagai pembawa, Yidun menyediakan pelbagai enjin audit kandungan audio, termasuk pelbagai jenis kandungan audio seperti lagu, radio, program TV, siaran langsung dan sebagainya, untuk mengesan dan menapis kandungan dengan segera. yang mengandungi kandungan sensitif, menyalahi undang-undang dan kesat Suara kandungan pengiklanan, dengan itu mengurangkan kesan sosial kandungan buruk dan mewujudkan persekitaran rangkaian yang baik.

Untuk audio dengan kandungan semantik tertentu, Yidun menggunakan teknologi pengecaman pertuturan untuk menyalin kandungan pertuturan dalam fail audio ke dalam kandungan teks, dan kemudian menggunakan modul pengesanan untuk menganalisis dan memproses teks, dengan itu merealisasikan semakan dan penapisan automatik audio kandungan.

Oleh itu, ketepatan pengecaman pertuturan berkait rapat dengan kecekapan dan ketepatan semakan kandungan audio, yang secara langsung akan menjejaskan keselamatan dan kestabilan operasi perniagaan pelanggan.

Aplikasi GIC dalam semakan kandungan dalam kertas kerja telah mencapai peningkatan yang ketara. Dalam proses aplikasi sebenar, terdapat dua hiperparameter yang perlu dinyahpepijat, iaitu lambda pekali pembelajaran pelbagai tugas dan bilangan lapisan perantaraan k. Dalam struktur pengekod 18 lapisan, kami mendapati bahawa k=5 dan lambda=0.5 mempunyai keputusan eksperimen yang lebih baik. Kami kemudian mula dengan tetapan ini dan memperhalusinya untuk menentukan hiperparameter optimum.

?

Wira di sebalik tabir: NetEase Zhiqi Yidun AI Lab

Ini bukan kali pertama pasukan Yidun AI Lab menerima penghormatan dengan spesifikasi sedemikian.

Sebagai pasukan teknikal di bawah Kepintaran NetEase yang sentiasa berada di barisan hadapan dalam penyelidikan kecerdasan buatan, Yidun AI Lab komited untuk membina keupayaan teknologi AI yang komprehensif, teliti, selamat dan boleh dipercayai di sekitar penghalusan, pemberat ringan dan ketangkasan, serta sentiasa menambah baik Tahap perkhidmatan kawalan risiko kandungan digital. Sebelum ini, pasukan

telah memenangi berbilang kejohanan pertandingan algoritma AI dan anugerah penting:

Pertandingan Kepintaran Buatan China yang pertama pada tahun 2019, sijil peringkat A tahap tertinggi dalam trek pengecaman bendera

Pertandingan Kepintaran Buatan China ke-2 pada tahun 2020, sijil peringkat A tertinggi dalam trek pengesanan pemalsuan dalam video

Pertandingan Kepintaran Buatan China ke-3 pada tahun 2021, dua sijil peringkat A paling maju untuk pengesanan palsu dalam video dan trek pengesanan palsu dalam audio

2021 "Bintang Inovasi" dan "Tokoh Inovatif" Perikatan Pembangunan Industri Kepintaran Buatan China

Persidangan Akademik Komunikasi Pertuturan Manusia-Komputer Kebangsaan Ke-16 (NCMMSC2021) "Pertandingan Pengecaman Multimodal Pelbagai Bahasa Video Panjang dan Pendek" - Juara Landasan Berganda Kata Kunci Langsung (VKW) Video Panjang dan Pendek Cina

Menerima hadiah pertama Anugerah Kemajuan Sains dan Teknologi daripada Kerajaan Wilayah Zhejiang pada tahun 2021

Pemenang Pertandingan Pengecaman Sari Kata Berbilang Modal ICPR 2022 (Pertandingan MSR, pertandingan pengecaman sari kata berbilang modal yang pertama di China) menjejaki tiga "Sistem Pengecaman Sari Kata Pelbagai Modal yang menyepadukan penglihatan dan audio"

Masa depan sudah tiba, dan masa untuk iPhone berkuasa AI telah tiba. Yidun telah berjaya memasuki dewan akademik fonetik hari ini, dan pada masa hadapan, teknologi akan membawa pencapaian dan kemajuan kepada semua aspek perniagaan, dan Yidun akan sentiasa berada di sisi anda.

网易易盾 AI Lab 论文入选 ICASSP 2023!黑科技让语音识别越“听”越准

网易易盾 AI Lab 论文入选 ICASSP 2023!黑科技让语音识别越“听”越准

网易易盾 AI Lab 论文入选 ICASSP 2023!黑科技让语音识别越“听”越准

网易易盾 AI Lab 论文入选 ICASSP 2023!黑科技让语音识别越“听”越准

网易易盾 AI Lab 论文入选 ICASSP 2023!黑科技让语音识别越“听”越准

网易易盾 AI Lab 论文入选 ICASSP 2023!黑科技让语音识别越“听”越准

Atas ialah kandungan terperinci Kertas NetEase Yidun AI Lab dipilih untuk ICASSP 2023! Teknologi hitam menjadikan pengecaman pertuturan lebih 'mendengar' dan lebih tepat. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Artikel ini dikembalikan pada:搜狐. Jika ada pelanggaran, sila hubungi admin@php.cn Padam
Saya cuba pengekodan getaran dengan kursor AI dan ia menakjubkan!Saya cuba pengekodan getaran dengan kursor AI dan ia menakjubkan!Mar 20, 2025 pm 03:34 PM

Pengekodan Vibe membentuk semula dunia pembangunan perisian dengan membiarkan kami membuat aplikasi menggunakan bahasa semulajadi dan bukannya kod yang tidak berkesudahan. Diilhamkan oleh penglihatan seperti Andrej Karpathy, pendekatan inovatif ini membolehkan Dev

Top 5 Genai dilancarkan pada Februari 2025: GPT-4.5, Grok-3 & More!Top 5 Genai dilancarkan pada Februari 2025: GPT-4.5, Grok-3 & More!Mar 22, 2025 am 10:58 AM

Februari 2025 telah menjadi satu lagi bulan yang berubah-ubah untuk AI generatif, membawa kita beberapa peningkatan model yang paling dinanti-nantikan dan ciri-ciri baru yang hebat. Dari Xai's Grok 3 dan Anthropic's Claude 3.7 Sonnet, ke Openai's G

Bagaimana cara menggunakan Yolo V12 untuk pengesanan objek?Bagaimana cara menggunakan Yolo V12 untuk pengesanan objek?Mar 22, 2025 am 11:07 AM

Yolo (anda hanya melihat sekali) telah menjadi kerangka pengesanan objek masa nyata yang terkemuka, dengan setiap lelaran bertambah baik pada versi sebelumnya. Versi terbaru Yolo V12 memperkenalkan kemajuan yang meningkatkan ketepatan

Sora vs Veo 2: Mana yang mencipta video yang lebih realistik?Sora vs Veo 2: Mana yang mencipta video yang lebih realistik?Mar 10, 2025 pm 12:22 PM

Google's Veo 2 dan Openai's Sora: Generator Video AI Mana yang memerintah Supreme? Kedua -dua platform menghasilkan video AI yang mengagumkan, tetapi kekuatan mereka terletak di kawasan yang berbeza. Perbandingan ini, menggunakan pelbagai arahan, mendedahkan alat yang paling sesuai dengan keperluan anda. T

Google ' s Gencast: Peramalan Cuaca dengan Demo Mini GencastGoogle ' s Gencast: Peramalan Cuaca dengan Demo Mini GencastMar 16, 2025 pm 01:46 PM

Google Deepmind's Gencast: AI Revolusioner untuk Peramalan Cuaca Peramalan cuaca telah menjalani transformasi dramatik, bergerak dari pemerhatian asas kepada ramalan berkuasa AI yang canggih. Google Deepmind's Gencast, tanah air

Adakah chatgpt 4 o tersedia?Adakah chatgpt 4 o tersedia?Mar 28, 2025 pm 05:29 PM

CHATGPT 4 kini tersedia dan digunakan secara meluas, menunjukkan penambahbaikan yang ketara dalam memahami konteks dan menjana tindak balas yang koheren berbanding dengan pendahulunya seperti ChATGPT 3.5. Perkembangan masa depan mungkin merangkumi lebih banyak Inter yang diperibadikan

AI mana yang lebih baik daripada chatgpt?AI mana yang lebih baik daripada chatgpt?Mar 18, 2025 pm 06:05 PM

Artikel ini membincangkan model AI yang melampaui chatgpt, seperti Lamda, Llama, dan Grok, menonjolkan kelebihan mereka dalam ketepatan, pemahaman, dan kesan industri. (159 aksara)

O1 vs GPT-4O: Adakah model baru OpenAI ' lebih baik daripada GPT-4O?O1 vs GPT-4O: Adakah model baru OpenAI ' lebih baik daripada GPT-4O?Mar 16, 2025 am 11:47 AM

Openai's O1: Hadiah 12 Hari Bermula dengan model mereka yang paling berkuasa Ketibaan Disember membawa kelembapan global, kepingan salji di beberapa bahagian dunia, tetapi Openai baru sahaja bermula. Sam Altman dan pasukannya melancarkan mantan hadiah 12 hari

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Alat panas

mPDF

mPDF

mPDF ialah perpustakaan PHP yang boleh menjana fail PDF daripada HTML yang dikodkan UTF-8. Pengarang asal, Ian Back, menulis mPDF untuk mengeluarkan fail PDF "dengan cepat" dari tapak webnya dan mengendalikan bahasa yang berbeza. Ia lebih perlahan dan menghasilkan fail yang lebih besar apabila menggunakan fon Unicode daripada skrip asal seperti HTML2FPDF, tetapi menyokong gaya CSS dsb. dan mempunyai banyak peningkatan. Menyokong hampir semua bahasa, termasuk RTL (Arab dan Ibrani) dan CJK (Cina, Jepun dan Korea). Menyokong elemen peringkat blok bersarang (seperti P, DIV),

MinGW - GNU Minimalis untuk Windows

MinGW - GNU Minimalis untuk Windows

Projek ini dalam proses untuk dipindahkan ke osdn.net/projects/mingw, anda boleh terus mengikuti kami di sana. MinGW: Port Windows asli bagi GNU Compiler Collection (GCC), perpustakaan import yang boleh diedarkan secara bebas dan fail pengepala untuk membina aplikasi Windows asli termasuk sambungan kepada masa jalan MSVC untuk menyokong fungsi C99. Semua perisian MinGW boleh dijalankan pada platform Windows 64-bit.

SublimeText3 versi Inggeris

SublimeText3 versi Inggeris

Disyorkan: Versi Win, menyokong gesaan kod!

DVWA

DVWA

Damn Vulnerable Web App (DVWA) ialah aplikasi web PHP/MySQL yang sangat terdedah. Matlamat utamanya adalah untuk menjadi bantuan bagi profesional keselamatan untuk menguji kemahiran dan alatan mereka dalam persekitaran undang-undang, untuk membantu pembangun web lebih memahami proses mengamankan aplikasi web, dan untuk membantu guru/pelajar mengajar/belajar dalam persekitaran bilik darjah Aplikasi web keselamatan. Matlamat DVWA adalah untuk mempraktikkan beberapa kelemahan web yang paling biasa melalui antara muka yang mudah dan mudah, dengan pelbagai tahap kesukaran. Sila ambil perhatian bahawa perisian ini

VSCode Windows 64-bit Muat Turun

VSCode Windows 64-bit Muat Turun

Editor IDE percuma dan berkuasa yang dilancarkan oleh Microsoft