Rumah > Artikel > Peranti teknologi > Amalan teknologi suara Zuoyebang
Tetamu |. Wang Qiangqiang
Dianjurkan |. Liu Yuyao
Dalam persidangan teknologi kecerdasan buatan global AISummit yang dihoskan oleh 51CTO, Encik Wang Qiangqiang, ketua pasukan suara Zuoyebang, memimpin penonton Berikut adalah ucaptama "Amalan Teknologi Pertuturan Zuoyebang", yang mentafsir amalan teknologi pertuturan Zuoyebang dari tiga aspek: sintesis pertuturan, penilaian pertuturan dan pengecaman pertuturan Kandungan merangkumi pelaksanaan hujung ke hujung dalam pengecaman pertuturan, data yang cekap penggunaan, dan tinggi Membetulkan kesilapan sebutan pertuturan dalam senario serentak, serta meningkatkan keupayaan pembezaan faktor model dan anti-gangguan.
Untuk membolehkan lebih ramai pelajar yang berminat dalam teknologi suara memahami trend pembangunan semasa dan amalan teknikal teknologi suara yang canggih, kandungan ucapan guru Wang Qiangqiang kini disusun seperti berikut, dengan harapan dapat membawanya kepada anda Beberapa inspirasi.
Untuk teknologi sintesis pertuturan tradisional, ia akan mengambil masa sepuluh jam atau lebih untuk mensintesis sepenuhnya sesi rakaman yang panjang . Ini adalah cabaran besar untuk perakam, dan hanya sedikit orang yang dapat mengekalkan sebutan yang baik untuk masa yang lama. Melalui teknologi sintesis pertuturan volum data kecil, kita hanya perlu menggunakan berpuluh-puluh ayat dan beberapa minit pertuturan yang dituturkan oleh perakam untuk mencapai kesan sintesis pertuturan yang lengkap.
Teknologi sintesis pertuturan volum data kecil dibahagikan secara kasar kepada dua kategori. Kategori pertama adalah untuk situasi di mana anotasi dan pertuturan tidak sepadan Terdapat dua kaedah pemprosesan utama: satu ialah pembelajaran penyeliaan sendiri, yang menggunakan pembelajaran algoritma penyeliaan sendiri untuk mendapatkan surat-menyurat antara unit pemodelan dan audio, dan kemudian menggunakan. anotasi orang tertentu kepada Korpus ialah Finetune untuk mencapai kesan sintesis yang lebih baik yang kedua ialah mengenal pasti korpus tidak berlabel melalui ASR, dan menggunakan TTS untuk mensintesis dwi fungsi dan kaedah pembelajaran dwi untuk meningkatkan kesan sintesis TTS secara beransur-ansur.
Untuk pemadanan teks dan audio, kaedah pemprosesan utama juga dibahagikan kepada dua jenis: satu ialah membina model pra-latihan berbilang bahasa dengan korpus beranotasi. Yang lain adalah berdasarkan penyelesaian ini. Berbilang pembesar suara dalam bahasa yang sama dilatih dengan data beranotasi, dan Finetune dilakukan menggunakan data pembesar suara sasaran untuk mencapai kesan yang diingini.
Rangka kerja teknologi sintesis pertuturan Zuoyebang menggunakan FastSpeech2 dalam bahagian fonem. FastSpeech2 mempunyai kelebihan utama kelajuan sintesis pantas Pada masa yang sama, FastSpeech2 juga menyepadukan Tempoh, Pitch dan Peramal Tenaga, yang boleh memberikan kami ruang kebolehoperasian yang lebih besar bagi pilihan vocoder, kerja rumah membantu pasukan suara memilih Multi -Band MelGAN digunakan kerana Multi-Band MelGAN mempunyai kesan sintesis yang baik dan sangat pantas.
Selepas menentukan rangka kerja asas, perkara seterusnya yang perlu dilakukan ialah sintesis pertuturan berbilang pembesar suara. Idea biasa untuk sintesis pertuturan berbilang pembesar suara ialah menambah maklumat Pembenaman Pembesar Suara pada Pengekod, pelajari maklumat pembesar suara tertentu, dan kemudian gunakan model untuk melatih model sintesis pertuturan berbilang pembesar suara. Akhir sekali, gunakan pembesar suara khusus untuk melakukan beberapa Finetune yang mudah. Penyelesaian ini boleh memampatkan sepuluh jam keperluan rakaman kepada kira-kira satu jam, tetapi dalam praktiknya, masih sukar untuk mengumpul rakaman satu jam yang boleh memenuhi piawaian latihan model. Matlamat sintesis pertuturan data kecil pada asasnya adalah untuk menggunakan lebih sedikit bunyi untuk mensintesis bunyi yang agak baik.
Oleh itu, pasukan suara Zuoyebang belajar daripada penyelesaian yang menang dalam pertandingan M2VOC, dan akhirnya memilih gabungan Pembenam Pembesar Suara berasaskan D-Vector dan ECAPA, dan melakukan peningkatan tiga kali ganda, termasuk peningkatan Pembesaran Pembesar Suara ; menggunakan FastSpeech2 Transformer dinaik taraf kepada Conformer dan maklumat Speaker ditambahkan pada LayerNorm.
Rangka kerja teknologi asas untuk penilaian suara Zuoyebang pada asasnya berdasarkan GOP pemarkahan Tentukan seberapa baik pengguna menyebut perkataan atau ayat. Tetapi dari segi model, ia telah dinaik taraf kepada Conformer dan CGC+ berasaskan perhatian, proses latihan model hujung ke hujung yang lengkap. GOP sangat bergantung pada bunyi dan fonem, iaitu tahap penjajaran unit pemodelan, jadi apabila melatih model, kami menambah maklumat penjajaran korpus yang diperoleh melalui model GMM. Melalui model yang diperakui sepenuhnya dan maklumat sepadan yang diselaraskan, model yang sangat berkesan boleh dilatih dengan menggabungkan kekuatan kedua-duanya memastikan bahawa skor GOP adalah agak tepat.
Senario penilaian secara semula jadi sensitif terhadap kelewatan, jadi kelewatan dan rangkaian adalah dua isu utama dalam pelaksanaan sistem penilaian GOP. Jika kependaman adalah tinggi dan prestasi masa nyata adalah lemah, keseluruhan pengalaman pengguna akan sangat terjejas. Di samping itu, jika terdapat masalah dengan rangkaian dan persekitaran rangkaian pengguna berubah-ubah, ditambah pula dengan kelewatan rangkaian, adalah mudah untuk masa pewarnaan yang dirasakan pengguna melebihi satu saat, yang akan menyebabkan perasaan genangan yang sangat jelas, menjejaskan dengan serius. keseluruhan kesan kursus.
Untuk masalah di atas, masalah kelewatan dan ingatan berlebihan boleh diselesaikan secara algoritma melalui Chunk Mask. Chunk melihat sehingga dua bingkai ke hadapan dan sehingga lima bingkai ke belakang, dan masalah kelewatan telah diselesaikan.
Apabila algoritma sebenar diuji dalam amalan, kelewatan kerasnya hanya kira-kira 50 milisaat, yang bermaksud perkataan itu akan diaktifkan pada dasarnya 50 milisaat adalah sangat pantas dalam persepsi manusia. Jadi sekurang-kurangnya pada peringkat algoritma, masalah kelewatan sukar diselesaikan. Ini adalah peringkat pertama kerja yang kami lakukan.
Platform bersepadu awan peranti boleh menyelesaikan masalah yang disebabkan oleh konkurensi tinggi dan penghantaran rangkaian. Platform ini secara automatik boleh menentukan sama ada telefon mudah alih pengguna mempunyai kuasa pengkomputeran yang mencukupi. Jika mencukupi, ulasan tempatan akan diutamakan. Jika kuasa pengkomputeran tidak mencukupi, permintaan akan dihantar ke awan, dan awan akan melakukan penilaian. Jika terdapat sebarang masalah secara tempatan, kitaran hayatnya juga dikawal.
Melalui penyelesaian ini, kami telah menyelesaikan masalah yang disebabkan oleh konkurensi tinggi serta-merta Memandangkan sebahagian daripada kuasa pengkomputeran dipindahkan ke penghujung, awan hanya perlu mengekalkan 20% mesin asal untuk mencapai operasi biasa. Ini Sangat menjimatkan sumber. Di samping itu, selepas menyetempatkan algoritma, masalah kelewatan juga telah diselesaikan, yang boleh memberikan sokongan yang baik untuk tugas penilaian berskala besar dan membawa pengguna pengalaman audio-visual yang lebih baik.
Latar belakang permintaan untuk pembetulan ralat sebutan ialah isu kontekstual dan kekurangan sumber pendidikan Begitu juga, titik kesakitan ini boleh diselesaikan menggunakan teknologi penilaian. Dengan mengoptimumkan teknologi penilaian, kita boleh menentukan sama ada sebutan itu betul dan mengenal pasti di mana terdapat masalah dengan sebutan.
Dari segi pemilihan teknologi, walaupun sistem penilaian adalah skim penilaian yang stabil berdasarkan GOP, skema GOP sangat bergantung pada penjajaran unit audio dan pemodelan Jika masa mula tidak tepat, sisihan akan menjadi agak besar Diskriminasi akan menjadi lebih teruk. Oleh itu, pelan asal tidak sesuai untuk senario pembetulan bunyi seperti ini. Selain itu, idea GOP adalah menggunakan beberapa pengetahuan pakar untuk membetulkan dan membimbing sebutan Hilang dan menambah sebutan dalam membetulkan sebutan akan menjadi sangat menyakitkan untuk GOP berurusan dan memerlukan terlalu banyak sokongan manual. Ini memerlukan penyelesaian yang lebih fleksibel, jadi kami akhirnya memilih penyelesaian ASR untuk pembetulan ralat sebutan.
Kelebihan besar skim ASR ialah proses latihan yang mudah dan tidak memerlukan terlalu banyak maklumat penjajaran. Walaupun sebutan itu salah, ia tidak akan banyak memberi kesan kepada diskriminasi fonem kontekstual. ASR mengendalikan bacaan tambahan dan bacaan yang terlepas, dan mempunyai kelebihan teori dan teknikal semula jadi. Jadi kami akhirnya memilih model ASR hujung ke hujung tulen sebagai asas teknikal untuk pembetulan ralat sebutan kami.
Pada masa yang sama, Zuoyebang juga telah melakukan beberapa kerja pengoptimuman dan inovasi atas dasar ini. Pertama, maklumat teks priori ditambah kepada latihan model melalui modul Perhatian kedua, ralat disimulasikan melalui penggantian rawak untuk melatih model supaya ia mempunyai keupayaan pembetulan ralat ketiga, kerana model tidak cukup dibezakan, kami Ralat berlapis , dan beberapa ralat kecil tidak akan dinilai salah. Melalui penyelesaian di atas, kadar penggera palsu akhirnya dikurangkan dengan ketara, sambil memastikan bahawa kehilangan kadar penarikan balik tidak begitu besar, dan kadar ketepatan diagnosis juga dipertingkatkan.
Rangka kerja teknologi pengecaman pertuturan Zuoyebang ialah rangka kerja pengecaman pertuturan hujung ke hujung, berbanding dengan HMM-GMM/ DNN Penyelesaian mempunyai kelebihan yang sangat jelas: pertama, ia mengelakkan banyak operasi pengelompokan yang kompleks dan operasi penjajaran kedua, proses latihan adalah lebih mudah ketiga, rangka kerja hujung-ke-hujung tidak memerlukan kamus sebutan keempat; boleh belajar pada masa yang sama Untuk maklumat fonem dan maklumat urutan, ia adalah setara dengan pembelajaran model akustik dan model bahasa bersama-sama.
Sudah tentu, kelemahannya juga jelas adalah sukar bagi model hujung ke hujung untuk menggunakan lebih banyak data pertuturan atau teks pada permulaan, dan kosnya korpus pelabelan adalah sangat tinggi. Keperluan kami ialah pemilihan dalaman mesti mencapai matlamat untuk mempunyai model generasi hujung ke hujung, mengikuti algoritma terkini dan dapat menggabungkan maklumat model korpus.
Apabila bercakap tentang CTC-CRF, anda perlu mengetahui CTC terlebih dahulu. CTC dilahirkan untuk memodelkan keseluruhan ayat Selepas kemunculan CTC, melatih model akustik keseluruhan ayat tidak lagi memerlukan penjajaran antara fonem dan audio. Topologi CTC, di satu pihak, memperkenalkan Blank untuk menyerap senyap, yang boleh menyerap senyap di luar unit pemodelan berkesan sebenar. Sebaliknya, apabila ia mengira kebarangkalian keseluruhan ayat, ia menggunakan algoritma pengaturcaraan dinamik berdasarkan π untuk mengekalkan laluan keseluruhan ayat dalam skala yang agak munasabah, yang boleh mengurangkan jumlah pengiraan. Ini adalah kerja yang sangat hebat oleh CTC.
Sistem pengecaman pertuturan CTC-CRF yang digunakan secara dalaman oleh Zuoyebang. Fahami formula dan muatkan kebarangkalian keseluruhan ayat melalui CRF. Kebarangkalian keseluruhan ayat ialah urutan yang inputnya ialah X dan outputnya ialah π (π diwakili oleh topologi CTC di atas), jadi ia dipanggil CTC-CRF.
Perkara yang paling penting tentang CRF ialah fungsi berpotensi dan keseluruhan perancangan fungsi berpotensi. Fungsi potensi ialah kebarangkalian bersyarat bahawa input ialah X dan output ialah πt, ditambah dengan kebarangkalian keseluruhan ayat Mereka sebenarnya sepadan dengan nod dan tepi dalam CRF.
CTC-CRF agak berbeza daripada idea model akustik yang biasa digunakan. Model akustik yang biasa digunakan termasuk empat DNN-HMM, CTC, RNNT dan AED berikut.
Model kebarangkalian bersyarat asas bagi RNNT ialah kebarangkalian input X dan output Y. Matlamat pemasangan ialah maxθ dan parameternya untuk memaksimumkan kebarangkalian ini.
CTC ditunjukkan dalam rajah Satu andaian CTC adalah jelas, iaitu andaian kebebasan bersyarat Tiada hubungan antara keadaannya dan hubungan kebarangkalian bersyarat antara mereka tidak dipertimbangkan.
RNNT mempertimbangkan kebarangkalian bersyarat bagi keadaan semasa dan semua keadaan sejarah, seperti yang dapat dilihat dengan jelas dalam rajah. Perkara yang sama berlaku untuk AED, yang mempertimbangkan kebarangkalian bersyarat bagi keadaan semasa dan keadaan sejarah.
Tetapi CTC-CRF sebenarnya bukanlah model penormalan tempatan berdasarkan kebarangkalian bersyarat. Ia adalah model penormalan keseluruhan ayat dan model penormalan global. Jadi kita melihat bahawa ia bukan sahaja bergantung pada sejarah, tetapi juga pada masa depan Ia sebenarnya boleh mempertimbangkan maklumat kebarangkalian keseluruhan ayat. Ini adalah perbezaan teori terbesar mereka.
Kami menggunakan CTC-CRF terlebih dahulu dalam lapisan Loss, yang merupakan Pengekod dan Penyahkod standard yang sedang digunakan, dan kemudian menambah CTC-CRF dan Loss untuk melatih Model akustik, tamat -proses model akustik hingga akhir. Lapisan Loss menggunakan CTC-CRF Loss dan bukannya CTC Loss asal. CTC-CRF dimodelkan pada peringkat Telefon, tetapi di Attention, Perhatian kami dibuat dengan mengambil kira pemodelan peringkat Word. Dua ciri tahap Telefon dan Word digunakan untuk melatih model.
Akhir sekali, mengenai kesan khusus, ini adalah kesan beberapa alatan sumber terbuka pada set ujian Aishell1, dan bilangan parameter juga ditandakan. Ia boleh dilihat bahawa yang berasaskan CTC-CRF mempunyai kelebihan yang agak.
Dengan algoritma, kesan teori juga sangat baik Melihat dari segi perniagaan, sisi perniagaan masih berbeza, tetapi semua pihak perniagaan mempunyai daya tarikan yang sama, iaitu untuk mencapai kecekapan yang optimum. Untuk menyelesaikan masalah ini, terdapat penyelesaian kata panas. Penyelesaian perkataan panas dapat menyelesaikan masalah ini dengan sempurna dan dengan cepat mengenal pasti perkataan yang ingin dikenal pasti oleh pihak perniagaan.
Penyelesaian kata panas yang biasa dilakukan ialah menambahkan graf kata panas yang dikembangkan pada TLG. Gambar di atas ialah gambarajah penyahkodan WFST bagi Ngram tiga peringkat biasa Garis pepejal mewakili kebarangkalian bersyarat dan garis putus-putus ialah kebarangkalian mundur.
Penyelesaian Zhuoyebang ialah penyelesaian perkataan panas berdasarkan automata awalan Ini kerana skala perkataan panas adalah sangat besar yang akan mewujudkan kesesakan kecekapan. Ia sangat sesuai menggunakan automata awalan untuk menyelesaikan masalah padanan rentetan berbilang corak, terutamanya untuk rentetan yang memukul, menutup atau menutup perkataan panas dalam senarai perkataan panas. Urutan seperti sher merangkumi dua perkataan panas, iaitu dia dan dia Dalam skema automaton awalan ini, selepas mendapatkan dia, anda boleh melompat terus kepadanya, dan anda boleh mencari berbilang perkataan panas yang terkandung dalam rentetan. Kesimpulannya ialah penyelesaian ini cukup pantas dan boleh menjimatkan sedikit ruang storan.
Terdapat juga beberapa masalah apabila penyelesaian ini digunakan sebenarnya. Membina pokok awalan masih memerlukan melintasi keseluruhan pokok awalan, yang agak mahal. Kerana perkataan panas perlu ditambah dalam masa nyata, ia boleh ditambah pada bila-bila masa dan berkuat kuasa pada bila-bila masa. Untuk menyelesaikan masalah ini, kami akhirnya membuat satu atau dua pokok, satu adalah pokok awalan biasa, dan satu lagi adalah automaton awalan Iaitu, perkataan panas pengguna ditambahkan pada pokok awalan biasa kesan serta-merta, yang bersamaan dengan berada dalam talian pada bila-bila masa , kata-kata panas boleh diaktifkan. Selepas melebihi ambang, automaton awalan akan dibina secara automatik, dengan itu pada asasnya memenuhi permintaan sekumpulan pengguna.
Terutamanya melalui tiga arah, satu hingga dua mata dalam setiap arah Kaedah penyahsulitan teknologi ini menyelesaikan pelaksanaan teknologi suara Zuoyebang dan proses pelaksanaan semasa pelaksanaan dihadapi, dan bagaimana akhirnya menghasilkan penyelesaian yang secara relatifnya boleh memenuhi keperluan pihak perniagaan.
Tetapi sebagai tambahan kepada tiga mata ini, kumpulan suara juga telah mengumpul banyak kebolehan atom suara. Tahap penilaian adalah sangat terperinci, malah peningkatan bacaan, bacaan hilang, bacaan berterusan, bersuara, loghat, naik dan turun intonasi semuanya dilakukan. Pengiktirafan juga menambah pengiktirafan bercampur bahasa Cina dan Inggeris, cap suara, pengurangan hingar dan diskriminasi umur.
Dengan keupayaan atom ini, tahap algoritma boleh menyokong dan melayani bahagian perniagaan dengan lebih mudah.
Wang Qiangqiang, ketua pasukan teknologi pertuturan Zuoyebang. Sebelum menyertai Zuoyebang, beliau bekerja di Makmal Pemprosesan Pertuturan dan Perisikan Mesin Jabatan Kejuruteraan Elektronik di Universiti Tsinghua, di mana beliau bertanggungjawab untuk melaksanakan algoritma pengecaman pertuturan dan membina penyelesaian gred industri. Menyertai Zuoyebang pada tahun 2018 dan bertanggungjawab untuk penyelidikan dan pelaksanaan algoritma yang berkaitan dengan pertuturan Beliau telah mengetuai pelaksanaan pengecaman pertuturan, penilaian, sintesis dan algoritma lain di Zuoyebang, menyediakan syarikat dengan set penyelesaian teknologi suara yang lengkap.
Atas ialah kandungan terperinci Amalan teknologi suara Zuoyebang. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!