Rumah > Artikel > Peranti teknologi > Google AudioPaLM melaksanakan penyelesaian dwi-modal "teks + audio", model besar untuk bercakap dan mendengar
Model bahasa berskala besar, dengan prestasi hebat dan serba boleh, telah memacu pembangunan beberapa model besar berbilang modal, seperti audio, video, dsb.
Seni bina asas model bahasa kebanyakannya berdasarkan Transformer dan terutamanya penyahkod, jadi seni bina model boleh disesuaikan dengan modaliti jujukan lain tanpa terlalu banyak pelarasan.
Baru-baru ini, Google mengeluarkan model teks pertuturan bersatu AudioPaLM, yang menggabungkan teks dan token audio ke dalam perbendaharaan kata gabungan pelbagai mod, dan menggabungkannya dengan teg perihalan tugas yang berbeza untuk mencapai sebarang campuran pertuturan dan teks. hanya model pada tugasan, termasuk pengecaman pertuturan (ASR), sintesis teks ke pertuturan, terjemahan pertuturan automatik (AST), dan terjemahan pertuturan ke pertuturan (S2ST), dsb., menyatukan tugas yang secara tradisinya diselesaikan oleh model heterogen menjadi satu seni bina dan proses latihan. . /
Di samping itu, memandangkan seni bina asas AudioPaLM ialah model Transformer yang besar, yang boleh dimulakan dengan pemberat model bahasa besar yang dipralatih pada teks, ia boleh mendapat manfaat daripada pengetahuan linguistik model seperti PaLM .
Dari perspektif hasil pelaksanaan, AudioPaLM telah mencapai hasil terkini pada penanda aras AST dan S2ST, dan prestasinya pada penanda aras ASR adalah setanding dengan model lain.
Dengan memanfaatkan isyarat audio AudioLM, model AudioPaLM mampu melaksanakan S2ST pada pemindahan pertuturan pembesar suara baharu, mengatasi kaedah sedia ada dari segi kualiti pertuturan dan pemeliharaan pertuturan.
Model AudioPaLM juga mempunyai keupayaan tangkapan sifar untuk melaksanakan tugas AST pada kombinasi input pertuturan/bahasa sasaran yang tidak dilihat dalam latihan.
AudioPaLMPara penyelidik menggunakan model Transformer penyahkod sahaja untuk memodelkan teks dan token pertuturan Teks dan audio telah dibahagikan sebelum dimasukkan ke dalam model, jadi input hanyalah jujukan integer, dan pada bahagian. tamat keluaran Kemudian lakukan operasi yang dinyahtokkan dan kembalikan kepada pengguna.
Pictures
Proses menukarkan bentuk gelombang audio asal menjadi token termasuk mengekstrak embeddings dari model perwakilan ucapan yang ada, dan membezakan embeddings ke dalam set terhad token audio
Dalam kerja terdahulu, embeddings telah diekstrak daripada model w2v-BERT dan dikuantisasi dengan k-means Dalam kertas kerja ini, penyelidik telah mencuba tiga skema: w2v-BERT: Gunakan w2v-BERT. -Model BERT dilatih pada data berbilang bahasa dan bukannya bahasa Inggeris tulen dan tiada pemprosesan normalisasi dilakukan sebelum pengelompokan k-means, jika tidak, ia akan menyebabkan persekitaran berbilang bahasa merosot prestasi sederhana. Kemudian jana token pada kadar 25Hz dengan saiz perbendaharaan kata 1024
USM-v1: Lakukan operasi serupa menggunakan pengekod 2 bilion parameter Universal Speech Model (USM) yang lebih berkuasa dan ekstrak benam dari lapisan tengah ;
USM-v2: Dilatih dengan kehilangan ASR tambahan dan diperhalusi untuk menyokong berbilang bahasa.
Ubah suai penyahkod teks sahaja
Dalam struktur penyahkod Transfomrer, kecuali untuk input dan lapisan keluaran softmax terakhir, bilangan token pemodelan tidak terlibat, dan dalam seni bina PaLM pembolehubah berat matriks input dan output dikongsi, iaitu, ia adalah transpose antara satu sama lain.
Jadi anda hanya perlu mengembangkan saiz matriks benam daripada (t × m) kepada (t+a) ×m untuk menukar model teks tulen kepada model yang boleh mensimulasikan kedua-dua teks dan audio, dengan t ialah saiz perbendaharaan kata teks, a ialah saiz perbendaharaan kata audio, dan m ialah dimensi benam. Untuk memanfaatkan model teks pra-latihan, para penyelidik menukar pusat pemeriksaan model sedia ada dengan menambah baris baharu pada matriks benam.
Pelaksanaan khusus ialah token t pertama sepadan dengan teg teks SentencePiece, dan token berikut mewakili teg audio Walaupun pembenaman teks menggunakan semula pemberat yang telah dilatih, pembenaman audio baru dimulakan dan mesti dimulakan. terlatih.
Hasil eksperimen menunjukkan bahawa berbanding dengan latihan semula dari awal, model pra-latihan berasaskan teks sangat berfaedah untuk meningkatkan prestasi tugasan berbilang modal pertuturan dan teks.
Penyahkodan token audio ke dalam audio asli
Untuk mensintesis bentuk gelombang audio daripada token audio, penyelidik mencuba dua kaedah berbeza:
penyahkodan Audio.yang serupa
2. Penyahkodan bukan autoregresif serupa dengan model SoundStorm
Kedua-dua kaedah perlu menjana token SoundStream terlebih dahulu, dan kemudian menggunakan penyahkod konvolusi untuk menukarnya kepada bentuk gelombang audio.
Para penyelidik dilatih tentang Multilingual LibriSpeech Keadaan pertuturan ialah sampel pertuturan sepanjang 3 saat, dinyatakan sebagai token audio dan token SoundStream
Dengan menyediakan sebahagian daripada ucapan input asal sebagai keadaan pertuturan, model. boleh bercakap Apabila pertuturan manusia diterjemahkan ke dalam bahasa yang berbeza, pertuturan pembesar suara asal dikekalkan Apabila audio asal lebih pendek daripada 3 saat, masa kosong diisi dengan main semula berulang.
Tugas latihan
Set data latihan yang digunakan ialah semua data teks pertuturan:
1. T.2ran Audio: T.2ran Audio: T.2ran Audio: T.2 ranskripsi pertuturan dalam data audio
3. Terjemahan Audio Terjemahan Audio: Terjemahan pertuturan dalam audio
4. Transkrip Terjemahan: Terjemahan bertulis dalam audio
termasuk: ...tugasan komponen terjemahan): Terjemah audio untuk mendapatkan audio yang diterjemahkan
4. TTS (Teks ke Ucapan): Baca kandungan yang ditranskripsi untuk mendapatkan audio. . model harus berprestasi untuk input yang diberikan ditentukan dengan menambahkan label sebelum input, menyatakan tugas dan nama bahasa Inggeris bahasa input Bahasa output juga boleh dipilih.
Sebagai contoh, apabila anda mahu model melaksanakan ASR pada korpus Perancis, anda perlu menambah label [ASR French] di hadapan input audio selepas pembahagian perkataan untuk melaksanakan tugasan TTS dalam bahasa Inggeris, anda perlu menambah [TTS English] di hadapan teks; Untuk melaksanakan tugasan S2ST daripada bahasa Inggeris ke bahasa Perancis, audio bahasa Inggeris yang dibahagikan akan didahului oleh [S2ST English French]
Training Mix
perpustakaan SeqIO untuk mencampurkan data latihan Set data yang lebih besar mengalami pengurangan berat. .
Selain menilai kualiti terjemahan kandungan pertuturan, penyelidik juga menilai sama ada kualiti bahasa yang dijana oleh AudioPaLM adalah cukup tinggi dan sama ada suara pembesar suara dikekalkan apabila diterjemahkan ke dalam bahasa yang berbeza.
Metrik Objektif
Menggunakan sesuatu yang serupa dengan penganggar MOS tanpa rujukan, diberikan sampel audio, memberikan anggaran kualiti audio yang dirasakan pada skala dari 1 hingga 5. Untuk mengukur kualiti pemindahan pertuturan merentas bahasa, penyelidik menggunakan model pengesahan pembesar suara di luar rak dan mengira persamaan kosinus antara sumber (dikodkan/dikodkan dengan SoundStream) dan benam pertuturan yang diterjemahkan juga diukur pembenaman daripada ciri Akustik audio sumber kepada audio sasaran (keadaan rakaman, bunyi latar belakang).
Penilaian Subjektif
Para penyelidik menjalankan dua kajian bebas untuk menilai kualiti suara dan persamaan suara yang dihasilkan, menggunakan set sampel yang sama dalam kedua-dua kajian.
Disebabkan kualiti korpus yang tidak sekata, sesetengahnya mengandungi pertuturan bertindih yang kuat (contohnya, rancangan TV atau lagu yang dimainkan di latar belakang) atau bunyi yang sangat kuat (contohnya, pakaian bergesel dengan mikrofon yang dihasilkan oleh kesan herotan yang serupa). manusia Tugas penilai adalah rumit, jadi para penyelidik memutuskan untuk melakukan pra-penapis dengan memilih hanya input dengan anggaran MOS sekurang-kurangnya 3.0.
Penilaian disediakan pada skala 5 mata, daripada 1 (kualiti buruk atau bunyi berbeza sama sekali) hingga 5 (kualiti baik, bunyi yang sama).
Gambar
Ia boleh diperhatikan daripada keputusan bahawa AudioPaLM dengan ketara mengatasi sistem asas Translatotron 2 dari segi kualiti audio dan persamaan pertuturan dalam kedua-dua ukuran objektif dan subjektif, dan AudioPaLM adalah lebih baik daripada yang sebenar dalam Rakaman sintetik CVSS-T mempunyai kualiti yang lebih tinggi dan persamaan suara yang lebih baik, dan dipertingkatkan dengan ketara dalam kebanyakan penunjuk.
Para penyelidik juga membandingkan sistem dalam kumpulan sumber tinggi dan rendah (Perancis, Jerman, Sepanyol dan Catalan berbanding bahasa lain) dan mendapati tiada perbezaan ketara dalam metrik antara kumpulan ini.
Atas ialah kandungan terperinci Google AudioPaLM melaksanakan penyelesaian dwi-modal "teks + audio", model besar untuk bercakap dan mendengar. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!