Rumah >Peranti teknologi >AI >Model TTS berskala besar pertama yang menyokong pertuturan campuran Mandarin dan dialek: Henanese, Shanghai dan Kantonis boleh dituturkan dengan lancar

Model TTS berskala besar pertama yang menyokong pertuturan campuran Mandarin dan dialek: Henanese, Shanghai dan Kantonis boleh dituturkan dengan lancar

王林asal: 2024-08-13 16:34:031101semak imbas

Model TTS berskala besar pertama yang menyokong pertuturan campuran Mandarin dan dialek: Henanese, Shanghai dan Kantonis boleh dituturkan dengan lancar

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Sejak kemunculan GPT-4o pada 2024, syarikat dalam industri telah melaburkan sumber yang besar dalam penyelidikan dan pembangunan model besar TTS. Dalam beberapa bulan kebelakangan ini, model sintesis pertuturan Cina yang besar telah muncul, seperti chattts, seedtts, cosyvoice, dsb.

Walaupun model sintesis pertuturan berskala besar semasa hampir tidak dapat dibezakan daripada orang sebenar dalam bahasa Cina Mandarin, dalam menghadapi dialek China yang rumit, model berskala besar TTS jarang terlibat dalam melatih sintesis pertuturan bersatu pelbagai bahasa Cina. dialek. Model besar adalah tugas yang sangat mencabar. . China mempunyai berpuluh-puluh dialek utama, masing-masing dengan ciri fonetik yang unik dan struktur tatabahasa, yang menjadikan latihan model TTS yang besar meliputi pelbagai dialek sangat kompleks.

Kebanyakan model TTS besar sedia ada memfokuskan bahasa Mandarin dan tidak dapat memenuhi keperluan sintesis pertuturan yang pelbagai. Di samping itu, kekurangan korpora dialek dan kekurangan data anotasi berkualiti tinggi meningkatkan lagi kesukaran teknikal.

Inovasi teknologi dan terobosan Giant Network AI Lab

Untuk menyelesaikan masalah di atas, pakar algoritma dan ahli bahasa dalam pasukan Giant Network AI Lab bekerjasama untuk membina sistem yang komprehensif berdasarkan Sistem dialek Cina 20 dialek, lebih 200,000 jam set data Mandarin dan dialek. Melalui set data yang besar ini, kami melatih model TTS berskala besar pertama yang menyokong pelbagai dialek Mandarin - Bailing-TTS

. Bailing-TTS bukan sahaja boleh menjana pertuturan Mandarin berkualiti tinggi, tetapi juga menjana pelbagai pertuturan dialek termasuk Henanese, Shanghainese, Kantonis, dll.

ArXiv: https://arxiv.org/pdf/2408.00284

Laman utama: https://giantailab.github.io/bailingtts_tech_report TTS: Sintesis Pertuturan Dialek Cina Terhadap Perwakilan Spontan Seperti Manusia

Bianshui mengalir musim bunga tak terhingga ke timur, istana keluarga Sui telah menjadi debu. Pejalan kaki tidak boleh naik ke tambak panjang untuk melihat ke luar; angin bertiup dan bunga dan bunga bimbang membunuh orang. Model TTS berskala besar pertama yang menyokong pertuturan campuran Mandarin dan dialek: Henanese, Shanghai dan Kantonis boleh dituturkan dengan lancar

Menjana suara 1:
Text 2:

I juga mempunyai banyak hobi. . Apabila saya tiada apa-apa untuk dilakukan, saya boleh keluar berjalan-jalan dan menikmati pemandangan Henan yang indah. Nasib baik saya boleh buat beberapa perkara yang menyeronokkan seperti mee rebus dan sup berempah Jangan beritahu saya, tidak mengapa jika saya membuatnya sendiri.

. hmm , Dari perspektif lain, adakah ia juga satu perkara yang baik untuk kita?

Anjuran 2: Lelaki-Lelaki

Anjuran 2: Hey, esok hujung minggu lagi, jom kita tengok wayang sama-sama.

Gesaan 3: Warga Emas-Perempuan

Generasi 3: Bercakap tentang masa lalu kita, ah, saya tidak dapat menyelesaikannya dalam tiga hari tiga malam.

Gesaan 4: Kanak-kanak-Perempuan Model TTS berskala besar pertama yang menyokong pertuturan campuran Mandarin dan dialek: Henanese, Shanghai dan Kantonis boleh dituturkan dengan lancar

Generasi 4: Oh, ini yang awak cakapkan saya ambil ini ketika saya pergi ke pantai. Model TTS berskala besar pertama yang menyokong pertuturan campuran Mandarin dan dialek: Henanese, Shanghai dan Kantonis boleh dituturkan dengan lancar

Kami telah menggunakan beberapa teknologi inovatif untuk mencapai matlamat ini:

1 Spesifikasi token dialek bersatu

: Kami telah menyatukan spesifikasi token dan pelbagai dialek dan dialek Mandarin. Terdapat pertindihan separa untuk menyediakan kemahiran sebutan asas menggunakan bahasa Mandarin. Ini membolehkan kami mencapai sintesis pertuturan dialek berkualiti tinggi dalam keadaan data yang terhad.

Teknologi Penjajaran Token Ditapis: Kami mencadangkan teknologi penjajaran mengikut token yang diperhalusi berdasarkan latihan pra-latihan berskala besar.

Seni Bina Pakar Campuran Hierarki

: Kami mereka bentuk seni bina pakar hibrid hierarki untuk mempelajari perwakilan bersatu untuk pelbagai dialek Cina dan perwakilan khusus untuk setiap dialek.

Strategi peningkatan pembelajaran peneguhan hierarki

: Kami mencadangkan strategi pembelajaran peneguhan hierarki untuk meningkatkan lagi keupayaan ekspresi dialek model TTS dengan menggabungkan strategi latihan asas dan strategi latihan lanjutan.

Butiran pelaksanaan

^{Rajah 1 Keseluruhan seni bina Bailing-T}

1. Penjajaran Token Diperhalusi berdasarkan latihan pra-latihan berskala besar

Untuk mencapai penjajaran teks dan token suara, Kami mencadangkan rangka kerja pembelajaran pra-latihan berbilang peringkat dan pelbagai mod.

Pada peringkat pertama, kami menggunakan strategi pensampelan tanpa pengawasan untuk menjalankan latihan kasar pada set data berskala besar. Pada peringkat kedua, kami menggunakan strategi pensampelan yang diperhalusi untuk menjalankan latihan terperinci mengenai set data dialek berkualiti tinggi. Kaedah ini secara berkesan dapat menangkap korelasi halus antara teks dan pertuturan dan menggalakkan penjajaran kedua-dua modaliti.

2 Berdasarkan struktur rangkaian Transformer pakar berhierarki

Untuk melatih model TTS bersatu yang sesuai untuk berbilang dialek Cina, kami mereka struktur rangkaian pakar berbilang peringkat berbilang peringkat dan -token dialek Strategi Pembelajaran.

Pertama, kami mencadangkan seni bina pakar hibrid yang direka khas untuk mempelajari perwakilan bersatu untuk pelbagai dialek Cina dan perwakilan khusus untuk setiap dialek. Kemudian, kami menyuntik token dialek ke dalam tahap model TTS yang berbeza melalui mekanisme gabungan berdasarkan perhatian silang untuk meningkatkan keupayaan ekspresi berbilang dialek model.

3. Strategi peningkatan pembelajaran pengukuhan hierarki

Kami mencadangkan strategi pembelajaran pengukuhan hierarki untuk meningkatkan lagi model TTS dengan menggabungkan latihan strategi asas dan strategi latihan lanjutan. Strategi latihan asas menyokong penerokaan ungkapan pertuturan dialek berkualiti tinggi, dan strategi latihan lanjutan mengukuhkan ciri pertuturan dialek berbeza atas dasar ini, dengan itu mencapai sintesis pertuturan berkualiti tinggi dalam pelbagai dialek.

kualiti generasi dan semula jadi dalam bahasa Mandarin dan pelbagai dialek . Dalam Jadual 1 keputusan ujian Bailing-TTS dalam panggilan umum dan dialek Cina

Dalam penilaian senario aplikasi sebenar, Baling-TTS telah mencapai keputusan yang baik. Dalam Jadual 2 Keputusan Ujian Bailing-TTS hasil ujian penutur panggilan umum Cina, dialek dan dialek Model besar TTS berbilang dialek telah digunakan dalam banyak senario praktikal. Contohnya, mengalih suara NPC dalam permainan, mengalih suara dialek dalam penciptaan video, dsb. Melalui teknologi ini, kandungan permainan dan video boleh menjadi lebih dekat dengan budaya serantau, meningkatkan rasa mendalami dan pengalaman pengguna.

Pada masa hadapan, dengan pembangunan lanjut model besar interaksi suara hujung ke hujung, teknologi ini akan menunjukkan potensi yang lebih besar dalam bidang seperti perlindungan budaya dialek dan interaksi dialek AI NPC permainan. Dalam senario perlindungan dialek, dengan menyokong interaksi suara dalam berbilang dialek, generasi seterusnya boleh mempelajari, mewarisi dan melindungi dialek Cina dengan mudah, membolehkan budaya dialek Cina mempunyai sejarah yang panjang. Dalam adegan permainan, NPC pintar yang boleh bercakap dialek dan boleh berinteraksi dengan suara akan meningkatkan lagi ekspresi kandungan permainan.
Giant Network AI Lab akan terus komited untuk mempromosikan inovasi dan aplikasi teknologi ini, membawa pengguna pengalaman interaksi suara yang lebih bijak dan mudah.

Pengenalan pasukan

Makmal AI Giant telah ditubuhkan pada tahun 2022. Ia adalah aplikasi teknologi kecerdasan buatan dan institusi penyelidikan yang bergabung dengan Giant Network. Komited dalam bidang penjanaan kandungan AIGC (imej/teks/audio/video/model 3D, dsb.), merealisasikan penghasilan dan penciptaan kandungan pintar yang komprehensif, dan mempromosikan inovasi permainan. Pada masa ini, makmal itu telah membina saluran paip pengeluaran industri AI pautan penuh dalam Giant Pada masa yang sama, ia telah menyelesaikan pendaftaran model menegak besar pertama (GiantGPT) dalam industri permainan dan merupakan yang pertama dimasukkan ke dalam komersil. permohonan.

Atas ialah kandungan terperinci Model TTS berskala besar pertama yang menyokong pertuturan campuran Mandarin dan dialek: Henanese, Shanghai dan Kantonis boleh dituturkan dengan lancar. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

架构 html Token github 算法人工智能 transformer https AIGC gpt prompt

Kenyataan：

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel sebelumnya：Perbezaan kain penalaan halus model besarArtikel seterusnya：Perbezaan kain penalaan halus model besar

Artikel berkaitan

Lihat lagi