Meta menggunakan Bible untuk melatih model super multi-bahasa: mengenali 1107 bahasa dan mengenal pasti 4017 bahasa-AI-php.cn

Rumah

Peranti teknologi

Meta menggunakan Bible untuk melatih model super multi-bahasa: mengenali 1107 bahasa dan mengenal pasti 4017 bahasa

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 29, 2023 pm 03:45 PM

teknologiModel

Ada satu kisah tentang Menara Babel dalam Bible Dikatakan bahawa manusia bersatu untuk merancang untuk membina menara yang tinggi, dengan harapan untuk membawa ke syurga, tetapi Tuhan mengganggu bahasa manusia dan rancangan itu gagal. Hari ini, teknologi AI dijangka meruntuhkan sekatan antara bahasa manusia dan membantu manusia mencipta Menara Babel yang bertamadun.

Baru-baru ini, kajian oleh Meta telah mengambil langkah penting ke arah aspek ini Mereka memanggil kaedah baru yang dicadangkan secara Massively Multilingual Speech (MMS), yang berdasarkan The Bible digunakan sebagai sebahagian. daripada data latihan dan keputusan berikut diperoleh:

Pengecaman pertuturan berbilang bahasa dengan 1 bilion parameter diperoleh menggunakan latihan wave2vec 2.0 pada 1107 bahasa Berbanding dengan OpenAI's Whisper model, kadar ralat model dikurangkan lebih daripada 50%.
Satu model sintesis audio menyokong teks ke pertuturan (TTS) untuk 1107 bahasa ini.
Membangunkan pengelas pengecaman bahasa yang mampu mengenal pasti 4017 bahasa.

Bagaimanakah Meta menyelesaikan masalah kekurangan data dalam banyak bahasa yang jarang ditemui? Kaedah yang mereka gunakan adalah menarik, menggunakan corpora agama, kerana corpora seperti Bible mempunyai data pertuturan yang paling "selaras". Walaupun set data ini condong ke arah kandungan agama dan kebanyakannya menampilkan suara lelaki, makalah itu menunjukkan bahawa model itu juga berprestasi baik dalam domain lain apabila menggunakan suara wanita. Ini ialah tingkah laku yang muncul bagi model asas, dan ia benar-benar menakjubkan. Apa yang lebih menakjubkan ialah Meta telah mengeluarkan semua model yang baru dibangunkan (pengecaman pertuturan, TTS dan pengecaman bahasa) secara percuma!

Muat turun model: https://github.com/facebookresearch/fairseq/tree/main/examples/mms
Alamat kertas: https://research.facebook.com/publications/scaling-speech-technology-to-1000-languages/

Kaedah yang baru dicadangkan

Untuk mencipta model pertuturan yang boleh mengecam ribuan perkataan, cabaran pertama adalah untuk mengumpul data audio dalam pelbagai bahasa, kerana set data pertuturan terbesar yang tersedia pada masa ini hanya Up kepada 100 bahasa. Untuk mengatasi masalah ini, penyelidik Meta menggunakan teks agama, seperti Bible, yang telah diterjemahkan ke dalam pelbagai bahasa, dan terjemahan tersebut telah dikaji secara meluas. Terjemahan ini mempunyai rakaman audio orang yang membacanya dalam bahasa yang berbeza, dan audio ini juga tersedia secara umum. Menggunakan audio ini, penyelidik mencipta set data yang mengandungi audio orang yang membaca Perjanjian Baru dalam 1,100 bahasa, dengan purata panjang audio selama 32 jam bagi setiap bahasa.

Mereka kemudiannya menyertakan rakaman tanpa nota bagi banyak bacaan Kristian lain, meningkatkan bilangan bahasa yang tersedia kepada lebih 4,000. Walaupun bidang set data ini adalah tunggal dan kebanyakannya terdiri daripada suara lelaki, hasil analisis menunjukkan bahawa model Meta yang baru dibangunkan menunjukkan prestasi yang sama baik pada suara wanita, dan model itu tidak terlalu berat sebelah ke arah menghasilkan lebih banyak bahasa keagamaan. Para penyelidik menyatakan dalam blog bahawa ini disebabkan terutamanya oleh kaedah Pengelasan Temporal Connectionist yang mereka gunakan, yang jauh lebih baik daripada model bahasa besar (LLM) atau model pengecaman pertuturan urutan-ke-jujukan Lebih terhad.

Meta menggunakan Bible untuk melatih model super multi-bahasa: mengenali 1107 bahasa dan mengenal pasti 4017 bahasa

Analisis potensi situasi berat sebelah jantina. Pada penanda aras FLEURS, model pengecaman pertuturan automatik yang dilatih pada set data Pertuturan Berbilang Bahasa (MMS) mempunyai kadar ralat yang serupa untuk suara lelaki dan perempuan.

Untuk meningkatkan kualiti data supaya ia boleh digunakan oleh algoritma pembelajaran mesin, mereka juga menggunakan beberapa kaedah prapemprosesan. Mula-mula, mereka melatih model penjajaran pada data sedia ada daripada lebih 100 bahasa, dan kemudian memasangkannya dengan algoritma penjajaran paksa yang cekap yang boleh mengendalikan rakaman yang sangat lama melebihi 20 minit. Selepas itu, selepas beberapa pusingan proses penjajaran, langkah terakhir penapisan silang pengesahan dilakukan untuk mengalih keluar data yang mungkin tidak sejajar berdasarkan ketepatan model. Untuk memudahkan penyelidik lain mencipta set data pertuturan baharu, Meta menambah algoritma penjajaran pada PyTorch dan mengeluarkan model penjajaran.

Untuk melatih model pengecaman pertuturan diselia yang boleh digunakan secara universal, hanya 32 jam data bagi setiap bahasa tidak mencukupi. Oleh itu, model mereka dibangunkan berdasarkan wav2vec 2.0, iaitu penyelidikan terdahulu mereka tentang pembelajaran perwakilan pertuturan yang diselia sendiri, yang boleh mengurangkan jumlah data berlabel yang diperlukan untuk latihan. Khususnya, penyelidik melatih model penyeliaan sendiri menggunakan kira-kira 500,000 jam data pertuturan dalam lebih daripada 1,400 bahasa-lebih daripada lima kali lebih banyak bahasa daripada mana-mana kajian terdahulu. Kemudian, berdasarkan tugasan pertuturan tertentu (seperti pengecaman pertuturan berbilang bahasa atau pengecaman bahasa), penyelidik memperhalusi model yang dihasilkan.

Hasil

Para penyelidik menilai model yang baru dibangunkan pada beberapa penanda aras sedia ada.

Latihan model pengecaman pertuturan berbilang bahasa menggunakan model wav2vec 2.0 dengan 1 bilion parameter dan set data latihan mengandungi lebih daripada 1,100 bahasa. Prestasi model menurun apabila bilangan bahasa meningkat, tetapi penurunannya sangat kecil: apabila bilangan bahasa meningkat dari 61 kepada 1107, kadar ralat aksara meningkat hanya 0.4%, tetapi liputan bahasa meningkat lebih banyak. daripada 18 kali.

Meta menggunakan Bible untuk melatih model super multi-bahasa: mengenali 1107 bahasa dan mengenal pasti 4017 bahasa

Pada ujian penanda aras 61 bahasa FLEURS, kadar ralat aksara berubah apabila bilangan bahasa meningkat, kadar ralat Semakin tinggi ia, semakin teruk modelnya.

Dengan membandingkan model Whisper OpenAI, para penyelidik mendapati bahawa kadar ralat perkataan model mereka hanya separuh daripada Whisper, manakala model baharu menyokong 11 kali lebih banyak bahasa. Keputusan ini menunjukkan keupayaan unggul kaedah baharu.

Meta menggunakan Bible untuk melatih model super multi-bahasa: mengenali 1107 bahasa dan mengenal pasti 4017 bahasa

Perbandingan kadar ralat perkataan antara OpenAI Whisper dan MMS pada penanda aras 54 bahasa FLEURS yang setanding secara langsung.

Seterusnya, menggunakan set data sedia ada sebelumnya (seperti FLEURS dan CommonVoice) dan set data baharu, penyelidik Meta juga melatih model pengenalan bahasa (LID) dan menggunakan tugas FLEURS LID dinilai . Hasilnya menunjukkan bahawa bukan sahaja model baharu ini berprestasi hebat, tetapi ia juga menyokong 40 kali lebih banyak bahasa.

Penyelidikan terdahulu juga hanya menyokong lebih daripada 100 bahasa pada penanda aras VoxLingua-107, manakala MMS menyokong lebih daripada 4000 bahasa.

Selain itu, Meta telah membina sistem teks ke pertuturan yang menyokong 1,100 bahasa. Data latihan untuk model teks-ke-ucapan semasa biasanya korpus pertuturan daripada satu pembesar suara. Satu batasan data MMS ialah banyak bahasa hanya mempunyai sebilangan kecil pembesar suara, selalunya satu pembesar suara. Walau bagaimanapun, ini menjadi kelebihan apabila membina sistem teks ke pertuturan, jadi Meta membina sistem TTS yang menyokong lebih daripada 1,100 bahasa. Penyelidik mengatakan kualiti pertuturan yang dihasilkan oleh sistem ini sebenarnya agak baik, dan beberapa contoh diberikan di bawah.

Demo model teks-ke-ucapan MMS untuk bahasa Yoruba, Iroko dan Maithili.

Walaupun begitu, penyelidik mengatakan bahawa teknologi AI masih belum sempurna, dan perkara yang sama berlaku untuk MMS. Sebagai contoh, MMS mungkin tersalah transkripsi perkataan atau frasa yang dipilih semasa pertuturan ke teks. Ini boleh mengakibatkan bahasa yang menyinggung dan/atau tidak tepat dalam output. Para penyelidik menekankan kepentingan bekerja dengan komuniti AI untuk membangun secara bertanggungjawab.

Nilai menyokong seribu perkataan dengan satu model

Banyak bahasa di seluruh dunia terancam, dan batasan pengecaman pertuturan dan teknologi penjanaan pertuturan semasa hanya akan mempercepatkan lagi trend ini. Pengkaji membayangkan dalam blog: Mungkin teknologi boleh menggalakkan orang ramai mengekalkan bahasa mereka sendiri, kerana dengan teknologi yang baik, mereka boleh menggunakan bahasa kegemaran mereka untuk mendapatkan maklumat dan menggunakan teknologi.

Mereka percaya projek MMS adalah langkah penting ke arah ini. Mereka juga berkata bahawa projek itu akan terus dibangunkan dan akan menyokong lebih banyak bahasa pada masa hadapan, malah akan menyelesaikan masalah dialek dan loghat.

Atas ialah kandungan terperinci Meta menggunakan Bible untuk melatih model super multi-bahasa: mengenali 1107 bahasa dan mengenal pasti 4017 bahasa. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Cara Membina Pembantu AI Peribadi Anda Dengan Huggingface SmollmApr 18, 2025 am 11:52 AM

Memanfaatkan kuasa AI di peranti: Membina CLI Chatbot Peribadi Pada masa lalu, konsep pembantu AI peribadi kelihatan seperti fiksyen sains. Bayangkan Alex, seorang peminat teknologi, bermimpi seorang sahabat AI yang pintar, yang tidak bergantung

AI untuk Kesihatan Mental dianalisis dengan penuh perhatian melalui inisiatif baru yang menarik di Stanford UniversityApr 18, 2025 am 11:49 AM

Pelancaran AI4MH mereka berlaku pada 15 April, 2025, dan Luminary Dr. Tom Insel, M.D., pakar psikiatri yang terkenal dan pakar neurosains, berkhidmat sebagai penceramah kick-off. Dr. Insel terkenal dengan kerja cemerlangnya dalam penyelidikan kesihatan mental dan techno

Kelas Draf WNBA 2025 memasuki liga yang semakin meningkat dan melawan gangguan dalam talianApr 18, 2025 am 11:44 AM

"Kami mahu memastikan bahawa WNBA kekal sebagai ruang di mana semua orang, pemain, peminat dan rakan kongsi korporat, berasa selamat, dihargai dan diberi kuasa," kata Engelbert, menangani apa yang telah menjadi salah satu cabaran sukan wanita yang paling merosakkan. Anno

Panduan Komprehensif untuk Struktur Data Terbina Python - Analytics VidhyaApr 18, 2025 am 11:43 AM

Pengenalan Python cemerlang sebagai bahasa pengaturcaraan, terutamanya dalam sains data dan AI generatif. Manipulasi data yang cekap (penyimpanan, pengurusan, dan akses) adalah penting apabila berurusan dengan dataset yang besar. Kami pernah meliputi nombor dan st

Tayangan pertama dari model baru Openai berbanding dengan alternatifApr 18, 2025 am 11:41 AM

Sebelum menyelam, kaveat penting: Prestasi AI adalah spesifik yang tidak ditentukan dan sangat digunakan. Dalam istilah yang lebih mudah, perbatuan anda mungkin berbeza -beza. Jangan ambil artikel ini (atau lain -lain) sebagai perkataan akhir -sebaliknya, uji model ini pada senario anda sendiri

AI Portfolio | Bagaimana untuk membina portfolio untuk kerjaya AI?Apr 18, 2025 am 11:40 AM

Membina portfolio AI/ML yang menonjol: Panduan untuk Pemula dan Profesional Mewujudkan portfolio yang menarik adalah penting untuk mendapatkan peranan dalam kecerdasan buatan (AI) dan pembelajaran mesin (ML). Panduan ini memberi nasihat untuk membina portfolio

AI AI apa yang boleh dimaksudkan untuk operasi keselamatanApr 18, 2025 am 11:36 AM

Hasilnya? Pembakaran, ketidakcekapan, dan jurang yang melebar antara pengesanan dan tindakan. Tak satu pun dari ini harus datang sebagai kejutan kepada sesiapa yang bekerja dalam keselamatan siber. Janji Agentic AI telah muncul sebagai titik perubahan yang berpotensi. Kelas baru ini

Google Versus Openai: AI berjuang untuk pelajarApr 18, 2025 am 11:31 AM

Impak segera berbanding perkongsian jangka panjang? Dua minggu yang lalu Openai melangkah ke hadapan dengan tawaran jangka pendek yang kuat, memberikan akses kepada pelajar A.S. dan Kanada.

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

3 minggu yang laluByDDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

2 minggu yang laluByDDD

Di mana untuk mencari kad kunci kawalan kren di atomfall

3 minggu yang laluByDDD

Penjimatan di R.E.P.O. Dijelaskan (dan simpan fail)

1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows - Cara Mencari Orang Panda

4 minggu yang laluByDDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SecLists

SecLists ialah rakan penguji keselamatan muktamad. Ia ialah koleksi pelbagai jenis senarai yang kerap digunakan semasa penilaian keselamatan, semuanya di satu tempat. SecLists membantu menjadikan ujian keselamatan lebih cekap dan produktif dengan menyediakan semua senarai yang mungkin diperlukan oleh penguji keselamatan dengan mudah. Jenis senarai termasuk nama pengguna, kata laluan, URL, muatan kabur, corak data sensitif, cangkerang web dan banyak lagi. Penguji hanya boleh menarik repositori ini ke mesin ujian baharu dan dia akan mempunyai akses kepada setiap jenis senarai yang dia perlukan.