Rumah > Artikel > Peranti teknologi > Chen Gen: Meta menerajui dan melancarkan MMS model besar AI
Teks/Chen Gen
Berapa banyak bahasa yang anda tahu? Menurut maklumat yang berkaitan, terdapat lebih daripada 7,000 bahasa di dunia. Walau bagaimanapun, kita mungkin hanya mengenali beberapa atau berpuluh-puluh daripada mereka. Teknologi pengecaman pertuturan komputer semasa boleh merangkumi lebih daripada 100 jenis. Bagi kebanyakan orang, ini adalah angka astronomi. Tetapi model bahasa sumber terbuka Meta yang baharu telah membuat penemuan yang lebih hebat.
Sejak berpisah dengan OpenAI dan Google, Meta semakin mendalam ke arah model besar sumber terbuka. Baru-baru ini, model bahasa AI sumber terbuka yang baharu di GitHub - Pertuturan Berbilang Bahasa Secara Besar-besaran (MMS, Pertuturan Berbilang Bahasa Secara Besar-besaran) boleh mengenali lebih daripada 4,000 bahasa pertuturan, 40 kali lebih banyak daripada teknologi yang diketahui pada masa ini; ia juga mengembangkan teknologi penukaran teks dan Pertuturan terdiri daripada kira-kira 100 bahasa hingga lebih daripada 1,100. Bukan itu sahaja, ciri yang paling menonjol bagi MMS sumber terbuka Meta ialah ia bukan sahaja menyokong ASR, tetapi juga menyokong TTS, yang bermaksud bahawa ia bukan sahaja boleh menukar pertuturan kepada teks, tetapi juga menukar teks kepada pertuturan.
Blog laman web rasmi Meta secara khusus menyebut Tatuyo, bahasa kecil yang dituturkan oleh hanya beberapa ratus orang. Walaupun ia tidak banyak digunakan untuk kegunaan harian, ia adalah pembantu yang baik untuk penyelidikan. Jadi, bagaimanakah kita boleh mencari dan memperhalusi set data dengan berkesan untuk bahasa kecil ini yang hanya dituturkan oleh beberapa ratus orang?
Meta berkata bahawa dalam proses mengumpul data audio dalam beribu-ribu bahasa, mereka menggunakan kaedah bukan konvensional - rakaman teks keagamaan. "Kami beralih kepada teks agama (seperti Bible) yang telah diterjemahkan ke dalam banyak bahasa yang berbeza dan terjemahannya telah dikaji secara meluas untuk penyelidikan terjemahan bahasa berasaskan teks. Tambahan pula, terjemahan ini mempunyai rakaman yang tersedia untuk umum tentang orang yang mengamalkan situasi bacaan bahasa ”
Pada masa yang sama, Meta menggunakan model "pembelajaran perwakilan pertuturan yang diselia sendiri" wav2vec 2.0 dalam latihan model MMS, membolehkan mesin belajar tanpa bergantung pada data latihan berlabel dengannya, ia boleh Melatih pertuturan model pengecaman pada kurang data.
Bagi bias model yang mungkin ditimbulkan oleh pendekatan ini, Meta mendakwa, “Walaupun data ini datang dari medan tertentu dan biasanya dibaca oleh lelaki, analisis kami menunjukkan bahawa model kami berprestasi sama baik pada suara lelaki dan perempuan . Walaupun kandungan rakaman itu bersifat keagamaan, analisis kami menunjukkan bahawa ini tidak memihak kepada model untuk menghasilkan lebih banyak bahasa keagamaan ”
Apabila menggunakan model wav2vec 2.0 parameter 1B untuk melatih model pengecaman pertuturan berbilang bahasa untuk lebih daripada 1,100 bahasa, pembangun mendapati bahawa apabila bilangan bahasa meningkat, prestasi akan berkurangan, tetapi sangat sedikit: daripada 61 Daripada bahasa kepada 1107 bahasa, kadar ralat aksara hanya meningkat kira-kira 0.4%, tetapi liputan bahasa meningkat lebih daripada 17 kali ganda. ”
Mengenai isu ini, Meta juga membuat perbandingan terperinci dengan OpenAI's Whisper Model yang dilatih pada data mencapai separuh daripada kadar ralat perkataan, dan data latihan adalah kurang: Data latihan Meta hanya mempunyai 45k jam data beranotasi, yang memerlukan. 10 kali lebih rendah daripada Whisper dan 10 kali lebih banyak sokongan bahasa, yang merupakan peningkatan yang besar. Walau bagaimanapun, Meta juga berkata bahawa model baharunya tidak sempurna "Sebagai contoh, terdapat risiko model pertuturan ke teks mungkin salah transkripsi perkataan atau frasa yang dipilih. Walau bagaimanapun, kami masih percaya bahawa kerjasama seluruh komuniti AI adalah. penting untuk bertanggungjawab "Adalah penting untuk membangunkan teknologi AI secara bebas Meta kini telah membuka sumber model dan kod yang berkaitan supaya orang lain dalam komuniti penyelidikan boleh membina kerja ini."
Meta belum membayangkan sepenuhnya masa depan model pertuturan besar, tetapi mereka berharap dapat berbuat demikian, berharap satu model dapat menyelesaikan berbilang tugas pertuturan dalam semua bahasa. "Kami melatih model yang berbeza untuk pengecaman pertuturan, sintesis pertuturan dan pengecaman bahasa, tetapi kami mempunyai sebab untuk mempercayai bahawa pada masa hadapan, satu model akan dapat melakukan semua tugas ini dan banyak lagi, yang membawa kepada prestasi keseluruhan yang lebih baik," kata Meta.
Melihat ke masa hadapan, Meta berharap untuk meluaskan liputan MMS untuk menyokong lebih banyak bahasa dan meningkatkan pengendalian dialeknya. Memecahkan lagi halangan bahasa antara orang di seluruh dunia, membolehkan orang dari setiap sudut dunia berkomunikasi secara normal melalui bunyi. Ini adalah penglihatan yang indah, tetapi kami percaya bahawa hari ini akan datang lambat laun.
Atas ialah kandungan terperinci Chen Gen: Meta menerajui dan melancarkan MMS model besar AI. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!