首頁  >  文章  >  科技週邊  >  陳根:Meta先下手為強推出AI大模型MMS

陳根:Meta先下手為強推出AI大模型MMS

WBOY
WBOY轉載
2023-06-04 22:46:05738瀏覽

文/陳根

你懂幾國語言?據相關資料顯示,世界上一共有7000多種語言。但是,我們懂的可能只有幾種或幾十種。而目前的電腦語音辨識技術所能涵蓋的則有100多種。這對很多人來說,已經是天文級的數字了。但Meta新開源的語言模型卻有著更大的突破。

自從和OpenAI、Google分道揚鑣之後,Meta便在開源大模型方向上越走越深。日前,Meta在GitHub上新開源的AI語言模型——Massively Multilingual Speech ( MMS,大規模多語種語音)可以識別4000多種口頭語言,是目前已知技術的40倍之多;還擴展了文本與語音之間的轉化技術的涵蓋範圍,從大約100種語言到1100多種。不僅如此,Meta開源的MMS最突出的特點是不僅支援ASR,還支援TTS,也就是說不僅可以語音轉文字,還可以文字轉語音。

陳根:Meta先下手為強推出AI大模型MMS

Meta的官網blog上特別提到的Tatuyo語,一種只有幾百人在使用的小語種。雖然對於日常來說沒什麼用,但對於研究來說卻是個很好的助手。那麼,對於這種只有幾百人使用的小語種,如何才能找到並有效的提煉資料集呢?

Meta介紹說,他們在數千種語言的音訊資料收集過程中,使用了一種非常規的方法——宗教文本錄音。 「我們轉向已被翻譯成許多不同語言的宗教文本(例如《聖經》),並且其翻譯已被廣泛研究用於基於文本的語言翻譯研究。而且,這些譯本都有公開錄音,記錄了人們採用不同語言進行閱讀的情景。」

同時,Meta 在MMS 模型的訓練中結合使用了公司的「自監督語音表示學習」模型wav2vec 2.0,使機器能夠在不依賴標記訓練資料的情況下進行學習;有了它,就可以在更少的資料上訓練語音辨識模型。

而對於這種方式可能導致的模型偏向性,Meta聲稱,「雖然這些數據來自特定領域,並且通常由男性閱讀;但我們的分析表明,我們的模型在男性和女性聲音方面表現同樣出色。雖然錄音的內容是宗教的,但我們的分析表明,這並不會使模型偏向於產生更多的宗教語言。」

在使用1B參數的wav2vec 2.0模型對1100多種語言進行多語言語音識別模型的訓練的時候,研發人員發現,隨著語言數量的增加,性能會有所下降,但非常輕微:從61種語言到1107種語言,字元錯誤率只增加約0.4%,但語言覆蓋率增加了17倍以上。 ”

就此問題,Meta也與OpenAI的Whisper做了詳細的對比,在數據上訓練的模型實現了一半的單字錯誤率,並且訓練數據更少:Meta的訓練數據只有45k小時的標註數據,要比Whisper少10倍,而語言支援卻多了10倍,這是一個大的提升。不過,Meta亦表示它的新模型並不完美,「例如,語音轉文本模型可能會錯誤轉錄選定的單字或短語,這存在一定風險。但是,我們仍然相信,整個AI 社群的協作對於負責任地開發AI 技術至關重要。」而目前,Meta 已經開源了相關的模型和程式碼,以便研究社群中的其他人可以在此工作基礎上進行建構。

對於語音大模型的未來,Meta並沒有完全做好設想,但他們希望可以透過稱也做了設想,希望可以透過一個模型解決所有語言的多個語音任務。 “我們為語音識別、語音合成和語言識別訓練了不同的模型,但我們有理由相信在未來,一個模型將能夠完成所有這些任務以及更多任務,從而帶來更好的整體性能”,Meta 說道。

放眼未來,Meta希望擴大MMS的覆蓋範圍以支援更多語言,並改進其對方言的處理。進一步打破世界各地人群之間的語言障礙,讓來自全球每個角落的人們都可以透過聲音正常溝通。這是一個美好的願景,但我們相信這一天的遲早是要到來的。

以上是陳根:Meta先下手為強推出AI大模型MMS的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:sohu.com。如有侵權,請聯絡admin@php.cn刪除