上週,OpenAI發布的ChatGPT API和Whisper API,剛剛引來了一場開發者的狂歡。
3月6日,Google就推出了對標的模型-USM。不僅可以支援100多種語言,而且參數量也達到了20億。
當然了,模型仍然沒有對外開放,「這很Google」!
#簡單來說,USM模型在涵蓋1200萬小時語音、280億個句子和300種不同語言的無標註資料集中進行了預訓練,並在較小的標註訓練集中進行了微調。
Google的研究人員表示,雖然用於微調的標註訓練集僅有Whisper的1/7,但USM卻有著與其相當甚至更好的性能,並且還能夠有效地適應新的語言和數據。
#論文網址:https://arxiv.org/abs/2303.01037
結果顯示,USM不僅在多語言自動語音辨識和語音-文字翻譯任務評測中實現了SOTA,而且還可以實際用在YouTube的字幕生成上。
目前,支援自動偵測和翻譯的語種包括,主流的英語、漢語,以及阿薩姆語這類的小語種。
最重要的是,還能用於Google去年IO大會展示的未來AR眼鏡的即時翻譯。
Jeff Dean親自官宣:讓AI支援1000種語言
當微軟和谷歌就誰家擁有更好的AI聊天機器人爭論不休時,要知道,大型語言模型的用途可不僅於此。
去年11月,Google先宣布了新計畫「開發一種支援全球1000種最常用語言的人工智慧語言模型」。
#同年,Meta也發表了一個名為「No Language Left Behind」模型,並稱可以翻譯200多種語言,旨在打造「通用翻譯器」。
而最新模型的發布,Google將其描述為通往目標的「關鍵一步」。
在打造語言模型上,可謂群雄逐鹿。
據傳言,Google計劃在今年的年度 I/O 大會上展示20多款由人工智慧驅動的產品。
目前,自動語音辨識面臨許多挑戰:
- ##的傳統的監督學習方法缺乏可擴展性
在傳統的方法中,音訊資料需要費時又費錢的手動標記,或從有預先存在的轉錄的來源中收集,而對於缺乏廣泛代表性的語言來說,這很難找到。 #
- 擴大語言覆蓋率和品質的同時,模型必須以高效的計算方式進行改進
##這就要求演算法能夠使用來自不同來源的大量數據,在不需要完全重新訓練的情況下實現模型的更新,並且能夠推廣到新的語言和使用案例。
微調自監督學習根據論文介紹,USM的訓練採用了三種資料庫:未配對的音訊資料集、未配對的文本資料集、配對的ASR語料庫。
- 未配對的音訊資料集
#包括YT-NTL-U(超1200萬小時YouTube無標籤音訊資料)和Pub-U(超429,000小時的51種語言的演講內容)
- 未配對的文字資料集
#Web-NTL(超1140種不同語言的280億個句子)
- 配對的ASR語料庫
#YT-SUP 和Pub-S語料庫(超10,000小時的音訊內容和配對文字)
USM使用標準的編碼器-解碼器結構,其中解碼器可以是CTC、RNN -T或LAS。
對於編碼器,USM使用了Conformor,或卷積增強Transformer。
訓練過程共分為三個階段。
在初始階段,使用BEST-RQ(基於BERT的隨機投影量化器的語音預訓練)進行無監督的預訓練。目標是為了優化RQ。
在下一階段,進一步訓練語音表徵學習模型。
使用MOST(多目標監督預訓練)來整合來自其他文字資料的資訊。
該模型引入了一個額外的編碼器模組,以文字作為輸入,並引入了額外的層來組合語音編碼器和文字編碼器的輸出,並在未標記的語音、標記的語音和文字資料上聯合訓練模型。
最後一步是,對ASR(自動語音辨識)和AST(自動語音翻譯)任務進行微調,經過預訓練的USM模型只需少量監督數據就可以取得很好的效能。
USM整體訓練流程
USM的表現如何,Google對其在YouTube字幕、下游ASR任務的推廣、以及自動語音翻譯上進行了測試。
YouTube多國語言字幕上的表現#
受監督的YouTube資料包括73種語言,每種語言的資料時長平均不到3000小時。儘管監督數據有限,但模型在73種語言中實現了平均不到30%的單字錯誤率(WER),這比美國內部最先進的模型相比還要低。
此外,Google與超40萬小時標註資料訓練出的Whisper模型 (big-v2) 進行了比較。
在Whisper能解碼的18種語言中,其解碼錯誤率低於40%,而USM平均錯誤率僅32.7%。
#對下游ASR任務的推廣
#在公開的資料集上,與Whisper相比,USM在CORAAL(非裔美國人的方言英語)、SpeechStew(英文-美國)和FLEURS(102種語言)上顯示出更低的WER,不論是否有域內訓練資料。
兩種模型在FLEURS上的差異尤其明顯。
#在AST任務上的表現
在CoVoST資料集上對USM進行微調。
將資料集中的語言依資源可用性分為高、中、低三類,在每一類上計算BLEU分數(越高越好) ,USM在每一類的表現的優於Whisper。
研究發現,BEST-RQ預訓練是將語音表徵學習擴展到大資料集的有效方法。
當與MOST中的文字注入相結合時,它提高了下游語音任務的質量,在FLEURS和CoVoST 2基準上實現了最好的性能。
透過訓練輕量級剩餘適配器模組,MOST表示能夠快速適應新的領域。而這些剩餘適配器模組只增加2%的參數。
#Google稱,目前,USM支援100多種語言,到未來將擴展到1000多種語言。有了這項技術,或許對於每個人來講走到世界各地都穩妥了。
甚至,未來即時翻譯GoogleAR眼鏡產品將會吸引眾多粉絲。
不過,現在這項技術的應用還是有很長的路要走。
畢竟在面向世界的IO大會演講中,Google還把阿拉伯文寫反了,引來眾多網友圍觀。
以上是再勝OpenAI!谷歌發布20億參數通用模型,100多種語言自動辨識翻譯的詳細內容。更多資訊請關注PHP中文網其他相關文章!

用Microsoft Power BI圖來利用數據可視化的功能 在當今數據驅動的世界中,有效地將復雜信息傳達給非技術觀眾至關重要。 數據可視化橋接此差距,轉換原始數據i

專家系統:深入研究AI的決策能力 想像一下,從醫療診斷到財務計劃,都可以訪問任何事情的專家建議。 這就是人工智能專家系統的力量。 這些系統模仿Pro

首先,很明顯,這種情況正在迅速發生。各種公司都在談論AI目前撰寫的代碼的比例,並且這些代碼的比例正在迅速地增加。已經有很多工作流離失所

從數字營銷到社交媒體的所有創意領域,電影業都站在技術十字路口。隨著人工智能開始重塑視覺講故事的各個方面並改變娛樂的景觀

ISRO的免費AI/ML在線課程:通向地理空間技術創新的門戶 印度太空研究組織(ISRO)通過其印度遙感研究所(IIR)為學生和專業人士提供了絕佳的機會

本地搜索算法:綜合指南 規劃大規模活動需要有效的工作量分佈。 當傳統方法失敗時,本地搜索算法提供了強大的解決方案。 本文探討了爬山和模擬

該版本包括三種不同的型號,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,標誌著向大語言模型景觀內的特定任務優化邁進。這些模型並未立即替換諸如

Chip Giant Nvidia週一表示,它將開始製造AI超級計算機(可以處理大量數據並運行複雜算法的機器),完全是在美國首次在美國境內。這一消息是在特朗普總統SI之後發布的


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

禪工作室 13.0.1
強大的PHP整合開發環境

SublimeText3 Linux新版
SublimeText3 Linux最新版

Atom編輯器mac版下載
最受歡迎的的開源編輯器

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器