搜尋
首頁科技週邊人工智慧再勝OpenAI!谷歌發布20億參數通用模型,100多種語言自動辨識翻譯

上週,OpenAI發布的ChatGPT API和Whisper API,剛剛引來了一場開發者的狂歡。

3月6日,Google就推出了對標的模型-USM。不僅可以支援100多種語言,而且參數量也達到了20億。

當然了,模型仍然沒有對外開放,「這很Google」!

再勝OpenAI!谷歌發布20億參數通用模型,100多種語言自動辨識翻譯

#簡單來說,USM模型在涵蓋1200萬小時語音、280億個句子和300種不同語言的無標註資料集中進行了預訓練,並在較小的標註訓練集中進行了微調。

Google的研究人員表示,雖然用於微調的標註訓練集僅有Whisper的1/7,但USM卻有著與其相當甚至更好的性能,並且還能夠有效地適應新的語言和數據。

再勝OpenAI!谷歌發布20億參數通用模型,100多種語言自動辨識翻譯

#論文網址:https://arxiv.org/abs/2303.01037

結果顯示,USM不僅在多語言自動語音辨識和語音-文字翻譯任務評測中實現了SOTA,而且還可以實際用在YouTube的字幕生成上。

目前,支援自動偵測和翻譯的語種包括,主流的英語、漢語,以及阿薩姆語這類的小語種。

最重要的是,還能用於Google去年IO大會展示的未來AR眼鏡的即時翻譯。

再勝OpenAI!谷歌發布20億參數通用模型,100多種語言自動辨識翻譯

Jeff Dean親自官宣:讓AI支援1000種語言

當微軟和谷歌就誰家擁有更好的AI聊天機器人爭論不休時,要知道,大型語言模型的用途可不僅於此。

去年11月,Google先宣布了新計畫「開發一種支援全球1000種最常用語言的人工智慧語言模型」。

再勝OpenAI!谷歌發布20億參數通用模型,100多種語言自動辨識翻譯

#同年,Meta也發表了一個名為「No Language Left Behind」模型,並稱可以翻譯200多種語言,旨在打造「通用翻譯器」。

而最新模型的發布,Google將其描述為通往目標的「關鍵一步」。

在打造語言模型上,可謂群雄逐鹿。

據傳言,Google計劃在今年的年度 I/O 大會上展示20多款由人工智慧驅動的產品。

目前,自動語音辨識面臨許多挑戰:

  • ##的傳統的監督學習方法缺乏可擴展性

在傳統的方法中,音訊資料需要費時又費錢的手動標記,或從有預先存在的轉錄的來源中收集,而對於缺乏廣泛代表性的語言來說,這很難找到。 #

  • 擴大語言覆蓋率和品質的同時,模型必須以高效的計算方式進行改進

##這就要求演算法能夠使用來自不同來源的大量數據,在不需要完全重新訓練的情況下實現模型的更新,並且能夠推廣到新的語言和使用案例。

微調自監督學習

根據論文介紹,USM的訓練採用了三種資料庫:未配對的音訊資料集、未配對的文本資料集、配對的ASR語料庫。

  • 未配對的音訊資料集

#包括YT-NTL-U(超1200萬小時YouTube無標籤音訊資料)和Pub-U(超429,000小時的51種語言的演講內容)

  • 未配對的文字資料集

#Web-NTL(超1140種不同語言的280億個句子)

  • 配對的ASR語料庫

#YT-SUP 和Pub-S語料庫(超10,000小時的音訊內容和配對文字)

再勝OpenAI!谷歌發布20億參數通用模型,100多種語言自動辨識翻譯

USM使用標準的編碼器-解碼器結構,其中解碼器可以是CTC、RNN -T或LAS。

對於編碼器,USM使用了Conformor,或卷積增強Transformer。

訓練過程共分為三個階段。

在初始階段,使用BEST-RQ(基於BERT的隨機投影量化器的語音預訓練)進行無監督的預訓練。目標是為了優化RQ。

在下一階段,進一步訓練語音表徵學習模型。

使用MOST(多目標監督預訓練)來整合來自其他文字資料的資訊。

該模型引入了一個額外的編碼器模組,以文字作為輸入,並引入了額外的層來組合語音編碼器和文字編碼器的輸出,並在未標記的語音、標記的語音和文字資料上聯合訓練模型。

最後一步是,對ASR(自動語音辨識)和AST(自動語音翻譯)任務進行微調,經過預訓練的USM模型只需少量監督數據就可以取得很好的效能。

再勝OpenAI!谷歌發布20億參數通用模型,100多種語言自動辨識翻譯

USM整體訓練流程

USM的表現如何,Google對其在YouTube字幕、下游ASR任務的推廣、以及自動語音翻譯上進行了測試。

YouTube多國語言字幕上的表現#

受監督的YouTube資料包括73種語言,每種語言的資料時長平均不到3000小時。儘管監督數據有限,但模型在73種語言中實現了平均不到30%的單字錯誤率(WER),這比美國內部最先進的模型相比還要低。

此外,Google與超40萬小時標註資料訓練出的Whisper模型 (big-v2) 進行了比較。

在Whisper能解碼的18種語言中,其解碼錯誤率低於40%,而USM平均錯誤率僅32.7%。

再勝OpenAI!谷歌發布20億參數通用模型,100多種語言自動辨識翻譯

#對下游ASR任務的推廣

#在公開的資料集上,與Whisper相比,USM在CORAAL(非裔美國人的方言英語)、SpeechStew(英文-美國)和FLEURS(102種語言)上顯示出更低的WER,不論是否有域內訓練資料。

兩種模型在FLEURS上的差異尤其明顯。

再勝OpenAI!谷歌發布20億參數通用模型,100多種語言自動辨識翻譯

#在AST任務上的表現

在CoVoST資料集上對USM進行微調。

將資料集中的語言依資源可用性分為高、中、低三類,在每一類上計算BLEU分數(越高越好) ,USM在每一類的表現的優於Whisper。

研究發現,BEST-RQ預訓練是將語音表徵學習擴展到大資料集的有效方法。

當與MOST中的文字注入相結合時,它提高了下游語音任務的質量,在FLEURS和CoVoST 2基準上實現了最好的性能。

透過訓練輕量級剩餘適配器模組,MOST表示能夠快速適應新的領域。而這些剩餘適配器模組只增加2%的參數。

再勝OpenAI!谷歌發布20億參數通用模型,100多種語言自動辨識翻譯

#Google稱,目前,USM支援100多種語言,到未來將擴展到1000多種語言。有了這項技術,或許對於每個人來講走到世界各地都穩妥了。

甚至,未來即時翻譯GoogleAR眼鏡產品將會吸引眾多粉絲。

不過,現在這項技術的應用還是有很長的路要走。

畢竟在面向世界的IO大會演講中,Google還把阿拉伯文寫反了,引來眾多網友圍觀。

再勝OpenAI!谷歌發布20億參數通用模型,100多種語言自動辨識翻譯

#

以上是再勝OpenAI!谷歌發布20億參數通用模型,100多種語言自動辨識翻譯的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
大多數使用的10個功率BI圖 - 分析Vidhya大多數使用的10個功率BI圖 - 分析VidhyaApr 16, 2025 pm 12:05 PM

用Microsoft Power BI圖來利用數據可視化的功能 在當今數據驅動的世界中,有效地將復雜信息傳達給非技術觀眾至關重要。 數據可視化橋接此差距,轉換原始數據i

AI的專家系統AI的專家系統Apr 16, 2025 pm 12:00 PM

專家系統:深入研究AI的決策能力 想像一下,從醫療診斷到財務計劃,都可以訪問任何事情的專家建議。 這就是人工智能專家系統的力量。 這些系統模仿Pro

三個最好的氛圍編碼器分解了這項代碼中的AI革命三個最好的氛圍編碼器分解了這項代碼中的AI革命Apr 16, 2025 am 11:58 AM

首先,很明顯,這種情況正在迅速發生。各種公司都在談論AI目前撰寫的代碼的比例,並且這些代碼的比例正在迅速地增加。已經有很多工作流離失所

跑道AI的Gen-4:AI蒙太奇如何超越荒謬跑道AI的Gen-4:AI蒙太奇如何超越荒謬Apr 16, 2025 am 11:45 AM

從數字營銷到社交媒體的所有創意領域,電影業都站在技術十字路口。隨著人工智能開始重塑視覺講故事的各個方面並改變娛樂的景觀

如何註冊5天ISRO AI免費課程? - 分析Vidhya如何註冊5天ISRO AI免費課程? - 分析VidhyaApr 16, 2025 am 11:43 AM

ISRO的免費AI/ML在線課程:通向地理空間技術創新的門戶 印度太空研究組織(ISRO)通過其印度遙感研究所(IIR)為學生和專業人士提供了絕佳的機會

AI中的本地搜索算法AI中的本地搜索算法Apr 16, 2025 am 11:40 AM

本地搜索算法:綜合指南 規劃大規模活動需要有效的工作量分佈。 當傳統方法失敗時,本地搜索算法提供了強大的解決方案。 本文探討了爬山和模擬

OpenAI以GPT-4.1的重點轉移,將編碼和成本效率優先考慮OpenAI以GPT-4.1的重點轉移,將編碼和成本效率優先考慮Apr 16, 2025 am 11:37 AM

該版本包括三種不同的型號,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,標誌著向大語言模型景觀內的特定任務優化邁進。這些模型並未立即替換諸如

提示:chatgpt生成假護照提示:chatgpt生成假護照Apr 16, 2025 am 11:35 AM

Chip Giant Nvidia週一表示,它將開始製造AI超級計算機(可以處理大量數據並運行複雜算法的機器),完全是在美國首次在美國境內。這一消息是在特朗普總統SI之後發布的

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
1 個月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
1 個月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
1 個月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它們
1 個月前By尊渡假赌尊渡假赌尊渡假赌

熱工具

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器