搜尋
首頁科技週邊人工智慧OpenAI的Whisper蒸餾後,語音辨識速度大幅提升:兩天內star量突破千

最近,「黴黴大秀中文」的影片在各大社群媒體上迅速走紅,之後又出現了類似的「郭德綱大秀英文」等影片。這些影片中的許多都是由一款名為“HeyGen”的人工智能應用製作的

#不過,從HeyGen 現在的火爆程度來看,想用它製作類似視頻可能要排很久。好在,這並不是唯一的製作方法。懂技術的小夥伴也可以尋找其他替代方案,例如語音轉文字模型 Whisper、文字翻譯 GPT、聲音克隆 生成音頻 so-vits-svc、生成符合音頻的嘴型視頻 GeneFace dengdeng。

重寫後的內容為: 其中,Whisper是OpenAI研發並開源的一個自動語音辨識(ASR)模型,非常好用。他們透過從網路上收集了68萬小時的多語言(98種語言)和多任務監督資料對Whisper進行了訓練。 OpenAI認為使用這樣一個龐大而多樣的資料集可以提高模型對口音、背景雜訊和技術術語的識別能力。除了語音識別,Whisper還可以實現多種語言的轉錄,並將這些語言翻譯成英語。目前,Whisper已經有了很多變體,並成為許多AI應用構建時的必要組件

最近,HuggingFace團隊提出了一個新的變體——Distil-Whisper。這個變體是Whisper模型的蒸餾版,其特點是模型小巧、速度快,而且準確度也非常高,非常適合在需要低延遲或資源有限的環境中使用。然而,與原始的Whisper模型能夠處理多種語言不同,Distil-Whisper只能處理英文

OpenAI的Whisper蒸餾後,語音辨識速度大幅提升:兩天內star量突破千

論文連結:https://arxiv .org/pdf/2311.00430.pdf

具體而言,Distil-Whisper有兩個版本,分別為參數量為756M(distil-large-v2)和394M(distil- medium.en)

與OpenAI 的Whisper-large-v2 相比,756M 版本的distil-large-v2 參數量減少了一半還多,但實現了6 倍的加速,而且在準確程度上非常接近Whisper-large-v2,在短音頻的Word Error Rate(WER)這個指標上相差在1% 以內,甚至在長音頻上優於Whisper-large-v2。這是因為透過仔細的數據選擇和過濾,Whisper 的穩健性得以保持,幻覺得以減少。

OpenAI的Whisper蒸餾後,語音辨識速度大幅提升:兩天內star量突破千

OpenAI的Whisper蒸餾後,語音辨識速度大幅提升:兩天內star量突破千

Whisper的網頁版與Distil-Whisper的速度進行了直覺的對比。圖片來源:https://twitter.com/xenovacom/status/1720460890560975103

所以,雖然剛發布兩三天,Distil-Whisper 的 star 量已經破千。

OpenAI的Whisper蒸餾後,語音辨識速度大幅提升:兩天內star量突破千


  • #專案位址:https://github.com/huggingface/distil -whisper#1-usage
  • 模式位址:https://huggingface.co/models?other=arxiv:2311.00430

#此外,一項測試結果表明,當處理150分鐘的音訊時,Distil-Whisper的速度可以達到Faster-Whisper的2.5倍

OpenAI的Whisper蒸餾後,語音辨識速度大幅提升:兩天內star量突破千

OpenAI的Whisper蒸餾後,語音辨識速度大幅提升:兩天內star量突破千

#測試連結為:https://github.com/Vaibhavs10/insanely-fast-whisper#insanely-fast-whisper

那麼,這樣好的結果是如何達成的呢?論文作者表示,他們使用偽標籤技術建立了一個大規模的開源資料集,然後利用該資料集將 Whisper 模型壓縮成了 Distil-Whisper。他們使用簡單的 WER 啟發式,只選擇了品質最高的偽標籤進行訓練

以下是原始內容的重寫:Distil-Whisper的架構如下圖1所示。研究人員透過從教師模型中複製整個編碼器來初始化學生模型,並在訓練過程中凍結它。他們從OpenAI的Whisper-medium.en和Whisper-large-v2模型中複製了第一個和最後一個解碼器層,經過蒸餾後得到了2個解碼器檢查點,分別命名為distil-medium.en和distil-large-v2

OpenAI的Whisper蒸餾後,語音辨識速度大幅提升:兩天內star量突破千

蒸餾所得的模型的維度細節如表3 所示。

OpenAI的Whisper蒸餾後,語音辨識速度大幅提升:兩天內star量突破千

在資料方面,該模型已經在9個不同的開源資料集(見表2)上進行了22,000小時的訓練。偽標籤是由Whisper產生的。值得注意的是,他們使用了WER過濾器,只有WER得分超過10%的標籤才會被保留。作者表示,這是保持效能的關鍵!

OpenAI的Whisper蒸餾後,語音辨識速度大幅提升:兩天內star量突破千

下表 5 展示了 Distil-Whisper 的主要效能結果。

OpenAI的Whisper蒸餾後,語音辨識速度大幅提升:兩天內star量突破千

根據作者表示,透過凍結編碼器的操作,Distil-Whisper在對抗噪音時表現非常穩健。如下圖所示,Distil-Whisper在噪音條件下遵循與Whisper相似的穩健性曲線,比其他模型如Wav2vec2表現更優

OpenAI的Whisper蒸餾後,語音辨識速度大幅提升:兩天內star量突破千

在處理比較長的音檔時,與Whisper相比,Distil-Whisper有效減少了幻覺。據作者認為,這主要歸功於WER過濾

透過共享相同的編碼器,Distil-Whisper 可以與Whisper 配對進行##推測解碼(Speculative Decoding)。這樣,在參數僅增加 8% 的情況下,速度提高了 2 倍,同時輸出結果與 Whisper 完全相同。

更多細節請參考原文。

以上是OpenAI的Whisper蒸餾後,語音辨識速度大幅提升:兩天內star量突破千的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
人工智能治療師在這裡:您需要了解的14個開創性的心理健康工具人工智能治療師在這裡:您需要了解的14個開創性的心理健康工具Apr 30, 2025 am 11:17 AM

儘管它無法提供訓練有素的治療師的人類聯繫和直覺,但研究表明,許多人很樂意與相對無面和匿名的AI機器人分享他們的擔憂和擔憂。 這是否總是好我

叫AI到雜貨店過道叫AI到雜貨店過道Apr 30, 2025 am 11:16 AM

人工智能(AI)是一種技術數十年的技術,正在徹底改變食品零售業。 從大規模的效率提高和成本降低到精簡的各種業務功能的流程,AI的影響是Undeniabl

從生成的AI中進行佩普談話來提升您的精神從生成的AI中進行佩普談話來提升您的精神Apr 30, 2025 am 11:15 AM

讓我們來談談。 對創新的AI突破的分析是我正在進行的AI中正在進行的《福布斯》列覆蓋範圍的一部分,包括識別和解釋各種有影響力的AI複雜性(請參閱此處的鏈接)。此外,對於我的comp

為什麼AI驅動的超個性化是所有企業必須的為什麼AI驅動的超個性化是所有企業必須的Apr 30, 2025 am 11:14 AM

保持專業形象需要偶爾的衣櫃更新。 在線購物方便時,它缺乏面對面嘗試的確定性。 我的解決方案? AI驅動的個性化。 我設想AI助手策劃服裝Selecti

忘記Duolingo:Google Translate的新AI功能教授語言忘記Duolingo:Google Translate的新AI功能教授語言Apr 30, 2025 am 11:13 AM

谷歌翻譯新增語言學習功能 據Android Authority報導,應用專家AssembleDebug發現,最新版本的谷歌翻譯應用包含一個新的“練習”模式的測試代碼,旨在幫助用戶通過個性化活動來提高他們的語言技能。此功能目前對用戶不可見,但AssembleDebug能夠部分激活它並查看其一些新的用戶界面元素。 激活後,該功能會在屏幕底部添加一個新的“畢業帽”圖標,標有“Beta”徽章,表明“練習”功能最初將以實驗形式發布。 相關的彈出提示顯示“練習為你量身定制的活動!”,這意味著谷歌將生成定制的

他們正在為AI製作TCP/IP,這就是Nanda他們正在為AI製作TCP/IP,這就是NandaApr 30, 2025 am 11:12 AM

麻省理工學院的研究人員正在開發Nanda,這是為AI代理設計的開創性的Web協議。 Nanda的縮寫是網絡代理和分散的AI,通過添加Internet功能,使AI Agen能夠構建人類的模型上下文協議(MCP)。

提示:DeepFake檢測是一項蓬勃發展的業務提示:DeepFake檢測是一項蓬勃發展的業務Apr 30, 2025 am 11:11 AM

Meta的最新冒險:與Chatgpt競爭的AI應用程序 Facebook,Instagram,WhatsApp和Threads的母公司Meta正在啟動新的AI功能應用程序。 這個獨立的應用程序Meta AI旨在直接與Openai的Chatgpt競爭。 槓桿

接下來的兩年在AI網絡安全方面為業務領導者接下來的兩年在AI網絡安全方面為業務領導者Apr 30, 2025 am 11:10 AM

導航AI網絡攻擊的上升潮流 最近,CISO的傑森·克林頓(Jason Clinton)擬人化,強調了與非人類身份相關的新興風險 - 作為機器對機器的通信增殖,維護這些“身份”

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。