OpenAI的Whisper蒸餾後，語音辨識速度大幅提升：兩天內star量突破千-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

OpenAI的Whisper蒸餾後，語音辨識速度大幅提升：兩天內star量突破千

PHPz

Nov 05, 2023 am 11:25 AM

ai模型

最近，「黴黴大秀中文」的影片在各大社群媒體上迅速走紅，之後又出現了類似的「郭德綱大秀英文」等影片。這些影片中的許多都是由一款名為“HeyGen”的人工智能應用製作的

#不過，從HeyGen 現在的火爆程度來看，想用它製作類似視頻可能要排很久。好在，這並不是唯一的製作方法。懂技術的小夥伴也可以尋找其他替代方案，例如語音轉文字模型 Whisper、文字翻譯 GPT、聲音克隆生成音頻 so-vits-svc、生成符合音頻的嘴型視頻 GeneFace dengdeng。

重寫後的內容為：其中，Whisper是OpenAI研發並開源的一個自動語音辨識（ASR）模型，非常好用。他們透過從網路上收集了68萬小時的多語言（98種語言）和多任務監督資料對Whisper進行了訓練。 OpenAI認為使用這樣一個龐大而多樣的資料集可以提高模型對口音、背景雜訊和技術術語的識別能力。除了語音識別，Whisper還可以實現多種語言的轉錄，並將這些語言翻譯成英語。目前，Whisper已經有了很多變體，並成為許多AI應用構建時的必要組件

最近，HuggingFace團隊提出了一個新的變體——Distil-Whisper。這個變體是Whisper模型的蒸餾版，其特點是模型小巧、速度快，而且準確度也非常高，非常適合在需要低延遲或資源有限的環境中使用。然而，與原始的Whisper模型能夠處理多種語言不同，Distil-Whisper只能處理英文

OpenAI的Whisper蒸餾後，語音辨識速度大幅提升：兩天內star量突破千

論文連結：https://arxiv .org/pdf/2311.00430.pdf

具體而言，Distil-Whisper有兩個版本，分別為參數量為756M（distil-large-v2）和394M（distil- medium.en）

與OpenAI 的Whisper-large-v2 相比，756M 版本的distil-large-v2 參數量減少了一半還多，但實現了6 倍的加速，而且在準確程度上非常接近Whisper-large-v2，在短音頻的Word Error Rate（WER）這個指標上相差在1% 以內，甚至在長音頻上優於Whisper-large-v2。這是因為透過仔細的數據選擇和過濾，Whisper 的穩健性得以保持，幻覺得以減少。

OpenAI的Whisper蒸餾後，語音辨識速度大幅提升：兩天內star量突破千

Whisper的網頁版與Distil-Whisper的速度進行了直覺的對比。圖片來源：https://twitter.com/xenovacom/status/1720460890560975103

所以，雖然剛發布兩三天，Distil-Whisper 的 star 量已經破千。

OpenAI的Whisper蒸餾後，語音辨識速度大幅提升：兩天內star量突破千

#專案位址：https://github.com/huggingface/distil -whisper#1-usage
模式位址：https://huggingface.co/models?other=arxiv:2311.00430

#此外，一項測試結果表明，當處理150分鐘的音訊時，Distil-Whisper的速度可以達到Faster-Whisper的2.5倍

OpenAI的Whisper蒸餾後，語音辨識速度大幅提升：兩天內star量突破千

#測試連結為：https://github.com/Vaibhavs10/insanely-fast-whisper#insanely-fast-whisper

那麼，這樣好的結果是如何達成的呢？論文作者表示，他們使用偽標籤技術建立了一個大規模的開源資料集，然後利用該資料集將 Whisper 模型壓縮成了 Distil-Whisper。他們使用簡單的 WER 啟發式，只選擇了品質最高的偽標籤進行訓練

以下是原始內容的重寫：Distil-Whisper的架構如下圖1所示。研究人員透過從教師模型中複製整個編碼器來初始化學生模型，並在訓練過程中凍結它。他們從OpenAI的Whisper-medium.en和Whisper-large-v2模型中複製了第一個和最後一個解碼器層，經過蒸餾後得到了2個解碼器檢查點，分別命名為distil-medium.en和distil-large-v2

OpenAI的Whisper蒸餾後，語音辨識速度大幅提升：兩天內star量突破千

蒸餾所得的模型的維度細節如表3 所示。

OpenAI的Whisper蒸餾後，語音辨識速度大幅提升：兩天內star量突破千

在資料方面，該模型已經在9個不同的開源資料集（見表2）上進行了22,000小時的訓練。偽標籤是由Whisper產生的。值得注意的是，他們使用了WER過濾器，只有WER得分超過10%的標籤才會被保留。作者表示，這是保持效能的關鍵！

OpenAI的Whisper蒸餾後，語音辨識速度大幅提升：兩天內star量突破千

下表 5 展示了 Distil-Whisper 的主要效能結果。

OpenAI的Whisper蒸餾後，語音辨識速度大幅提升：兩天內star量突破千

根據作者表示，透過凍結編碼器的操作，Distil-Whisper在對抗噪音時表現非常穩健。如下圖所示，Distil-Whisper在噪音條件下遵循與Whisper相似的穩健性曲線，比其他模型如Wav2vec2表現更優

OpenAI的Whisper蒸餾後，語音辨識速度大幅提升：兩天內star量突破千

在處理比較長的音檔時，與Whisper相比，Distil-Whisper有效減少了幻覺。據作者認為，這主要歸功於WER過濾

透過共享相同的編碼器，Distil-Whisper 可以與Whisper 配對進行##推測解碼（Speculative Decoding）。這樣，在參數僅增加 8% 的情況下，速度提高了 2 倍，同時輸出結果與 Whisper 完全相同。

更多細節請參考原文。

以上是OpenAI的Whisper蒸餾後，語音辨識速度大幅提升：兩天內star量突破千的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

人工智能治療師在這裡：您需要了解的14個開創性的心理健康工具Apr 30, 2025 am 11:17 AM

儘管它無法提供訓練有素的治療師的人類聯繫和直覺，但研究表明，許多人很樂意與相對無面和匿名的AI機器人分享他們的擔憂和擔憂。這是否總是好我

叫AI到雜貨店過道Apr 30, 2025 am 11:16 AM

人工智能（AI）是一種技術數十年的技術，正在徹底改變食品零售業。從大規模的效率提高和成本降低到精簡的各種業務功能的流程，AI的影響是Undeniabl

從生成的AI中進行佩普談話來提升您的精神Apr 30, 2025 am 11:15 AM

讓我們來談談。對創新的AI突破的分析是我正在進行的AI中正在進行的《福布斯》列覆蓋範圍的一部分，包括識別和解釋各種有影響力的AI複雜性（請參閱此處的鏈接）。此外，對於我的comp

為什麼AI驅動的超個性化是所有企業必須的Apr 30, 2025 am 11:14 AM

保持專業形象需要偶爾的衣櫃更新。在線購物方便時，它缺乏面對面嘗試的確定性。我的解決方案？ AI驅動的個性化。我設想AI助手策劃服裝Selecti

忘記Duolingo：Google Translate的新AI功能教授語言Apr 30, 2025 am 11:13 AM

谷歌翻譯新增語言學習功能據Android Authority報導，應用專家AssembleDebug發現，最新版本的谷歌翻譯應用包含一個新的“練習”模式的測試代碼，旨在幫助用戶通過個性化活動來提高他們的語言技能。此功能目前對用戶不可見，但AssembleDebug能夠部分激活它並查看其一些新的用戶界面元素。激活後，該功能會在屏幕底部添加一個新的“畢業帽”圖標，標有“Beta”徽章，表明“練習”功能最初將以實驗形式發布。相關的彈出提示顯示“練習為你量身定制的活動！”，這意味著谷歌將生成定制的