首頁 >科技週邊 >人工智慧 >OpenAI的Whisper蒸餾後,語音辨識速度大幅提升:兩天內star量突破千

OpenAI的Whisper蒸餾後,語音辨識速度大幅提升:兩天內star量突破千

PHPz
PHPz轉載
2023-11-05 11:25:061062瀏覽

最近,「黴黴大秀中文」的影片在各大社群媒體上迅速走紅,之後又出現了類似的「郭德綱大秀英文」等影片。這些影片中的許多都是由一款名為“HeyGen”的人工智能應用製作的

#不過,從HeyGen 現在的火爆程度來看,想用它製作類似視頻可能要排很久。好在,這並不是唯一的製作方法。懂技術的小夥伴也可以尋找其他替代方案,例如語音轉文字模型 Whisper、文字翻譯 GPT、聲音克隆 生成音頻 so-vits-svc、生成符合音頻的嘴型視頻 GeneFace dengdeng。

重寫後的內容為: 其中,Whisper是OpenAI研發並開源的一個自動語音辨識(ASR)模型,非常好用。他們透過從網路上收集了68萬小時的多語言(98種語言)和多任務監督資料對Whisper進行了訓練。 OpenAI認為使用這樣一個龐大而多樣的資料集可以提高模型對口音、背景雜訊和技術術語的識別能力。除了語音識別,Whisper還可以實現多種語言的轉錄,並將這些語言翻譯成英語。目前,Whisper已經有了很多變體,並成為許多AI應用構建時的必要組件

最近,HuggingFace團隊提出了一個新的變體——Distil-Whisper。這個變體是Whisper模型的蒸餾版,其特點是模型小巧、速度快,而且準確度也非常高,非常適合在需要低延遲或資源有限的環境中使用。然而,與原始的Whisper模型能夠處理多種語言不同,Distil-Whisper只能處理英文

OpenAI的Whisper蒸餾後,語音辨識速度大幅提升:兩天內star量突破千

論文連結:https://arxiv .org/pdf/2311.00430.pdf

具體而言,Distil-Whisper有兩個版本,分別為參數量為756M(distil-large-v2)和394M(distil- medium.en)

與OpenAI 的Whisper-large-v2 相比,756M 版本的distil-large-v2 參數量減少了一半還多,但實現了6 倍的加速,而且在準確程度上非常接近Whisper-large-v2,在短音頻的Word Error Rate(WER)這個指標上相差在1% 以內,甚至在長音頻上優於Whisper-large-v2。這是因為透過仔細的數據選擇和過濾,Whisper 的穩健性得以保持,幻覺得以減少。

OpenAI的Whisper蒸餾後,語音辨識速度大幅提升:兩天內star量突破千

OpenAI的Whisper蒸餾後,語音辨識速度大幅提升:兩天內star量突破千

Whisper的網頁版與Distil-Whisper的速度進行了直覺的對比。圖片來源:https://twitter.com/xenovacom/status/1720460890560975103

所以,雖然剛發布兩三天,Distil-Whisper 的 star 量已經破千。

OpenAI的Whisper蒸餾後,語音辨識速度大幅提升:兩天內star量突破千


  • #專案位址:https://github.com/huggingface/distil -whisper#1-usage
  • 模式位址:https://huggingface.co/models?other=arxiv:2311.00430

#此外,一項測試結果表明,當處理150分鐘的音訊時,Distil-Whisper的速度可以達到Faster-Whisper的2.5倍

OpenAI的Whisper蒸餾後,語音辨識速度大幅提升:兩天內star量突破千

OpenAI的Whisper蒸餾後,語音辨識速度大幅提升:兩天內star量突破千

#測試連結為:https://github.com/Vaibhavs10/insanely-fast-whisper#insanely-fast-whisper

那麼,這樣好的結果是如何達成的呢?論文作者表示,他們使用偽標籤技術建立了一個大規模的開源資料集,然後利用該資料集將 Whisper 模型壓縮成了 Distil-Whisper。他們使用簡單的 WER 啟發式,只選擇了品質最高的偽標籤進行訓練

以下是原始內容的重寫:Distil-Whisper的架構如下圖1所示。研究人員透過從教師模型中複製整個編碼器來初始化學生模型,並在訓練過程中凍結它。他們從OpenAI的Whisper-medium.en和Whisper-large-v2模型中複製了第一個和最後一個解碼器層,經過蒸餾後得到了2個解碼器檢查點,分別命名為distil-medium.en和distil-large-v2

OpenAI的Whisper蒸餾後,語音辨識速度大幅提升:兩天內star量突破千

蒸餾所得的模型的維度細節如表3 所示。

OpenAI的Whisper蒸餾後,語音辨識速度大幅提升:兩天內star量突破千

在資料方面,該模型已經在9個不同的開源資料集(見表2)上進行了22,000小時的訓練。偽標籤是由Whisper產生的。值得注意的是,他們使用了WER過濾器,只有WER得分超過10%的標籤才會被保留。作者表示,這是保持效能的關鍵!

OpenAI的Whisper蒸餾後,語音辨識速度大幅提升:兩天內star量突破千

下表 5 展示了 Distil-Whisper 的主要效能結果。

OpenAI的Whisper蒸餾後,語音辨識速度大幅提升:兩天內star量突破千

根據作者表示,透過凍結編碼器的操作,Distil-Whisper在對抗噪音時表現非常穩健。如下圖所示,Distil-Whisper在噪音條件下遵循與Whisper相似的穩健性曲線,比其他模型如Wav2vec2表現更優

OpenAI的Whisper蒸餾後,語音辨識速度大幅提升:兩天內star量突破千

在處理比較長的音檔時,與Whisper相比,Distil-Whisper有效減少了幻覺。據作者認為,這主要歸功於WER過濾

透過共享相同的編碼器,Distil-Whisper 可以與Whisper 配對進行##推測解碼(Speculative Decoding)。這樣,在參數僅增加 8% 的情況下,速度提高了 2 倍,同時輸出結果與 Whisper 完全相同。

更多細節請參考原文。

以上是OpenAI的Whisper蒸餾後,語音辨識速度大幅提升:兩天內star量突破千的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除