最近,「黴黴大秀中文」的影片在各大社群媒體上迅速走紅,之後又出現了類似的「郭德綱大秀英文」等影片。這些影片中的許多都是由一款名為“HeyGen”的人工智能應用製作的
#不過,從HeyGen 現在的火爆程度來看,想用它製作類似視頻可能要排很久。好在,這並不是唯一的製作方法。懂技術的小夥伴也可以尋找其他替代方案,例如語音轉文字模型 Whisper、文字翻譯 GPT、聲音克隆 生成音頻 so-vits-svc、生成符合音頻的嘴型視頻 GeneFace dengdeng。
重寫後的內容為: 其中,Whisper是OpenAI研發並開源的一個自動語音辨識(ASR)模型,非常好用。他們透過從網路上收集了68萬小時的多語言(98種語言)和多任務監督資料對Whisper進行了訓練。 OpenAI認為使用這樣一個龐大而多樣的資料集可以提高模型對口音、背景雜訊和技術術語的識別能力。除了語音識別,Whisper還可以實現多種語言的轉錄,並將這些語言翻譯成英語。目前,Whisper已經有了很多變體,並成為許多AI應用構建時的必要組件
最近,HuggingFace團隊提出了一個新的變體——Distil-Whisper。這個變體是Whisper模型的蒸餾版,其特點是模型小巧、速度快,而且準確度也非常高,非常適合在需要低延遲或資源有限的環境中使用。然而,與原始的Whisper模型能夠處理多種語言不同,Distil-Whisper只能處理英文
論文連結:https://arxiv .org/pdf/2311.00430.pdf
具體而言,Distil-Whisper有兩個版本,分別為參數量為756M(distil-large-v2)和394M(distil- medium.en)
與OpenAI 的Whisper-large-v2 相比,756M 版本的distil-large-v2 參數量減少了一半還多,但實現了6 倍的加速,而且在準確程度上非常接近Whisper-large-v2,在短音頻的Word Error Rate(WER)這個指標上相差在1% 以內,甚至在長音頻上優於Whisper-large-v2。這是因為透過仔細的數據選擇和過濾,Whisper 的穩健性得以保持,幻覺得以減少。
Whisper的網頁版與Distil-Whisper的速度進行了直覺的對比。圖片來源:https://twitter.com/xenovacom/status/1720460890560975103
所以,雖然剛發布兩三天,Distil-Whisper 的 star 量已經破千。
- #專案位址:https://github.com/huggingface/distil -whisper#1-usage
- 模式位址:https://huggingface.co/models?other=arxiv:2311.00430
#此外,一項測試結果表明,當處理150分鐘的音訊時,Distil-Whisper的速度可以達到Faster-Whisper的2.5倍
#測試連結為:https://github.com/Vaibhavs10/insanely-fast-whisper#insanely-fast-whisper
那麼,這樣好的結果是如何達成的呢?論文作者表示,他們使用偽標籤技術建立了一個大規模的開源資料集,然後利用該資料集將 Whisper 模型壓縮成了 Distil-Whisper。他們使用簡單的 WER 啟發式,只選擇了品質最高的偽標籤進行訓練
以下是原始內容的重寫:Distil-Whisper的架構如下圖1所示。研究人員透過從教師模型中複製整個編碼器來初始化學生模型,並在訓練過程中凍結它。他們從OpenAI的Whisper-medium.en和Whisper-large-v2模型中複製了第一個和最後一個解碼器層,經過蒸餾後得到了2個解碼器檢查點,分別命名為distil-medium.en和distil-large-v2
蒸餾所得的模型的維度細節如表3 所示。
在資料方面,該模型已經在9個不同的開源資料集(見表2)上進行了22,000小時的訓練。偽標籤是由Whisper產生的。值得注意的是,他們使用了WER過濾器,只有WER得分超過10%的標籤才會被保留。作者表示,這是保持效能的關鍵!
下表 5 展示了 Distil-Whisper 的主要效能結果。
根據作者表示,透過凍結編碼器的操作,Distil-Whisper在對抗噪音時表現非常穩健。如下圖所示,Distil-Whisper在噪音條件下遵循與Whisper相似的穩健性曲線,比其他模型如Wav2vec2表現更優
在處理比較長的音檔時,與Whisper相比,Distil-Whisper有效減少了幻覺。據作者認為,這主要歸功於WER過濾
透過共享相同的編碼器,Distil-Whisper 可以與Whisper 配對進行##推測解碼(Speculative Decoding)。這樣,在參數僅增加 8% 的情況下,速度提高了 2 倍,同時輸出結果與 Whisper 完全相同。
更多細節請參考原文。
以上是OpenAI的Whisper蒸餾後,語音辨識速度大幅提升:兩天內star量突破千的詳細內容。更多資訊請關注PHP中文網其他相關文章!

儘管它無法提供訓練有素的治療師的人類聯繫和直覺,但研究表明,許多人很樂意與相對無面和匿名的AI機器人分享他們的擔憂和擔憂。 這是否總是好我

人工智能(AI)是一種技術數十年的技術,正在徹底改變食品零售業。 從大規模的效率提高和成本降低到精簡的各種業務功能的流程,AI的影響是Undeniabl

讓我們來談談。 對創新的AI突破的分析是我正在進行的AI中正在進行的《福布斯》列覆蓋範圍的一部分,包括識別和解釋各種有影響力的AI複雜性(請參閱此處的鏈接)。此外,對於我的comp

保持專業形象需要偶爾的衣櫃更新。 在線購物方便時,它缺乏面對面嘗試的確定性。 我的解決方案? AI驅動的個性化。 我設想AI助手策劃服裝Selecti

谷歌翻譯新增語言學習功能 據Android Authority報導,應用專家AssembleDebug發現,最新版本的谷歌翻譯應用包含一個新的“練習”模式的測試代碼,旨在幫助用戶通過個性化活動來提高他們的語言技能。此功能目前對用戶不可見,但AssembleDebug能夠部分激活它並查看其一些新的用戶界面元素。 激活後,該功能會在屏幕底部添加一個新的“畢業帽”圖標,標有“Beta”徽章,表明“練習”功能最初將以實驗形式發布。 相關的彈出提示顯示“練習為你量身定制的活動!”,這意味著谷歌將生成定制的

麻省理工學院的研究人員正在開發Nanda,這是為AI代理設計的開創性的Web協議。 Nanda的縮寫是網絡代理和分散的AI,通過添加Internet功能,使AI Agen能夠構建人類的模型上下文協議(MCP)。

Meta的最新冒險:與Chatgpt競爭的AI應用程序 Facebook,Instagram,WhatsApp和Threads的母公司Meta正在啟動新的AI功能應用程序。 這個獨立的應用程序Meta AI旨在直接與Openai的Chatgpt競爭。 槓桿

導航AI網絡攻擊的上升潮流 最近,CISO的傑森·克林頓(Jason Clinton)擬人化,強調了與非人類身份相關的新興風險 - 作為機器對機器的通信增殖,維護這些“身份”


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。