搜尋
首頁科技週邊人工智慧開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

給出一段文字,人工智慧就可以產生音樂,語音,各種音效,甚至是想像的聲音,例如黑洞和雷射槍。最近由英國薩里大學和帝國學院聯合推出的AudioLDM,在發布之後迅速火遍國外,一周內在推特上收穫了近 300 次的轉發和 1500 次的點讚。在模型開源第二天,AudioLDM就衝上了Hugging Face 熱搜榜第一名,並在一周內進入了Hugging Face 最受喜歡的前40 名應用榜單(共約25000),也迅速出現了很多基於AudioLDM 的衍生工作。

AudioLDM 模型有以下幾個亮點:

  • 首個同時可以從文字產生音樂,語音和音效的開源模型。
  • 由學術界開發,用更少的數據,單一 GPU,以及更小的模型,實現了目前最好的效果。
  • 提出以自監督的方式訓練產生模型,使文字指導音訊產生不再受限於(文字-音訊)資料對缺失的問題。
  • 模型在不做額外訓練的情況下(zero-shot),可以實現音訊風格的遷移,音訊缺失填充,和音訊超解析度。

開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

  • #專案首頁:https://audioldm.github.io/ 
  • 論文:https://arxiv.org/abs/2301.12503
  • #開源程式碼與模型:https://github.com/haoheliu/AudioLDM
  • Hugging Face Space:https://huggingface.co/spaces/haoheliu/audioldm- text-to-audio-generation

作者首先在一月二十七日發布了對模型的預告,展示了非常簡單的一個文本:” A music made by []” (一段由【】生成的音樂) 去生成不同聲音的效果。影片展示了由不同樂器,甚至是蚊子製作的音樂,在推特上迅速受到了廣泛關注,播放次數超過 35.4K 次,被轉發了 130 餘次。

開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

隨後作者公開了論文和一個新的影片。這個影片中作者展示了模型的大部分能力,以及和 ChatGPT 合作去產生聲音的效果。 AudioLDM 甚至可以產生外太空的聲音。

隨後作者發布了論文,預訓練的模型,和一個可玩的接口,點燃了推特網友們的熱情,在第二天就迅速登上了Hugging Face熱門搜榜的第一名:

開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

#推特上這篇工作受到了廣泛的關注,業內學者們紛紛轉發與評估:

開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

網友使用AudioLDM 產生了各種各樣的聲音。

例如有產生二次元貓娘打呼嚕的聲音:

開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

以及鬼魂的聲音:

開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

還有網友合成了:「木乃伊的聲音,低頻,有一些痛苦的呻吟聲」。

甚至還有網友合成了:「有旋律的放屁聲」。

不得不感嘆網友們想像力之豐富。

也有網友直接用 AudioLDM 產生了一系列的音樂專輯,有各種不同的風格,包括爵士,放克,電子和古典等類型。有些音樂頗有創意。

例如 「以宇宙和月亮為主題創作一個氛圍音樂」: 

開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

##以及「使用未來的聲音創作一個音樂」:開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

有興趣的讀者可以訪問這個音樂專輯網站:https://www.latent.store/albums

#也有網友發揮想像力,結合圖片生成文字的模型和AudioLDM,製作了一個圖片指導音效產生的應用。

比如說如果給AudioLDM 這樣的文字:"A dog running in the water with a frisbee」 (一個在水中奔跑並叼著飛盤的狗狗):

開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

可以產生如下狗狗拍打水面的聲音。

開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

甚至可以還原舊照片中的聲音,例如下邊這個圖片:

在獲得「A man and a woman sitting at a bar」(一個男人和一個女人坐在酒吧中)的文本後,模型可以產生如下的聲音,可以聽到模糊的說話聲,以及背景酒杯碰撞的聲音。

還有網友用 AudioLDM 產生了火焰狗狗的聲音,非常有趣。 ############作者也製作了一個影片來展示模型在音效上的生成能力,展示了 AudioLDM 生成樣本接近音效庫的效果。 ############事實上文字產生音訊只是 AudioLDM 的能力的一部分,AudioLDM 同樣可以實現音色轉換、缺失填滿和超解析度。 ############下邊這兩張圖展示了(1)打擊樂到氛圍音樂;以及(2)小號到小朋友的歌聲的音色轉換。 ###########################################下邊是打擊樂到氛圍音樂(漸進的轉換強度)的效果。 ############小號的聲音轉化為小朋友唱歌的聲音(漸進的轉換強度)的效果。 ############下邊我們將會展示模型在音訊超分辨率,音訊缺失填充和發聲材料控制上的效果。由於文章篇幅有限,音訊主要以頻譜圖的方式展示,有興趣的讀者請前往 AudioLDM 的專案首頁查看:https://audioldm.github.io/ ######

在音訊超分上,AudioLDM 的效果也是非常優秀,相較於之前的超解析度模型,AudioLDM 是通用的超解析度模型,不僅限於處理音樂和語音。

開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

在音訊缺失填充上,AudioLDM 可以根據給定文字的不同填入不同的音訊內容,並且在邊界處過渡比較自然。

此外,AudioLDM 也展現出了很強的控制能力,例如對聲學環境,音樂的情緒和速度,物體材料,音調高低以及先後順序等都有很強的控制能力,有興趣的讀者可以到AudioLDM 的論文或專案主頁查看。

作者在文章中對AudioLDM 模型做了主觀評分與客觀指標的評測,結果顯示都可以明顯超過先前最優的模型:

開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

其中AudioGen 為Facebook 在2022 年十月提出的模型,使用了十個資料集,64 塊GPU 和285 兆的參數量。與之相比,AudioLDM-S 可以用單獨一個資料集,1 塊 GPU 和 181 兆的參數量達到更好的效果。

開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

主觀評分也可以看出 AudioLDM 明顯優於先前的方案 DiffSound。那麼,AudioLDM 究竟做了哪些改進使得模型有如此優秀的效能呢?

首先,為了解決文字 - 音訊資料對數量太少的問題,作者提出了自我監督的方式去訓練 AudioLDM。

開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

具體來說,在訓練核心模組LDMs 的時候,作者使用音訊自身的embedding 去作為LDMs 的condition訊號,整個流程並不涉及文字的使用(如上圖所示)。這個方案基於一對預先訓練好的音訊 - 文字對比學習編碼器(CLAP),在 CLAP 原文中 CLAP 展現了很好的泛化能力。 AudioLDM 利用了 CLAP 優秀的泛化能力,達到了在不需要文字標籤情況下在大規模音訊資料上的模型訓練。

事實上,作者發現單使用音訊訓練甚至能比使用音訊- 文字資料對更好:

開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

作者分析了兩方面原因:(1)文字標註本身難以包括音頻的所有信息,例如聲學環境,頻率分佈等,從而導致文本的embedding 不能很好表徵音頻,( 2)文本本身的品質並不完美,例如這樣的一個標註“Boats: Battleships-5.25 conveyor space”,這種標註即使人類也很難想像具體是什麼聲音,就會導致模型訓練的問題。相較之下,使用音訊本身做 LDM 的 condition 可以確保目標音訊和 condition 的強關聯性,從而達到更好的生成效果。

除此之外,作者採用的 Latent Diffusion 方案使得 Diffusion 模型可以在一個較小的空間中進行計算,從而大大的減少了模型對算力的要求。

在模型訓練和結構上的許多細節探索也幫助 AudioLDM 獲得了優秀的性能。

作者也畫了一個簡單的結構圖來介紹了兩個主要的下游任務:

開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

作者也在不同的模型結構,模型大小,DDIM 採樣步數以及不同 Classifier-free Guidance Scale 做了詳盡的實驗。

在公開模型的同時,作者也公開了他們的生成模型評價體系的程式碼庫,以統一今後學術界在這類問題上的評價方法,從而方便論文之間的比較,代碼在如下連結:https://github.com/haoheliu/audioldm_eval

在這項技術爆火的同時,也有網友對科技的安全性提出了質疑:

開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

作者的團隊表示會對模型的使用尤其是商用加以限制,保證模型僅被用來學術交流,並使用適當的LICENSE 和水印保護,防止Ethic 方面問題的出現​​。

作者資訊

論文有兩位共同一作:劉濠赫(英國薩里大學)和陳澤華(英國帝國學院)。

開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

劉濠赫目前博士就讀於英國薩里大學,師從 Mark D. Plumbley 教授。其開源專案在 GitHub 上收穫了數千star。在各大學術會議發表論文二十餘篇,並在多項世界機器聲學大賽中獲得前三名的名次。在企業界與微軟,位元組跳動,英國廣播公司等有廣泛的合作,個人主頁: https://www.surrey.ac.uk/people/haohe-liu

開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

陳澤華是英國帝國學院在讀博士生,師從Danilo Mandic 教授,曾在微軟語音合成研究組及京東人工智慧實驗室實習,研究興趣涉及生成模型、語音合成、生物電訊號生成。

以上是開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
一個提示可以繞過每個主要LLM的保障措施一個提示可以繞過每個主要LLM的保障措施Apr 25, 2025 am 11:16 AM

隱藏者的開創性研究暴露了領先的大語言模型(LLM)的關鍵脆弱性。 他們的發現揭示了一種普遍的旁路技術,稱為“政策木偶”,能夠規避幾乎所有主要LLMS

5個錯誤,大多數企業今年將犯有可持續性5個錯誤,大多數企業今年將犯有可持續性Apr 25, 2025 am 11:15 AM

對環境責任和減少廢物的推動正在從根本上改變企業的運作方式。 這種轉變會影響產品開發,製造過程,客戶關係,合作夥伴選擇以及採用新的

H20芯片禁令震撼中國人工智能公司,但長期以來一直在為影響H20芯片禁令震撼中國人工智能公司,但長期以來一直在為影響Apr 25, 2025 am 11:12 AM

最近對先進AI硬件的限制突出了AI優勢的地緣政治競爭不斷升級,從而揭示了中國對外國半導體技術的依賴。 2024年,中國進口了價值3850億美元的半導體

如果Openai購買Chrome,AI可能會統治瀏覽器戰爭如果Openai購買Chrome,AI可能會統治瀏覽器戰爭Apr 25, 2025 am 11:11 AM

從Google的Chrome剝奪了潛在的剝離,引發了科技行業中的激烈辯論。 OpenAI收購領先的瀏覽器,擁有65%的全球市場份額的前景提出了有關TH的未來的重大疑問

AI如何解決零售媒體的痛苦AI如何解決零售媒體的痛苦Apr 25, 2025 am 11:10 AM

儘管總體廣告增長超過了零售媒體的增長,但仍在放緩。 這個成熟階段提出了挑戰,包括生態系統破碎,成本上升,測量問題和整合複雜性。 但是,人工智能

'AI是我們,比我們更多''AI是我們,比我們更多'Apr 25, 2025 am 11:09 AM

在一系列閃爍和惰性屏幕中,一個古老的無線電裂縫帶有靜態的裂紋。這堆易於破壞穩定的電子產品構成了“電子廢物之地”的核心,這是沉浸式展覽中的六個裝置之一,&qu&qu

Google Cloud在下一個2025年對基礎架構變得更加認真Google Cloud在下一個2025年對基礎架構變得更加認真Apr 25, 2025 am 11:08 AM

Google Cloud的下一個2025:關注基礎架構,連通性和AI Google Cloud的下一個2025會議展示了許多進步,太多了,無法在此處詳細介紹。 有關特定公告的深入分析,請參閱我的文章

IR的秘密支持者透露,Arcana的550萬美元的AI電影管道說話,Arcana的AI Meme,Ai Meme的550萬美元。IR的秘密支持者透露,Arcana的550萬美元的AI電影管道說話,Arcana的AI Meme,Ai Meme的550萬美元。Apr 25, 2025 am 11:07 AM

本週在AI和XR中:一波AI驅動的創造力正在通過從音樂發電到電影製作的媒體和娛樂中席捲。 讓我們潛入頭條新聞。 AI生成的內容的增長影響:技術顧問Shelly Palme

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具