音訊產生領域又有好消息:剛剛,Stability AI 宣布推出開放模型 Stable Audio Open,該模型能夠產生高品質的音訊資料。
專案位址:https://huggingface.co/stabilityai/stable-audio-open-1.0
與Stability AI的商業Stable Audio產品(可產生長達三分鐘的更長、連貫的音樂曲目)不同,Stable Audio Open可透過簡單的文字提供產生長達47秒的高品質音訊資料。
這個模型是為音樂製作和聲音設計而創建的。它包括鼓點、樂器riffs、環境音、擬聲錄音和其他用於音樂製作和聲音設計的音訊樣本。雖然它可以產生簡短的音樂片段,但它還沒有針對完整的歌曲、旋律或人聲進行最佳化。
Stable Audio Open 的主要優勢在於,使用者可以根據自己的自訂音訊資料對模型進行微調。
例如,下方是鼓手根據自己的鼓聲錄音樣本進行微調生成的新節拍:生成森林中鳥兒唱歌的音頻: 再產生一段「動次打次」的搖滾樂: 訓練細節與資料集
Stable+Audio+Open是基於Transformer架構的潛在擴散模型。由三個元件組成:將波形壓縮為可管理序列長度的自編碼器、用於文字調節的基於T5的文字嵌入,以及在自編碼器和文字嵌入中運行的基於Transformer的擴散(DiT)模型。這個模型的設計旨在在空間效率和語音生成品質之間取得平衡。
在內部的音樂產生器中,隨著包括Stability在內的一些生成器越來越受歡迎,版權以及一些生成器創建者可能濫用版權的問題成為人們關注的焦點。然而,一些生成器創建者可以滿用版權的方式成為人們關注的焦點。
在本次模型訓練中,穩定性和人工智慧會對訓練資料的品質進行監測,以確保模型的穩定性。在文生圖模型訓練上的「版權問題」曾經讓這家公司深陷爭議之中。因此,Stable+Audio+Open使用FreeSound和Free Music Archive的音訊資料進行訓練,以確保沒有使用任何受版權保護或專有的資料。這樣可以確保任何使用Stable+Audio+Open的個人或機構都不會侵犯任何版權或專有權利。
資料集共包含 486492 個音訊記錄,其中 472618 個來自 Freesound,13874 個來自 Free Music Archive 。所有音訊檔案均為 CC0、CC BY 或 CC Sampling+ 授權。這些資料用於訓練自編碼器和 DiT,此外研究者使用了公開的預訓練 T5 模型(t5-base)進行文字調節。
在開始訓練之前,研究者進行了深入分析,以確保訓練資料中沒有未經授權的版權音樂。
他們首先使用基於 AudioSet 類別的 PANNs 音樂分類器識別了 FreeSound 中的音樂樣本。在被辨識的音樂樣本中至少有 30 秒的音樂被預測為屬於音樂相關類別,閾值為 0.15(PANNs 輸出機率範圍為 0 至 1)。
識別出的音樂樣本被發送到 Audible Magic(值得信賴的內容檢測公司)的識別服務,以確保不存在受版權保護的音樂。 Audible Magic 標記了疑似受版權保護的音樂,這些會被刪除,然後再對資料集進行訓練。大部分被刪除的內容都是現場錄音,其中的背景音樂都是受版權保護的。經過上述處理後,研究者得到了 266324 個 CC0、194840 個 CC-BY 和 11454 個 CC 採樣 + 音訊記錄。
最後要確保的是, FMA 子集中不存在受版權保護的內容。在這種情況下,程式略有不同,因為 FMA 子集中包含音樂訊號。研究者根據大型版權音樂資料庫進行元資料搜索,並標記任何可能匹配的內容,被標記的內容將由人工逐一審查。這一過程之後,最終獲得了 8967 首 CC-BY 和 4907 首 CC0 音樂。
限制
Stable Audio Open 1.0 作為音訊產生模型,也有一些局限性,包括:
無法產生逼真的聲音;
使用英文描述進行訓練,在其他語言中的表現不會那麼好;
#不能適用於所有音樂風格和文化,訓練資料缺乏多樣性,模型可能無法在現有的各種音樂流派和聲音效果上表現得同樣好;
以上是Stability AI開源47秒音訊生成模型,蟲鳴鳥叫聲、搖滾、鼓點都能生成的詳細內容。更多資訊請關注PHP中文網其他相關文章!