搜尋
首頁科技週邊人工智慧首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

Apr 18, 2024 pm 06:50 PM
產業崑崙萬維繪製圖表天工 3.0

在「天工」大模型發布一周年之際,崑崙萬維重磅宣布,「天工3.0」基座大模型與「天工SkyMusic」音樂大模型正式開啟公測。

自從 AI 讓人類實現音樂創作自由後,連吵架都變得有趣了起來。

在過去的時候,X 平台知名AI 部落客Aran Komatsuzaki 自己寫了一首歌,專門用來表達對另一位AI 科學家— Gary Marcus 的不滿,還用當前大火的Suno 把它生成了出來。要知道,過去,這些大佬們的口水戰主要就是發個帖子,然後你來我往地跟帖。這次,Aran Komatsuzaki 的做法可謂是玩出了新花樣,不知道是不是從「謝帝謝帝我要 diss 你」的靈感得到的。

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

與Aran Komatsuzaki一樣,國內外很多懂音樂、不懂音樂的人都在嘗試玩Suno等AI音樂創作工具,生成了很多非常有意思的音樂作品。

不過,有許多網友反映,Suno 有時生成中文不太穩定,會出現中文歌曲帶有英文感、生僻字唱錯等問題。

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

                                 B 站網友針對 Suno 中時所中所產生的評論中閱讀的中文評論文章。視訊位址:https://b23.tv/gVqTUOu

那麼,有沒有一個 AI 音樂生成模型專門針對中文做過優化呢?

崑崙萬維今日面向全社會開放公測的「天工 SkyMusic」就是這樣一個模式。它產生的中文人聲發音清晰、正宗、無異響,沒有出現「百老匯式中文歌」等水土不服的情況。而且,它不僅針對國語做了最佳化,粵語、成都話、北京話等方言語種也照顧到了。 首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

那麼,和 Suno 比,天工 SkyMusic 表現如何?橫向測評的數據顯示,在人聲和BGM 音質、人聲自然度、發音可懂度等幾個指標上,天工SkyMusic 都更勝一籌,綜合表現超越Suno V3,成為中國首個音樂AIGC 的SOTA模型,也讓中國的自研大模型技術第一次在AIGC 領域領先全球。

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

如此優異的表現自然離不開強大的基座模型,即崑崙萬維在同一時間發布並開源的大模型「天工 3.0」。該模型擁有 4000 億參數,超越了 3140 億參數的 Grok-1,是全球最大的開源 MoE 大模型。

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

在 MMBench 等多項權威多模態評量結果中,「天工 3.0」超越 GPT-4V,全球領先。

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

在這個基座模型的祝福下,天工 SkyMusic 對歌曲的理解更為深刻。它能夠透過歌詞控制情緒變化,並實現如顫音、歌劇、吟唱等多種歌唱技巧,使生成的音樂作品情感更加豐富且貼合情境。 首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

那麼,這個模型具體怎麼用?技術路線是怎樣的?它背後的「天工 3.0」又有何創新之處?我們一個接一個來看。

首個國產音樂 SOTA 模型的無限玩法

其實,用天工 SkyMusic 生成歌曲是非常簡單的:你只需要輸入歌名、歌詞,選擇參考曲目,它就能產生風格、唱腔與之類似的歌。

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

如果你不想自己寫歌詞,也可以試試輸入框右下角的「AI 寫字」功能。它可以從第一句開始寫,每次只生成一句,不滿意的句子可以及時刪掉,直至整首歌創作完成。

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

當然,你也可以試著用「天工3.0」來寫歌,像是這首《本站》就是我們用「天工3.0」寫出來的:

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

接下來就是要選擇參考歌曲,這也是天工SkyMusic 的獨特之處,也就是能夠依照範例音源產生音樂。

在這一步,天工 SkyMusic 提供了許多參考曲目,你可以從中挑選,也可以選擇上傳歌曲檔案。在這裡,我們上傳了一首洛天依的歌曲,看看生成效果如何:首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風這種按照範例音源生成音樂的能力極大地豐富了天工 SkyMusic 的玩法。在使用者作品展示區域,我們看到,光是《新造的人》(電影《週處除三害》插曲)就有古風搖滾、DJ 等五個版本。 首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風在試用過程中我們也發現,其實,天工 SkyMusic 產生的音樂涵蓋了饒舌、民謠、放克、古風、電子等多種曲風。下一步,團隊還計劃讓用戶根據哼出來的旋律生成歌曲,這將對專業人士有很大幫助。 首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

目前,天工 SkyMusic 已全面開放,下載「天工」APP 就可以體驗。這是國內目前唯一公開可用的 AI 音樂生成大模型,它的出現填補了國內 AIGC 工具在這一領域的空白。

雖然這個模型還處於起步階段,但已經讓很多人感受到了音樂創作的樂趣。大家用它去改造神曲、二創金曲、改寫古詩助力教育… 發展出了各種音樂創作新方向。

自研類 Sora 架構,技術路線圖已公開

天工 SkyMusic 是端到端的音樂產生模型,因此我們用起來感覺非常簡單。但是,整個模型的開發卻沒有那麼簡單。

首先從技術路線來說,天工SkyMusic 選擇了大模型音樂音訊生成路線,這意味著它直接學習並產生音訊波形,而不是採用符號音樂生成路線(如MIDI)來產生樂譜。這種方法允許樂器、人聲、旋律、音量、音符等元素的一體化端到端生成,從而提供更直接、更高品質的音樂創作體驗。但是,這個方向也更難,需要高昂的算力和資金,因此做的人非常少。

而且,在這個方向中,下決心去攻克「人聲Song」領域的人更少,大部分研究集中於無人聲的BGM 領域,因為前者幾乎沒有任何開放的資料或開源模型可供參考。

頂著這些壓力,崑崙萬維做了無數次研發實驗,投入了大量算力,構建​​了包含2000 萬首歌曲的數據集(人類有史以來最大的音樂數據集),終於探索出了一個效果好、可復現的方案。而且,他們還把這個方案的技術原理圖公開了。

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

天工SkyMusic 技術原理圖:Large-scale Transformer 負責譜曲,來學習Music Patches 的上下文控制依賴關係,同時完成音樂可控性;Diffusion Transformer 負責演唱,透過LDM 讓Music Patches 還原成高品質音訊。這套模型架構在處理視訊、音訊和音樂時效果極佳。

#

從圖中可以看出,天工 SkyMusic 的框架是類 Sora 的 DiT 技術路徑,不過研發時間是在 Sora 問世之前,因此不可避免地要踩很多坑。

對於產業來說,這張原理圖非常寶貴,因為市面上沒有任何可用的 AI 音樂大模型企業公開自己的技術路徑,包括 SUNO,崑崙萬維是唯一一個。

強大的背後基座 —— 天工 3.0

天工 SkyMusic 的成功離不開它背後的基座模型 —— 天工 3.0。它最核心的升級體現在「獨立思考」方面。這在此模型新增的多輪搜尋與綜合工具呼叫、圖表繪製、研究模式、增強模式等功能中均有所體現。

給定一個資料統計任務,它不僅能夠幫你把資料都收集齊全,還能自己寫程式碼、呼叫各種函數來繪製圖表。各個中間步驟被拆解得條理清晰,後續的執行也基本上不需要人去幹預,甚至連“避免標籤重疊”、“文本居中顯示”這類細節都被考慮到了。這就是「獨立思考」能力的展現。 首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

這種「獨立思考」能力的提升離不開「天工 3.0」在語意理解、邏輯推理等方面的最佳化。與上一代「天工2.0」MoE 大模型相比,「天工3.0」在模型語意理解、邏輯推理以及通用性、泛化​​性、不確定性知識、學習能力等領域擁有驚人的表現提升,其模型技術知識能力提升超過20%,數學/ 推理/ 代碼/ 文創能力提升超過30%。

以搜尋任務為例。在「搜尋增強」模式中,給予一個簡單的搜尋請求,「天工 3.0」不僅會給予一段概括性的回答,還會把一些重要資訊提煉成圖表。 首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

在「研究」模式中,它還會提供一個「深入研究」模組,去展開討論搜尋Query 中未提到的延伸問題,讓你有一種在讀論文的感覺。最後,它也把這些資訊整理成了心智圖,方便快速查閱。 首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

在語意理解、邏輯推理能力均大幅提升的基礎上,「天工3.0」也針對模型獨立規劃、呼叫、組合外部工具及資訊的能力進行了專項訓練。透過獨立規劃以及呼叫、組合外部工具及訊息,它可以幫助你精準有效率地完成產業研究、產品橫評、資訊分析等各類複雜需求。

這種獨立思考的能力對於人工智慧大模型至關重要。首先,這種能力使得AI 能夠在缺乏直接指令的情況下進行自主推理,提高其處理複雜問題的能力;其次,獨立思考的AI 模型能夠進行創新性的解決方案設計,滿足個性化和場景化的需求;最後,這種能力促使AI 在遇到新奇或變化的環境時,透過自我學習和適應來持續優化其表現。這三個面向的累積作用,大大推動了 AI 技術的應用廣度和深度,使其在多種實際應用中表現出更高的智慧和效率。

「天工3.0」包含了AI 音樂、AI 搜尋、AI 寫作、AI 繪畫等多項大模型能力,談到4000 億參數MoE 大模型「天工3.0」與天工SkyMusic 背後的關係時,崑崙萬維董事長兼CEO 方漢解釋說,「大家知道AI 底座大模型是AIGC 堅實的基礎,尤其是文本大模型。文生圖、文生音樂和文生視頻(這些AIGC 模型)的能力基礎都是文本大模型。 「天工 3.0」新增了圖片尺寸擴展、圖片定向調整、墊圖生圖、墊圖進化、墊圖擴圖等全新功能,實測效果優異。

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風「我們的4000 億大模型是給我們所有的面向C 端的產品提供支撐的底座大模型。我的底座大模型做得越好,我的音樂、遊戲、影片以及動漫產品就會做得更好。

實現通用人工智慧,

讓每個人更好地塑造和表達自我

在關於AGI 的願景中,我們常聽一些AI企業主管提到,他們想要用AI 工具來提高人類社會的生產力和效率。因此,他們大多專注於模型智力的擴展和增強。但在方漢看來,這其中忽略了一個重要問題,如何用 AI 幫助人們更好地理解和表達情感。

在天工 SkyMusic 的音樂作品區,我們看到了很多這樣的例子:學生即將畢業的離愁、青年愛而不得的神傷、中年人養家糊口的疲憊都透過歌聲表達了出來。這是真正的「以歌明志」。

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

#而對方言的支持則更像文化平權,這是方漢非常看重的一點。未來,他們希望把更多語種加進去,讓每個小語種人群都能輕鬆創作出屬於自己的文化內容。

「在AIGC 領域,我們宏偉的目標是希望全世界每一個人都能平等地去創作內容。我們想要降低所有人的創作門檻,讓大家都能更好地塑造和表達自我。

最近,這些內容也被寫入了崑崙萬維的最新使命中。

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

其實,這種做法在商業上也是有意義的。 「一旦人人都可以創作音樂之後,我相信任何一個公共場所,比如說每個餐廳、每個酒吧都可以創作出屬於自己的背景音樂,來滿足自己的業務需求。」方漢解釋。

隨著未來持續的優化完善,天工 SkyMusic 會逐漸演變成一個專業且易用的全民音樂創作平台。

當然,崑崙萬維的發力方向不只是音樂。以「天工 3.0」為基礎,他們已經形成了六大 AI 業務矩陣。未來,這些矩陣將組成一個 AI UGC 平台。

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

這個平台不僅能夠幫助一般人表達自我,還能幫助那些想用 AI 創作內容的創作者完成 IP 創作的全閉環。這個閉環以「好的故事(IP)」為核心,跨越文本、漫畫、音樂和視頻等多種形式,消費者的內容消費也都在這一個平台上完成,這是崑崙萬維構建的商業邏輯。

「我們的本質是讓更多人參加到創作者隊伍裡面去。前提是你要會講一個好的故事。如果你能夠創造一個好的IP,那麼就能創作內容。可以預見的是,所有內容產業都將被重做一遍。戰略的邏輯。

這個時代將被塑造成什麼樣子?我們拭目以待。

以上是首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
如何使用Huggingface Smollm建立個人AI助手如何使用Huggingface Smollm建立個人AI助手Apr 18, 2025 am 11:52 AM

利用“設備” AI的力量:建立個人聊天機器人CLI 在最近的過去,個人AI助手的概念似乎是科幻小說。 想像一下科技愛好者亞歷克斯(Alex)夢見一個聰明的本地AI同伴 - 不依賴

通過斯坦福大學激動人心的新計劃,精神健康的AI專心分析通過斯坦福大學激動人心的新計劃,精神健康的AI專心分析Apr 18, 2025 am 11:49 AM

他們的首屆AI4MH發射於2025年4月15日舉行,著名的精神科醫生兼神經科學家湯姆·因斯爾(Tom Insel)博士曾擔任開幕式演講者。 Insel博士因其在心理健康研究和技術方面的傑出工作而聞名

2025年WNBA選秀課程進入聯盟成長並與在線騷擾作鬥爭2025年WNBA選秀課程進入聯盟成長並與在線騷擾作鬥爭Apr 18, 2025 am 11:44 AM

恩格伯特說:“我們要確保WNBA仍然是每個人,球員,粉絲和公司合作夥伴,感到安全,重視和授權的空間。” anno

Python內置數據結構的綜合指南 - 分析VidhyaPython內置數據結構的綜合指南 - 分析VidhyaApr 18, 2025 am 11:43 AM

介紹 Python擅長使用編程語言,尤其是在數據科學和生成AI中。 在處理大型數據集時,有效的數據操作(存儲,管理和訪問)至關重要。 我們以前涵蓋了數字和ST

與替代方案相比,Openai新型號的第一印象與替代方案相比,Openai新型號的第一印象Apr 18, 2025 am 11:41 AM

潛水之前,一個重要的警告:AI性能是非確定性的,並且特定於高度用法。簡而言之,您的里程可能會有所不同。不要將此文章(或任何其他)文章作為最後一句話 - 目的是在您自己的情況下測試這些模型

AI投資組合|如何為AI職業建立投資組合?AI投資組合|如何為AI職業建立投資組合?Apr 18, 2025 am 11:40 AM

建立杰出的AI/ML投資組合:初學者和專業人士指南 創建引人注目的投資組合對於確保在人工智能(AI)和機器學習(ML)中的角色至關重要。 本指南為建立投資組合提供了建議

代理AI對安全操作可能意味著什麼代理AI對安全操作可能意味著什麼Apr 18, 2025 am 11:36 AM

結果?倦怠,效率低下以及檢測和作用之間的差距擴大。這一切都不應該令任何從事網絡安全工作的人感到震驚。 不過,代理AI的承諾已成為一個潛在的轉折點。這個新課

Google與Openai:AI為學生打架Google與Openai:AI為學生打架Apr 18, 2025 am 11:31 AM

直接影響與長期夥伴關係? 兩週前,Openai提出了強大的短期優惠,在2025年5月底之前授予美國和加拿大大學生免費訪問Chatgpt Plus。此工具包括GPT-4O,A A A A A

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
1 個月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
1 個月前By尊渡假赌尊渡假赌尊渡假赌
威爾R.E.P.O.有交叉遊戲嗎?
1 個月前By尊渡假赌尊渡假赌尊渡假赌

熱工具

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器