搜尋
首頁科技週邊人工智慧首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

Apr 18, 2024 pm 06:50 PM
產業崑崙萬維繪製圖表天工 3.0

在「天工」大模型發布一周年之際,崑崙萬維重磅宣布,「天工3.0」基座大模型與「天工SkyMusic」音樂大模型正式開啟公測。

自從 AI 讓人類實現音樂創作自由後,連吵架都變得有趣了起來。

在過去的時候,X 平台知名AI 部落客Aran Komatsuzaki 自己寫了一首歌,專門用來表達對另一位AI 科學家— Gary Marcus 的不滿,還用當前大火的Suno 把它生成了出來。要知道,過去,這些大佬們的口水戰主要就是發個帖子,然後你來我往地跟帖。這次,Aran Komatsuzaki 的做法可謂是玩出了新花樣,不知道是不是從「謝帝謝帝我要 diss 你」的靈感得到的。

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

與Aran Komatsuzaki一樣,國內外很多懂音樂、不懂音樂的人都在嘗試玩Suno等AI音樂創作工具,生成了很多非常有意思的音樂作品。

不過,有許多網友反映,Suno 有時生成中文不太穩定,會出現中文歌曲帶有英文感、生僻字唱錯等問題。

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

                                 B 站網友針對 Suno 中時所中所產生的評論中閱讀的中文評論文章。視訊位址:https://b23.tv/gVqTUOu

那麼,有沒有一個 AI 音樂生成模型專門針對中文做過優化呢?

崑崙萬維今日面向全社會開放公測的「天工 SkyMusic」就是這樣一個模式。它產生的中文人聲發音清晰、正宗、無異響,沒有出現「百老匯式中文歌」等水土不服的情況。而且,它不僅針對國語做了最佳化,粵語、成都話、北京話等方言語種也照顧到了。 首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

那麼,和 Suno 比,天工 SkyMusic 表現如何?橫向測評的數據顯示,在人聲和BGM 音質、人聲自然度、發音可懂度等幾個指標上,天工SkyMusic 都更勝一籌,綜合表現超越Suno V3,成為中國首個音樂AIGC 的SOTA模型,也讓中國的自研大模型技術第一次在AIGC 領域領先全球。

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

如此優異的表現自然離不開強大的基座模型,即崑崙萬維在同一時間發布並開源的大模型「天工 3.0」。該模型擁有 4000 億參數,超越了 3140 億參數的 Grok-1,是全球最大的開源 MoE 大模型。

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

在 MMBench 等多項權威多模態評量結果中,「天工 3.0」超越 GPT-4V,全球領先。

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

在這個基座模型的祝福下,天工 SkyMusic 對歌曲的理解更為深刻。它能夠透過歌詞控制情緒變化,並實現如顫音、歌劇、吟唱等多種歌唱技巧,使生成的音樂作品情感更加豐富且貼合情境。 首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

那麼,這個模型具體怎麼用?技術路線是怎樣的?它背後的「天工 3.0」又有何創新之處?我們一個接一個來看。

首個國產音樂 SOTA 模型的無限玩法

其實,用天工 SkyMusic 生成歌曲是非常簡單的:你只需要輸入歌名、歌詞,選擇參考曲目,它就能產生風格、唱腔與之類似的歌。

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

如果你不想自己寫歌詞,也可以試試輸入框右下角的「AI 寫字」功能。它可以從第一句開始寫,每次只生成一句,不滿意的句子可以及時刪掉,直至整首歌創作完成。

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

當然,你也可以試著用「天工3.0」來寫歌,像是這首《本站》就是我們用「天工3.0」寫出來的:

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

接下來就是要選擇參考歌曲,這也是天工SkyMusic 的獨特之處,也就是能夠依照範例音源產生音樂。

在這一步,天工 SkyMusic 提供了許多參考曲目,你可以從中挑選,也可以選擇上傳歌曲檔案。在這裡,我們上傳了一首洛天依的歌曲,看看生成效果如何:首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風這種按照範例音源生成音樂的能力極大地豐富了天工 SkyMusic 的玩法。在使用者作品展示區域,我們看到,光是《新造的人》(電影《週處除三害》插曲)就有古風搖滾、DJ 等五個版本。 首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風在試用過程中我們也發現,其實,天工 SkyMusic 產生的音樂涵蓋了饒舌、民謠、放克、古風、電子等多種曲風。下一步,團隊還計劃讓用戶根據哼出來的旋律生成歌曲,這將對專業人士有很大幫助。 首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

目前,天工 SkyMusic 已全面開放,下載「天工」APP 就可以體驗。這是國內目前唯一公開可用的 AI 音樂生成大模型,它的出現填補了國內 AIGC 工具在這一領域的空白。

雖然這個模型還處於起步階段,但已經讓很多人感受到了音樂創作的樂趣。大家用它去改造神曲、二創金曲、改寫古詩助力教育… 發展出了各種音樂創作新方向。

自研類 Sora 架構,技術路線圖已公開

天工 SkyMusic 是端到端的音樂產生模型,因此我們用起來感覺非常簡單。但是,整個模型的開發卻沒有那麼簡單。

首先從技術路線來說,天工SkyMusic 選擇了大模型音樂音訊生成路線,這意味著它直接學習並產生音訊波形,而不是採用符號音樂生成路線(如MIDI)來產生樂譜。這種方法允許樂器、人聲、旋律、音量、音符等元素的一體化端到端生成,從而提供更直接、更高品質的音樂創作體驗。但是,這個方向也更難,需要高昂的算力和資金,因此做的人非常少。

而且,在這個方向中,下決心去攻克「人聲Song」領域的人更少,大部分研究集中於無人聲的BGM 領域,因為前者幾乎沒有任何開放的資料或開源模型可供參考。

頂著這些壓力,崑崙萬維做了無數次研發實驗,投入了大量算力,構建​​了包含2000 萬首歌曲的數據集(人類有史以來最大的音樂數據集),終於探索出了一個效果好、可復現的方案。而且,他們還把這個方案的技術原理圖公開了。

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

天工SkyMusic 技術原理圖:Large-scale Transformer 負責譜曲,來學習Music Patches 的上下文控制依賴關係,同時完成音樂可控性;Diffusion Transformer 負責演唱,透過LDM 讓Music Patches 還原成高品質音訊。這套模型架構在處理視訊、音訊和音樂時效果極佳。

#

從圖中可以看出,天工 SkyMusic 的框架是類 Sora 的 DiT 技術路徑,不過研發時間是在 Sora 問世之前,因此不可避免地要踩很多坑。

對於產業來說,這張原理圖非常寶貴,因為市面上沒有任何可用的 AI 音樂大模型企業公開自己的技術路徑,包括 SUNO,崑崙萬維是唯一一個。

強大的背後基座 —— 天工 3.0

天工 SkyMusic 的成功離不開它背後的基座模型 —— 天工 3.0。它最核心的升級體現在「獨立思考」方面。這在此模型新增的多輪搜尋與綜合工具呼叫、圖表繪製、研究模式、增強模式等功能中均有所體現。

給定一個資料統計任務,它不僅能夠幫你把資料都收集齊全,還能自己寫程式碼、呼叫各種函數來繪製圖表。各個中間步驟被拆解得條理清晰,後續的執行也基本上不需要人去幹預,甚至連“避免標籤重疊”、“文本居中顯示”這類細節都被考慮到了。這就是「獨立思考」能力的展現。 首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

這種「獨立思考」能力的提升離不開「天工 3.0」在語意理解、邏輯推理等方面的最佳化。與上一代「天工2.0」MoE 大模型相比,「天工3.0」在模型語意理解、邏輯推理以及通用性、泛化​​性、不確定性知識、學習能力等領域擁有驚人的表現提升,其模型技術知識能力提升超過20%,數學/ 推理/ 代碼/ 文創能力提升超過30%。

以搜尋任務為例。在「搜尋增強」模式中,給予一個簡單的搜尋請求,「天工 3.0」不僅會給予一段概括性的回答,還會把一些重要資訊提煉成圖表。 首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

在「研究」模式中,它還會提供一個「深入研究」模組,去展開討論搜尋Query 中未提到的延伸問題,讓你有一種在讀論文的感覺。最後,它也把這些資訊整理成了心智圖,方便快速查閱。 首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

在語意理解、邏輯推理能力均大幅提升的基礎上,「天工3.0」也針對模型獨立規劃、呼叫、組合外部工具及資訊的能力進行了專項訓練。透過獨立規劃以及呼叫、組合外部工具及訊息,它可以幫助你精準有效率地完成產業研究、產品橫評、資訊分析等各類複雜需求。

這種獨立思考的能力對於人工智慧大模型至關重要。首先,這種能力使得AI 能夠在缺乏直接指令的情況下進行自主推理,提高其處理複雜問題的能力;其次,獨立思考的AI 模型能夠進行創新性的解決方案設計,滿足個性化和場景化的需求;最後,這種能力促使AI 在遇到新奇或變化的環境時,透過自我學習和適應來持續優化其表現。這三個面向的累積作用,大大推動了 AI 技術的應用廣度和深度,使其在多種實際應用中表現出更高的智慧和效率。

「天工3.0」包含了AI 音樂、AI 搜尋、AI 寫作、AI 繪畫等多項大模型能力,談到4000 億參數MoE 大模型「天工3.0」與天工SkyMusic 背後的關係時,崑崙萬維董事長兼CEO 方漢解釋說,「大家知道AI 底座大模型是AIGC 堅實的基礎,尤其是文本大模型。文生圖、文生音樂和文生視頻(這些AIGC 模型)的能力基礎都是文本大模型。 「天工 3.0」新增了圖片尺寸擴展、圖片定向調整、墊圖生圖、墊圖進化、墊圖擴圖等全新功能,實測效果優異。

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風「我們的4000 億大模型是給我們所有的面向C 端的產品提供支撐的底座大模型。我的底座大模型做得越好,我的音樂、遊戲、影片以及動漫產品就會做得更好。

實現通用人工智慧,

讓每個人更好地塑造和表達自我

在關於AGI 的願景中,我們常聽一些AI企業主管提到,他們想要用AI 工具來提高人類社會的生產力和效率。因此,他們大多專注於模型智力的擴展和增強。但在方漢看來,這其中忽略了一個重要問題,如何用 AI 幫助人們更好地理解和表達情感。

在天工 SkyMusic 的音樂作品區,我們看到了很多這樣的例子:學生即將畢業的離愁、青年愛而不得的神傷、中年人養家糊口的疲憊都透過歌聲表達了出來。這是真正的「以歌明志」。

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

#而對方言的支持則更像文化平權,這是方漢非常看重的一點。未來,他們希望把更多語種加進去,讓每個小語種人群都能輕鬆創作出屬於自己的文化內容。

「在AIGC 領域,我們宏偉的目標是希望全世界每一個人都能平等地去創作內容。我們想要降低所有人的創作門檻,讓大家都能更好地塑造和表達自我。

最近,這些內容也被寫入了崑崙萬維的最新使命中。

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

其實,這種做法在商業上也是有意義的。 「一旦人人都可以創作音樂之後,我相信任何一個公共場所,比如說每個餐廳、每個酒吧都可以創作出屬於自己的背景音樂,來滿足自己的業務需求。」方漢解釋。

隨著未來持續的優化完善,天工 SkyMusic 會逐漸演變成一個專業且易用的全民音樂創作平台。

當然,崑崙萬維的發力方向不只是音樂。以「天工 3.0」為基礎,他們已經形成了六大 AI 業務矩陣。未來,這些矩陣將組成一個 AI UGC 平台。

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

這個平台不僅能夠幫助一般人表達自我,還能幫助那些想用 AI 創作內容的創作者完成 IP 創作的全閉環。這個閉環以「好的故事(IP)」為核心,跨越文本、漫畫、音樂和視頻等多種形式,消費者的內容消費也都在這一個平台上完成,這是崑崙萬維構建的商業邏輯。

「我們的本質是讓更多人參加到創作者隊伍裡面去。前提是你要會講一個好的故事。如果你能夠創造一個好的IP,那麼就能創作內容。可以預見的是,所有內容產業都將被重做一遍。戰略的邏輯。

這個時代將被塑造成什麼樣子?我們拭目以待。

以上是首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
無法使用chatgpt!解釋可以立即測試的原因和解決方案[最新2025]無法使用chatgpt!解釋可以立即測試的原因和解決方案[最新2025]May 14, 2025 am 05:04 AM

ChatGPT無法訪問?本文提供多種實用解決方案!許多用戶在日常使用ChatGPT時,可能會遇到無法訪問或響應緩慢等問題。本文將根據不同情況,逐步指導您解決這些問題。 ChatGPT無法訪問的原因及初步排查 首先,我們需要確定問題是出在OpenAI服務器端,還是用戶自身網絡或設備問題。 請按照以下步驟進行排查: 步驟1:檢查OpenAI官方狀態 訪問OpenAI Status頁面 (status.openai.com),查看ChatGPT服務是否正常運行。如果顯示紅色或黃色警報,則表示Open

計算ASI的風險始於人類的思想計算ASI的風險始於人類的思想May 14, 2025 am 05:02 AM

2025年5月10日,麻省理工學院物理學家Max Tegmark告訴《衛報》,AI實驗室應在釋放人工超級智能之前模仿Oppenheimer的三位一體測試演算。 “我的評估是'康普頓常數',這是一場比賽的可能性

易於理解的解釋如何編寫和撰寫歌詞和推薦工具易於理解的解釋如何編寫和撰寫歌詞和推薦工具May 14, 2025 am 05:01 AM

AI音樂創作技術日新月異,本文將以ChatGPT等AI模型為例,詳細講解如何利用AI輔助音樂創作,並輔以實際案例進行說明。我們將分別介紹如何通過SunoAI、Hugging Face上的AI jukebox以及Python的Music21庫進行音樂創作。 通過這些技術,每個人都能輕鬆創作原創音樂。但需注意,AI生成內容的版權問題不容忽視,使用時務必謹慎。 讓我們一起探索AI在音樂領域的無限可能! OpenAI最新AI代理“OpenAI Deep Research”介紹: [ChatGPT]Ope

什麼是chatgpt-4?對您可以做什麼,定價以及與GPT-3.5的差異的詳盡解釋!什麼是chatgpt-4?對您可以做什麼,定價以及與GPT-3.5的差異的詳盡解釋!May 14, 2025 am 05:00 AM

ChatGPT-4的出现,极大地拓展了AI应用的可能性。相较于GPT-3.5,ChatGPT-4有了显著提升,它具备强大的语境理解能力,还能识别和生成图像,堪称万能的AI助手。在提高商业效率、辅助创作等诸多领域,它都展现出巨大的潜力。然而,与此同时,我们也必须注意其使用上的注意事项。 本文将详细解读ChatGPT-4的特性,并介绍针对不同场景的有效使用方法。文中包含充分利用最新AI技术的技巧,敬请参考。 OpenAI发布的最新AI代理,“OpenAI Deep Research”详情请点击下方链

解釋如何使用chatgpt應用程序!日本支持和語音對話功能解釋如何使用chatgpt應用程序!日本支持和語音對話功能May 14, 2025 am 04:59 AM

CHATGPT應用程序:與AI助手釋放您的創造力!初學者指南 ChatGpt應用程序是一位創新的AI助手,可處理各種任務,包括寫作,翻譯和答案。它是一種具有無限可能性的工具,可用於創意活動和信息收集。 在本文中,我們將以一種易於理解的方式解釋初學者,從如何安裝chatgpt智能手機應用程序到語音輸入功能和插件等應用程序所獨有的功能,以及在使用該應用時要牢記的要點。我們還將仔細研究插件限制和設備對設備配置同步

如何使用中文版Chatgpt?註冊程序和費用的說明如何使用中文版Chatgpt?註冊程序和費用的說明May 14, 2025 am 04:56 AM

ChatGPT中文版:解鎖中文AI對話新體驗 ChatGPT風靡全球,您知道它也提供中文版本嗎?這款強大的AI工具不僅支持日常對話,還能處理專業內容,並兼容簡體中文和繁體中文。無論是中國地區的使用者,還是正在學習中文的朋友,都能從中受益。 本文將詳細介紹ChatGPT中文版的使用方法,包括賬戶設置、中文提示詞輸入、過濾器的使用、以及不同套餐的選擇,並分析潛在風險及應對策略。此外,我們還將對比ChatGPT中文版和其他中文AI工具,幫助您更好地了解其優勢和應用場景。 OpenAI最新發布的AI智能

5 AI代理神話,您需要停止相信5 AI代理神話,您需要停止相信May 14, 2025 am 04:54 AM

這些可以將其視為生成AI領域的下一個飛躍,這為我們提供了Chatgpt和其他大型語言模型聊天機器人。他們可以代表我們採取行動,而不是簡單地回答問題或產生信息

易於理解使用Chatgpt創建和管理多個帳戶的非法性的解釋易於理解使用Chatgpt創建和管理多個帳戶的非法性的解釋May 14, 2025 am 04:50 AM

使用chatgpt有效的多個帳戶管理技術|關於如何使用商業和私人生活的詳盡解釋! Chatgpt在各種情況下都使用,但是有些人可能擔心管理多個帳戶。本文將詳細解釋如何為ChatGpt創建多個帳戶,使用時該怎麼做以及如何安全有效地操作它。我們還介紹了重要的一點,例如業務和私人使用差異,並遵守OpenAI的使用條款,並提供指南,以幫助您安全地利用多個帳戶。 Openai

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具