首個國產音樂SOTA模型來了！專為中文優化，免費用，不限曲風-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

首個國產音樂SOTA模型來了！專為中文優化，免費用，不限曲風

王林

Apr 18, 2024 pm 06:50 PM

產業崑崙萬維繪製圖表天工 3.0

在「天工」大模型發布一周年之際，崑崙萬維重磅宣布，「天工3.0」基座大模型與「天工SkyMusic」音樂大模型正式開啟公測。

自從 AI 讓人類實現音樂創作自由後，連吵架都變得有趣了起來。

在過去的時候，X 平台知名AI 部落客Aran Komatsuzaki 自己寫了一首歌，專門用來表達對另一位AI 科學家— Gary Marcus 的不滿，還用當前大火的Suno 把它生成了出來。要知道，過去，這些大佬們的口水戰主要就是發個帖子，然後你來我往地跟帖。這次，Aran Komatsuzaki 的做法可謂是玩出了新花樣，不知道是不是從「謝帝謝帝我要 diss 你」的靈感得到的。

首個國產音樂SOTA模型來了！專為中文優化，免費用，不限曲風

與Aran Komatsuzaki一樣，國內外很多懂音樂、不懂音樂的人都在嘗試玩Suno等AI音樂創作工具，生成了很多非常有意思的音樂作品。

不過，有許多網友反映，Suno 有時生成中文不太穩定，會出現中文歌曲帶有英文感、生僻字唱錯等問題。

首個國產音樂SOTA模型來了！專為中文優化，免費用，不限曲風

^{B 站網友針對 Suno 中時所中所產生的評論中閱讀的中文評論文章。視訊位址：https://b23.tv/gVqTUOu}

那麼，有沒有一個 AI 音樂生成模型專門針對中文做過優化呢？

崑崙萬維今日面向全社會開放公測的「天工 SkyMusic」就是這樣一個模式。它產生的中文人聲發音清晰、正宗、無異響，沒有出現「百老匯式中文歌」等水土不服的情況。而且，它不僅針對國語做了最佳化，粵語、成都話、北京話等方言語種也照顧到了。

那麼，和 Suno 比，天工 SkyMusic 表現如何？橫向測評的數據顯示，在人聲和BGM 音質、人聲自然度、發音可懂度等幾個指標上，天工SkyMusic 都更勝一籌，綜合表現超越Suno V3，成為中國首個音樂AIGC 的SOTA模型，也讓中國的自研大模型技術第一次在AIGC 領域領先全球。

首個國產音樂SOTA模型來了！專為中文優化，免費用，不限曲風

如此優異的表現自然離不開強大的基座模型，即崑崙萬維在同一時間發布並開源的大模型「天工 3.0」。該模型擁有 4000 億參數，超越了 3140 億參數的 Grok-1，是全球最大的開源 MoE 大模型。

首個國產音樂SOTA模型來了！專為中文優化，免費用，不限曲風

在 MMBench 等多項權威多模態評量結果中，「天工 3.0」超越 GPT-4V，全球領先。

首個國產音樂SOTA模型來了！專為中文優化，免費用，不限曲風

在這個基座模型的祝福下，天工 SkyMusic 對歌曲的理解更為深刻。它能夠透過歌詞控制情緒變化，並實現如顫音、歌劇、吟唱等多種歌唱技巧，使生成的音樂作品情感更加豐富且貼合情境。

那麼，這個模型具體怎麼用？技術路線是怎樣的？它背後的「天工 3.0」又有何創新之處？我們一個接一個來看。

首個國產音樂 SOTA 模型的無限玩法

其實，用天工 SkyMusic 生成歌曲是非常簡單的：你只需要輸入歌名、歌詞，選擇參考曲目，它就能產生風格、唱腔與之類似的歌。

首個國產音樂SOTA模型來了！專為中文優化，免費用，不限曲風

如果你不想自己寫歌詞，也可以試試輸入框右下角的「AI 寫字」功能。它可以從第一句開始寫，每次只生成一句，不滿意的句子可以及時刪掉，直至整首歌創作完成。

首個國產音樂SOTA模型來了！專為中文優化，免費用，不限曲風

當然，你也可以試著用「天工3.0」來寫歌，像是這首《本站》就是我們用「天工3.0」寫出來的：

首個國產音樂SOTA模型來了！專為中文優化，免費用，不限曲風

接下來就是要選擇參考歌曲，這也是天工SkyMusic 的獨特之處，也就是能夠依照範例音源產生音樂。

在這一步，天工 SkyMusic 提供了許多參考曲目，你可以從中挑選，也可以選擇上傳歌曲檔案。在這裡，我們上傳了一首洛天依的歌曲，看看生成效果如何：這種按照範例音源生成音樂的能力極大地豐富了天工 SkyMusic 的玩法。在使用者作品展示區域，我們看到，光是《新造的人》（電影《週處除三害》插曲）就有古風搖滾、DJ 等五個版本。在試用過程中我們也發現，其實，天工 SkyMusic 產生的音樂涵蓋了饒舌、民謠、放克、古風、電子等多種曲風。下一步，團隊還計劃讓用戶根據哼出來的旋律生成歌曲，這將對專業人士有很大幫助。

目前，天工 SkyMusic 已全面開放，下載「天工」APP 就可以體驗。這是國內目前唯一公開可用的 AI 音樂生成大模型，它的出現填補了國內 AIGC 工具在這一領域的空白。

雖然這個模型還處於起步階段，但已經讓很多人感受到了音樂創作的樂趣。大家用它去改造神曲、二創金曲、改寫古詩助力教育… 發展出了各種音樂創作新方向。

自研類 Sora 架構，技術路線圖已公開

天工 SkyMusic 是端到端的音樂產生模型，因此我們用起來感覺非常簡單。但是，整個模型的開發卻沒有那麼簡單。

首先從技術路線來說，天工SkyMusic 選擇了大模型音樂音訊生成路線，這意味著它直接學習並產生音訊波形，而不是採用符號音樂生成路線（如MIDI）來產生樂譜。這種方法允許樂器、人聲、旋律、音量、音符等元素的一體化端到端生成，從而提供更直接、更高品質的音樂創作體驗。但是，這個方向也更難，需要高昂的算力和資金，因此做的人非常少。

而且，在這個方向中，下決心去攻克「人聲Song」領域的人更少，大部分研究集中於無人聲的BGM 領域，因為前者幾乎沒有任何開放的資料或開源模型可供參考。

頂著這些壓力，崑崙萬維做了無數次研發實驗，投入了大量算力，構建了包含2000 萬首歌曲的數據集（人類有史以來最大的音樂數據集），終於探索出了一個效果好、可復現的方案。而且，他們還把這個方案的技術原理圖公開了。

首個國產音樂SOTA模型來了！專為中文優化，免費用，不限曲風

^{天工SkyMusic 技術原理圖：Large-scale Transformer 負責譜曲，來學習Music Patches 的上下文控制依賴關係，同時完成音樂可控性；Diffusion Transformer 負責演唱，透過LDM 讓Music Patches 還原成高品質音訊。這套模型架構在處理視訊、音訊和音樂時效果極佳。}

從圖中可以看出，天工 SkyMusic 的框架是類 Sora 的 DiT 技術路徑，不過研發時間是在 Sora 問世之前，因此不可避免地要踩很多坑。

對於產業來說，這張原理圖非常寶貴，因為市面上沒有任何可用的 AI 音樂大模型企業公開自己的技術路徑，包括 SUNO，崑崙萬維是唯一一個。

強大的背後基座 —— 天工 3.0

天工 SkyMusic 的成功離不開它背後的基座模型 —— 天工 3.0。它最核心的升級體現在「獨立思考」方面。這在此模型新增的多輪搜尋與綜合工具呼叫、圖表繪製、研究模式、增強模式等功能中均有所體現。

給定一個資料統計任務，它不僅能夠幫你把資料都收集齊全，還能自己寫程式碼、呼叫各種函數來繪製圖表。各個中間步驟被拆解得條理清晰，後續的執行也基本上不需要人去幹預，甚至連“避免標籤重疊”、“文本居中顯示”這類細節都被考慮到了。這就是「獨立思考」能力的展現。

這種「獨立思考」能力的提升離不開「天工 3.0」在語意理解、邏輯推理等方面的最佳化。與上一代「天工2.0」MoE 大模型相比，「天工3.0」在模型語意理解、邏輯推理以及通用性、泛化性、不確定性知識、學習能力等領域擁有驚人的表現提升，其模型技術知識能力提升超過20%，數學/ 推理/ 代碼/ 文創能力提升超過30%。

以搜尋任務為例。在「搜尋增強」模式中，給予一個簡單的搜尋請求，「天工 3.0」不僅會給予一段概括性的回答，還會把一些重要資訊提煉成圖表。

在「研究」模式中，它還會提供一個「深入研究」模組，去展開討論搜尋Query 中未提到的延伸問題，讓你有一種在讀論文的感覺。最後，它也把這些資訊整理成了心智圖，方便快速查閱。

在語意理解、邏輯推理能力均大幅提升的基礎上，「天工3.0」也針對模型獨立規劃、呼叫、組合外部工具及資訊的能力進行了專項訓練。透過獨立規劃以及呼叫、組合外部工具及訊息，它可以幫助你精準有效率地完成產業研究、產品橫評、資訊分析等各類複雜需求。

這種獨立思考的能力對於人工智慧大模型至關重要。首先，這種能力使得AI 能夠在缺乏直接指令的情況下進行自主推理，提高其處理複雜問題的能力；其次，獨立思考的AI 模型能夠進行創新性的解決方案設計，滿足個性化和場景化的需求；最後，這種能力促使AI 在遇到新奇或變化的環境時，透過自我學習和適應來持續優化其表現。這三個面向的累積作用，大大推動了 AI 技術的應用廣度和深度，使其在多種實際應用中表現出更高的智慧和效率。

「天工3.0」包含了AI 音樂、AI 搜尋、AI 寫作、AI 繪畫等多項大模型能力，談到4000 億參數MoE 大模型「天工3.0」與天工SkyMusic 背後的關係時，崑崙萬維董事長兼CEO 方漢解釋說，「大家知道AI 底座大模型是AIGC 堅實的基礎，尤其是文本大模型。文生圖、文生音樂和文生視頻（這些AIGC 模型）的能力基礎都是文本大模型。「天工 3.0」新增了圖片尺寸擴展、圖片定向調整、墊圖生圖、墊圖進化、墊圖擴圖等全新功能，實測效果優異。

首個國產音樂SOTA模型來了！專為中文優化，免費用，不限曲風「我們的4000 億大模型是給我們所有的面向C 端的產品提供支撐的底座大模型。我的底座大模型做得越好，我的音樂、遊戲、影片以及動漫產品就會做得更好。

實現通用人工智慧，

讓每個人更好地塑造和表達自我

在關於AGI 的願景中，我們常聽一些AI企業主管提到，他們想要用AI 工具來提高人類社會的生產力和效率。因此，他們大多專注於模型智力的擴展和增強。但在方漢看來，這其中忽略了一個重要問題，如何用 AI 幫助人們更好地理解和表達情感。

在天工 SkyMusic 的音樂作品區，我們看到了很多這樣的例子：學生即將畢業的離愁、青年愛而不得的神傷、中年人養家糊口的疲憊都透過歌聲表達了出來。這是真正的「以歌明志」。

首個國產音樂SOTA模型來了！專為中文優化，免費用，不限曲風

#而對方言的支持則更像文化平權，這是方漢非常看重的一點。未來，他們希望把更多語種加進去，讓每個小語種人群都能輕鬆創作出屬於自己的文化內容。

「在AIGC 領域，我們宏偉的目標是希望全世界每一個人都能平等地去創作內容。我們想要降低所有人的創作門檻，讓大家都能更好地塑造和表達自我。

最近，這些內容也被寫入了崑崙萬維的最新使命中。

首個國產音樂SOTA模型來了！專為中文優化，免費用，不限曲風

其實，這種做法在商業上也是有意義的。「一旦人人都可以創作音樂之後，我相信任何一個公共場所，比如說每個餐廳、每個酒吧都可以創作出屬於自己的背景音樂，來滿足自己的業務需求。」方漢解釋。

隨著未來持續的優化完善，天工 SkyMusic 會逐漸演變成一個專業且易用的全民音樂創作平台。

當然，崑崙萬維的發力方向不只是音樂。以「天工 3.0」為基礎，他們已經形成了六大 AI 業務矩陣。未來，這些矩陣將組成一個 AI UGC 平台。

首個國產音樂SOTA模型來了！專為中文優化，免費用，不限曲風

這個平台不僅能夠幫助一般人表達自我，還能幫助那些想用 AI 創作內容的創作者完成 IP 創作的全閉環。這個閉環以「好的故事（IP）」為核心，跨越文本、漫畫、音樂和視頻等多種形式，消費者的內容消費也都在這一個平台上完成，這是崑崙萬維構建的商業邏輯。

「我們的本質是讓更多人參加到創作者隊伍裡面去。前提是你要會講一個好的故事。如果你能夠創造一個好的IP，那麼就能創作內容。可以預見的是，所有內容產業都將被重做一遍。戰略的邏輯。

這個時代將被塑造成什麼樣子？我們拭目以待。

以上是首個國產音樂SOTA模型來了！專為中文優化，免費用，不限曲風的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：机器之心。如有侵權，請聯絡admin@php.cn刪除

無法使用chatgpt！解釋可以立即測試的原因和解決方案[最新2025]May 14, 2025 am 05:04 AM

ChatGPT無法訪問？本文提供多種實用解決方案！許多用戶在日常使用ChatGPT時，可能會遇到無法訪問或響應緩慢等問題。本文將根據不同情況，逐步指導您解決這些問題。 ChatGPT無法訪問的原因及初步排查首先，我們需要確定問題是出在OpenAI服務器端，還是用戶自身網絡或設備問題。請按照以下步驟進行排查：步驟1：檢查OpenAI官方狀態訪問OpenAI Status頁面 (status.openai.com)，查看ChatGPT服務是否正常運行。如果顯示紅色或黃色警報，則表示Open

計算ASI的風險始於人類的思想May 14, 2025 am 05:02 AM

2025年5月10日，麻省理工學院物理學家Max Tegmark告訴《衛報》，AI實驗室應在釋放人工超級智能之前模仿Oppenheimer的三位一體測試演算。 “我的評估是'康普頓常數'，這是一場比賽的可能性

AI音樂創作技術日新月異，本文將以ChatGPT等AI模型為例，詳細講解如何利用AI輔助音樂創作，並輔以實際案例進行說明。我們將分別介紹如何通過SunoAI、Hugging Face上的AI jukebox以及Python的Music21庫進行音樂創作。通過這些技術，每個人都能輕鬆創作原創音樂。但需注意，AI生成內容的版權問題不容忽視，使用時務必謹慎。讓我們一起探索AI在音樂領域的無限可能！ OpenAI最新AI代理“OpenAI Deep Research”介紹： [ChatGPT]Ope

什麼是chatgpt-4？對您可以做什麼，定價以及與GPT-3.5的差異的詳盡解釋！May 14, 2025 am 05:00 AM

ChatGPT-4的出现，极大地拓展了AI应用的可能性。相较于GPT-3.5，ChatGPT-4有了显著提升，它具备强大的语境理解能力，还能识别和生成图像，堪称万能的AI助手。在提高商业效率、辅助创作等诸多领域，它都展现出巨大的潜力。然而，与此同时，我们也必须注意其使用上的注意事项。本文将详细解读ChatGPT-4的特性，并介绍针对不同场景的有效使用方法。文中包含充分利用最新AI技术的技巧，敬请参考。 OpenAI发布的最新AI代理，“OpenAI Deep Research”详情请点击下方链

解釋如何使用chatgpt應用程序！日本支持和語音對話功能May 14, 2025 am 04:59 AM

CHATGPT應用程序：與AI助手釋放您的創造力！初學者指南 ChatGpt應用程序是一位創新的AI助手，可處理各種任務，包括寫作，翻譯和答案。它是一種具有無限可能性的工具，可用於創意活動和信息收集。在本文中，我們將以一種易於理解的方式解釋初學者，從如何安裝chatgpt智能手機應用程序到語音輸入功能和插件等應用程序所獨有的功能，以及在使用該應用時要牢記的要點。我們還將仔細研究插件限制和設備對設備配置同步

如何使用中文版Chatgpt？註冊程序和費用的說明May 14, 2025 am 04:56 AM

ChatGPT中文版：解鎖中文AI對話新體驗 ChatGPT風靡全球，您知道它也提供中文版本嗎？這款強大的AI工具不僅支持日常對話，還能處理專業內容，並兼容簡體中文和繁體中文。無論是中國地區的使用者，還是正在學習中文的朋友，都能從中受益。本文將詳細介紹ChatGPT中文版的使用方法，包括賬戶設置、中文提示詞輸入、過濾器的使用、以及不同套餐的選擇，並分析潛在風險及應對策略。此外，我們還將對比ChatGPT中文版和其他中文AI工具，幫助您更好地了解其優勢和應用場景。 OpenAI最新發布的AI智能

5 AI代理神話，您需要停止相信May 14, 2025 am 04:54 AM

這些可以將其視為生成AI領域的下一個飛躍，這為我們提供了Chatgpt和其他大型語言模型聊天機器人。他們可以代表我們採取行動，而不是簡單地回答問題或產生信息

易於理解使用Chatgpt創建和管理多個帳戶的非法性的解釋May 14, 2025 am 04:50 AM

使用chatgpt有效的多個帳戶管理技術|關於如何使用商業和私人生活的詳盡解釋！ Chatgpt在各種情況下都使用，但是有些人可能擔心管理多個帳戶。本文將詳細解釋如何為ChatGpt創建多個帳戶，使用時該怎麼做以及如何安全有效地操作它。我們還介紹了重要的一點，例如業務和私人使用差異，並遵守OpenAI的使用條款，並提供指南，以幫助您安全地利用多個帳戶。 Openai

See all articles