搜尋
首頁科技週邊人工智慧首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風
首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風Apr 18, 2024 pm 06:50 PM
產業崑崙萬維繪製圖表天工 3.0

在「天工」大模型發布一周年之際,崑崙萬維重磅宣布,「天工3.0」基座大模型與「天工SkyMusic」音樂大模型正式開啟公測。

自從 AI 讓人類實現音樂創作自由後,連吵架都變得有趣了起來。

在過去的時候,X 平台知名AI 部落客Aran Komatsuzaki 自己寫了一首歌,專門用來表達對另一位AI 科學家— Gary Marcus 的不滿,還用當前大火的Suno 把它生成了出來。要知道,過去,這些大佬們的口水戰主要就是發個帖子,然後你來我往地跟帖。這次,Aran Komatsuzaki 的做法可謂是玩出了新花樣,不知道是不是從「謝帝謝帝我要 diss 你」的靈感得到的。

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

與Aran Komatsuzaki一樣,國內外很多懂音樂、不懂音樂的人都在嘗試玩Suno等AI音樂創作工具,生成了很多非常有意思的音樂作品。

不過,有許多網友反映,Suno 有時生成中文不太穩定,會出現中文歌曲帶有英文感、生僻字唱錯等問題。

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

                                 B 站網友針對 Suno 中時所中所產生的評論中閱讀的中文評論文章。視訊位址:https://b23.tv/gVqTUOu

那麼,有沒有一個 AI 音樂生成模型專門針對中文做過優化呢?

崑崙萬維今日面向全社會開放公測的「天工 SkyMusic」就是這樣一個模式。它產生的中文人聲發音清晰、正宗、無異響,沒有出現「百老匯式中文歌」等水土不服的情況。而且,它不僅針對國語做了最佳化,粵語、成都話、北京話等方言語種也照顧到了。 首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

那麼,和 Suno 比,天工 SkyMusic 表現如何?橫向測評的數據顯示,在人聲和BGM 音質、人聲自然度、發音可懂度等幾個指標上,天工SkyMusic 都更勝一籌,綜合表現超越Suno V3,成為中國首個音樂AIGC 的SOTA模型,也讓中國的自研大模型技術第一次在AIGC 領域領先全球。

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

如此優異的表現自然離不開強大的基座模型,即崑崙萬維在同一時間發布並開源的大模型「天工 3.0」。該模型擁有 4000 億參數,超越了 3140 億參數的 Grok-1,是全球最大的開源 MoE 大模型。

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

在 MMBench 等多項權威多模態評量結果中,「天工 3.0」超越 GPT-4V,全球領先。

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

在這個基座模型的祝福下,天工 SkyMusic 對歌曲的理解更為深刻。它能夠透過歌詞控制情緒變化,並實現如顫音、歌劇、吟唱等多種歌唱技巧,使生成的音樂作品情感更加豐富且貼合情境。 首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

那麼,這個模型具體怎麼用?技術路線是怎樣的?它背後的「天工 3.0」又有何創新之處?我們一個接一個來看。

首個國產音樂 SOTA 模型的無限玩法

其實,用天工 SkyMusic 生成歌曲是非常簡單的:你只需要輸入歌名、歌詞,選擇參考曲目,它就能產生風格、唱腔與之類似的歌。

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

如果你不想自己寫歌詞,也可以試試輸入框右下角的「AI 寫字」功能。它可以從第一句開始寫,每次只生成一句,不滿意的句子可以及時刪掉,直至整首歌創作完成。

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

當然,你也可以試著用「天工3.0」來寫歌,像是這首《本站》就是我們用「天工3.0」寫出來的:

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

接下來就是要選擇參考歌曲,這也是天工SkyMusic 的獨特之處,也就是能夠依照範例音源產生音樂。

在這一步,天工 SkyMusic 提供了許多參考曲目,你可以從中挑選,也可以選擇上傳歌曲檔案。在這裡,我們上傳了一首洛天依的歌曲,看看生成效果如何:首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風這種按照範例音源生成音樂的能力極大地豐富了天工 SkyMusic 的玩法。在使用者作品展示區域,我們看到,光是《新造的人》(電影《週處除三害》插曲)就有古風搖滾、DJ 等五個版本。 首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風在試用過程中我們也發現,其實,天工 SkyMusic 產生的音樂涵蓋了饒舌、民謠、放克、古風、電子等多種曲風。下一步,團隊還計劃讓用戶根據哼出來的旋律生成歌曲,這將對專業人士有很大幫助。 首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

目前,天工 SkyMusic 已全面開放,下載「天工」APP 就可以體驗。這是國內目前唯一公開可用的 AI 音樂生成大模型,它的出現填補了國內 AIGC 工具在這一領域的空白。

雖然這個模型還處於起步階段,但已經讓很多人感受到了音樂創作的樂趣。大家用它去改造神曲、二創金曲、改寫古詩助力教育… 發展出了各種音樂創作新方向。

自研類 Sora 架構,技術路線圖已公開

天工 SkyMusic 是端到端的音樂產生模型,因此我們用起來感覺非常簡單。但是,整個模型的開發卻沒有那麼簡單。

首先從技術路線來說,天工SkyMusic 選擇了大模型音樂音訊生成路線,這意味著它直接學習並產生音訊波形,而不是採用符號音樂生成路線(如MIDI)來產生樂譜。這種方法允許樂器、人聲、旋律、音量、音符等元素的一體化端到端生成,從而提供更直接、更高品質的音樂創作體驗。但是,這個方向也更難,需要高昂的算力和資金,因此做的人非常少。

而且,在這個方向中,下決心去攻克「人聲Song」領域的人更少,大部分研究集中於無人聲的BGM 領域,因為前者幾乎沒有任何開放的資料或開源模型可供參考。

頂著這些壓力,崑崙萬維做了無數次研發實驗,投入了大量算力,構建​​了包含2000 萬首歌曲的數據集(人類有史以來最大的音樂數據集),終於探索出了一個效果好、可復現的方案。而且,他們還把這個方案的技術原理圖公開了。

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

天工SkyMusic 技術原理圖:Large-scale Transformer 負責譜曲,來學習Music Patches 的上下文控制依賴關係,同時完成音樂可控性;Diffusion Transformer 負責演唱,透過LDM 讓Music Patches 還原成高品質音訊。這套模型架構在處理視訊、音訊和音樂時效果極佳。

#

從圖中可以看出,天工 SkyMusic 的框架是類 Sora 的 DiT 技術路徑,不過研發時間是在 Sora 問世之前,因此不可避免地要踩很多坑。

對於產業來說,這張原理圖非常寶貴,因為市面上沒有任何可用的 AI 音樂大模型企業公開自己的技術路徑,包括 SUNO,崑崙萬維是唯一一個。

強大的背後基座 —— 天工 3.0

天工 SkyMusic 的成功離不開它背後的基座模型 —— 天工 3.0。它最核心的升級體現在「獨立思考」方面。這在此模型新增的多輪搜尋與綜合工具呼叫、圖表繪製、研究模式、增強模式等功能中均有所體現。

給定一個資料統計任務,它不僅能夠幫你把資料都收集齊全,還能自己寫程式碼、呼叫各種函數來繪製圖表。各個中間步驟被拆解得條理清晰,後續的執行也基本上不需要人去幹預,甚至連“避免標籤重疊”、“文本居中顯示”這類細節都被考慮到了。這就是「獨立思考」能力的展現。 首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

這種「獨立思考」能力的提升離不開「天工 3.0」在語意理解、邏輯推理等方面的最佳化。與上一代「天工2.0」MoE 大模型相比,「天工3.0」在模型語意理解、邏輯推理以及通用性、泛化​​性、不確定性知識、學習能力等領域擁有驚人的表現提升,其模型技術知識能力提升超過20%,數學/ 推理/ 代碼/ 文創能力提升超過30%。

以搜尋任務為例。在「搜尋增強」模式中,給予一個簡單的搜尋請求,「天工 3.0」不僅會給予一段概括性的回答,還會把一些重要資訊提煉成圖表。 首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

在「研究」模式中,它還會提供一個「深入研究」模組,去展開討論搜尋Query 中未提到的延伸問題,讓你有一種在讀論文的感覺。最後,它也把這些資訊整理成了心智圖,方便快速查閱。 首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

在語意理解、邏輯推理能力均大幅提升的基礎上,「天工3.0」也針對模型獨立規劃、呼叫、組合外部工具及資訊的能力進行了專項訓練。透過獨立規劃以及呼叫、組合外部工具及訊息,它可以幫助你精準有效率地完成產業研究、產品橫評、資訊分析等各類複雜需求。

這種獨立思考的能力對於人工智慧大模型至關重要。首先,這種能力使得AI 能夠在缺乏直接指令的情況下進行自主推理,提高其處理複雜問題的能力;其次,獨立思考的AI 模型能夠進行創新性的解決方案設計,滿足個性化和場景化的需求;最後,這種能力促使AI 在遇到新奇或變化的環境時,透過自我學習和適應來持續優化其表現。這三個面向的累積作用,大大推動了 AI 技術的應用廣度和深度,使其在多種實際應用中表現出更高的智慧和效率。

「天工3.0」包含了AI 音樂、AI 搜尋、AI 寫作、AI 繪畫等多項大模型能力,談到4000 億參數MoE 大模型「天工3.0」與天工SkyMusic 背後的關係時,崑崙萬維董事長兼CEO 方漢解釋說,「大家知道AI 底座大模型是AIGC 堅實的基礎,尤其是文本大模型。文生圖、文生音樂和文生視頻(這些AIGC 模型)的能力基礎都是文本大模型。 「天工 3.0」新增了圖片尺寸擴展、圖片定向調整、墊圖生圖、墊圖進化、墊圖擴圖等全新功能,實測效果優異。

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風「我們的4000 億大模型是給我們所有的面向C 端的產品提供支撐的底座大模型。我的底座大模型做得越好,我的音樂、遊戲、影片以及動漫產品就會做得更好。

實現通用人工智慧,

讓每個人更好地塑造和表達自我

在關於AGI 的願景中,我們常聽一些AI企業主管提到,他們想要用AI 工具來提高人類社會的生產力和效率。因此,他們大多專注於模型智力的擴展和增強。但在方漢看來,這其中忽略了一個重要問題,如何用 AI 幫助人們更好地理解和表達情感。

在天工 SkyMusic 的音樂作品區,我們看到了很多這樣的例子:學生即將畢業的離愁、青年愛而不得的神傷、中年人養家糊口的疲憊都透過歌聲表達了出來。這是真正的「以歌明志」。

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

#而對方言的支持則更像文化平權,這是方漢非常看重的一點。未來,他們希望把更多語種加進去,讓每個小語種人群都能輕鬆創作出屬於自己的文化內容。

「在AIGC 領域,我們宏偉的目標是希望全世界每一個人都能平等地去創作內容。我們想要降低所有人的創作門檻,讓大家都能更好地塑造和表達自我。

最近,這些內容也被寫入了崑崙萬維的最新使命中。

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

其實,這種做法在商業上也是有意義的。 「一旦人人都可以創作音樂之後,我相信任何一個公共場所,比如說每個餐廳、每個酒吧都可以創作出屬於自己的背景音樂,來滿足自己的業務需求。」方漢解釋。

隨著未來持續的優化完善,天工 SkyMusic 會逐漸演變成一個專業且易用的全民音樂創作平台。

當然,崑崙萬維的發力方向不只是音樂。以「天工 3.0」為基礎,他們已經形成了六大 AI 業務矩陣。未來,這些矩陣將組成一個 AI UGC 平台。

首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風

這個平台不僅能夠幫助一般人表達自我,還能幫助那些想用 AI 創作內容的創作者完成 IP 創作的全閉環。這個閉環以「好的故事(IP)」為核心,跨越文本、漫畫、音樂和視頻等多種形式,消費者的內容消費也都在這一個平台上完成,這是崑崙萬維構建的商業邏輯。

「我們的本質是讓更多人參加到創作者隊伍裡面去。前提是你要會講一個好的故事。如果你能夠創造一個好的IP,那麼就能創作內容。可以預見的是,所有內容產業都將被重做一遍。戰略的邏輯。

這個時代將被塑造成什麼樣子?我們拭目以待。

以上是首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
DSA如何弯道超车NVIDIA GPU?DSA如何弯道超车NVIDIA GPU?Sep 20, 2023 pm 06:09 PM

你可能听过以下犀利的观点:1.跟着NVIDIA的技术路线,可能永远也追不上NVIDIA的脚步。2.DSA或许有机会追赶上NVIDIA,但目前的状况是DSA濒临消亡,看不到任何希望另一方面,我们都知道现在大模型正处于风口位置,业界很多人想做大模型芯片,也有很多人想投大模型芯片。但是,大模型芯片的设计关键在哪,大带宽大内存的重要性好像大家都知道,但做出来的芯片跟NVIDIA相比,又有何不同?带着问题,本文尝试给大家一点启发。纯粹以观点为主的文章往往显得形式主义,我们可以通过一个架构的例子来说明Sam

阿里云通义千问14B模型开源!性能超越Llama2等同等尺寸模型阿里云通义千问14B模型开源!性能超越Llama2等同等尺寸模型Sep 25, 2023 pm 10:25 PM

2021年9月25日,阿里云发布了开源项目通义千问140亿参数模型Qwen-14B以及其对话模型Qwen-14B-Chat,并且可以免费商用。Qwen-14B在多个权威评测中表现出色,超过了同等规模的模型,甚至有些指标接近Llama2-70B。此前,阿里云还开源了70亿参数模型Qwen-7B,仅一个多月的时间下载量就突破了100万,成为开源社区的热门项目Qwen-14B是一款支持多种语言的高性能开源模型,相比同类模型使用了更多的高质量数据,整体训练数据超过3万亿Token,使得模型具备更强大的推

ICCV 2023揭晓:ControlNet、SAM等热门论文斩获奖项ICCV 2023揭晓:ControlNet、SAM等热门论文斩获奖项Oct 04, 2023 pm 09:37 PM

在法国巴黎举行了国际计算机视觉大会ICCV(InternationalConferenceonComputerVision)本周开幕作为全球计算机视觉领域顶级的学术会议,ICCV每两年召开一次。ICCV的热度一直以来都与CVPR不相上下,屡创新高在今天的开幕式上,ICCV官方公布了今年的论文数据:本届ICCV共有8068篇投稿,其中有2160篇被接收,录用率为26.8%,略高于上一届ICCV2021的录用率25.9%在论文主题方面,官方也公布了相关数据:多视角和传感器的3D技术热度最高在今天的开

百度文心一言全面向全社会开放,率先迈出重要一步百度文心一言全面向全社会开放,率先迈出重要一步Aug 31, 2023 pm 01:33 PM

8月31日,文心一言首次向全社会全面开放。用户可以在应用商店下载“文心一言APP”或登录“文心一言官网”(https://yiyan.baidu.com)进行体验据报道,百度计划推出一系列经过全新重构的AI原生应用,以便让用户充分体验生成式AI的理解、生成、逻辑和记忆等四大核心能力今年3月16日,文心一言开启邀测。作为全球大厂中首个发布的生成式AI产品,文心一言的基础模型文心大模型早在2019年就在国内率先发布,近期升级的文心大模型3.5也持续在十余个国内外权威测评中位居第一。李彦宏表示,当文心

AI技术在蚂蚁集团保险业务中的应用:革新保险服务,带来全新体验AI技术在蚂蚁集团保险业务中的应用:革新保险服务,带来全新体验Sep 20, 2023 pm 10:45 PM

保险行业对于社会民生和国民经济的重要性不言而喻。作为风险管理工具,保险为人民群众提供保障和福利,推动经济的稳定和可持续发展。在新的时代背景下,保险行业面临着新的机遇和挑战,需要不断创新和转型,以适应社会需求的变化和经济结构的调整近年来,中国的保险科技蓬勃发展。通过创新的商业模式和先进的技术手段,积极推动保险行业实现数字化和智能化转型。保险科技的目标是提升保险服务的便利性、个性化和智能化水平,以前所未有的速度改变传统保险业的面貌。这一发展趋势为保险行业注入了新的活力,使保险产品更贴近人民群众的实际

复旦大学团队发布中文智慧法律系统DISC-LawLLM,构建司法评测基准,开源30万微调数据复旦大学团队发布中文智慧法律系统DISC-LawLLM,构建司法评测基准,开源30万微调数据Sep 29, 2023 pm 01:17 PM

随着智慧司法的兴起,智能化方法驱动的智能法律系统有望惠及不同群体。例如,为法律专业人员减轻文书工作,为普通民众提供法律咨询服务,为法学学生提供学习和考试辅导。由于法律知识的独特性和司法任务的多样性,此前的智慧司法研究方面主要着眼于为特定任务设计自动化算法,难以满足对司法领域提供支撑性服务的需求,离应用落地有不小的距离。而大型语言模型(LLMs)在不同的传统任务上展示出强大的能力,为智能法律系统的进一步发展带来希望。近日,复旦大学数据智能与社会计算实验室(FudanDISC)发布大语言模型驱动的中

致敬TempleOS,有开发者创建了启动Llama 2的操作系统,网友:8G内存老电脑就能跑致敬TempleOS,有开发者创建了启动Llama 2的操作系统,网友:8G内存老电脑就能跑Oct 07, 2023 pm 10:09 PM

不得不说,Llama2的「二创」项目越来越硬核、有趣了。自Meta发布开源大模型Llama2以来,围绕着该模型的「二创」项目便多了起来。此前7月,特斯拉前AI总监、重回OpenAI的AndrejKarpathy利用周末时间,做了一个关于Llama2的有趣项目llama2.c,让用户在PyTorch中训练一个babyLlama2模型,然后使用近500行纯C、无任何依赖性的文件进行推理。今天,在Karpathyllama2.c项目的基础上,又有开发者创建了一个启动Llama2的演示操作系统,以及一个

快手黑科技“子弹时间”赋能亚运转播,打造智慧观赛新体验快手黑科技“子弹时间”赋能亚运转播,打造智慧观赛新体验Oct 11, 2023 am 11:21 AM

杭州第19届亚运会不仅是国际顶级体育盛会,更是一场精彩绝伦的中国科技盛宴。本届亚运会中,快手StreamLake与杭州电信深度合作,联合打造智慧观赛新体验,在击剑赛事的转播中,全面应用了快手StreamLake六自由度技术,其中“子弹时间”也是首次应用于击剑项目国际顶级赛事。中国电信杭州分公司智能亚运专班组长芮杰表示,依托快手StreamLake自研的4K3D虚拟运镜视频技术和中国电信5G/全光网,通过赛场内部署的4K专业摄像机阵列实时采集的高清竞赛视频,

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
2 週前By尊渡假赌尊渡假赌尊渡假赌
倉庫:如何復興隊友
4 週前By尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒險:如何獲得巨型種子
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中