cari
RumahPeranti teknologiAITeks sumber terbuka meta menjana model muzik yang besar Kami mencubanya dengan lirik 'Qilixiang'.

Sebelum memasukkan teks utama, mari dengar dua keping muzik yang dijana oleh MusicGen. Kami memasukkan keterangan teks "seorang lelaki berjalan dalam hujan, berjumpa dengan seorang gadis cantik, dan mereka menari dengan gembira"

dan kemudian cuba masukkan dua ayat pertama daripada lirik Jay "Qili Xiang" Chou "Di luar tingkap" Burung pipit bercakap di tiang telefon Anda mengatakan ayat ini sangat seperti musim panas" (Bahasa Cina disokong)

Alamat percubaan: https://huggingface.co/spaces /facebook/MusicGen

Teks kepada muzik merujuk kepada tugas menjana karya muzik yang diberi penerangan teks, seperti "90an riff gitar lagu rock". Menjana muzik melibatkan pemodelan urutan panjang sebagai tugas yang mencabar. Tidak seperti pertuturan, muzik memerlukan penggunaan spektrum penuh, yang bermaksud isyarat diambil pada kadar yang lebih tinggi, iaitu kadar pensampelan standard untuk rakaman muzik ialah 44.1 kHz atau 48 kHz, manakala pertuturan diambil sampel pada 16 kHz.

Selain itu, muzik mengandungi harmoni dan melodi instrumen yang berbeza, yang memberikan muzik struktur yang kompleks. Tetapi kerana pendengar manusia sangat sensitif terhadap disonansi, mereka tidak mempunyai banyak toleransi untuk melodi dalam muzik yang dihasilkan. Sudah tentu, keupayaan untuk mengawal proses penjanaan dalam pelbagai cara adalah penting untuk pencipta muzik, seperti kunci, instrumen, melodi, genre, dll.

Kemajuan terkini dalam pembelajaran perwakilan audio yang diselia sendiri, pemodelan jujukan dan sintesis audio menyediakan syarat untuk membangunkan model sedemikian. Untuk menjadikan pemodelan audio lebih mudah, penyelidikan baru-baru ini mencadangkan untuk mewakili isyarat audio sebagai aliran token diskret yang "mewakili isyarat yang sama." Ini membolehkan penjanaan audio berkualiti tinggi dan pemodelan audio yang cekap. Walau bagaimanapun ini memerlukan pemodelan bersama beberapa aliran pergantungan selari.

Kharitonov et al [2022], Kreuk et al [2022] mencadangkan untuk menggunakan kaedah kelewatan untuk memodelkan berbilang aliran token pertuturan secara selari, iaitu, memperkenalkan offset antara berbeza. aliran. Agostinelli et al. [2023] mencadangkan menggunakan jujukan token diskret berbilang butiran berbeza untuk mewakili serpihan muzik dan memodelkannya menggunakan hierarki model autoregresif. Sementara itu, Donahue et al [2023] menggunakan pendekatan yang sama tetapi menyasarkan tugas nyanyian kepada generasi iringan. Baru-baru ini, Wang et al [2023] mencadangkan untuk menyelesaikan masalah ini dalam dua peringkat: menyekat pemodelan kepada aliran token pertama. Selepas rangkaian kemudian digunakan untuk memodelkan aliran baki secara bersama dalam cara bukan autoregresif.

Dalam artikel ini, penyelidik Meta AI mencadangkan MUSICGEN, model penjanaan muzik yang mudah dan boleh dikawal yang boleh menjana muzik berkualiti tinggi dengan penerangan teks.

Teks sumber terbuka meta menjana model muzik yang besar Kami mencubanya dengan lirik Qilixiang.


Alamat kertas: https: //arxiv.org/pdf/2306.05284.pdf

Para penyelidik mencadangkan rangka kerja umum untuk memodelkan berbilang aliran token akustik selari sebagai generalisasi penyelidikan terdahulu (Lihat Rajah 1) di bawah. Untuk meningkatkan kebolehkawalan sampel yang dijana, kertas kerja ini juga memperkenalkan keadaan melodi tanpa pengawasan, yang membolehkan model menjana muzik padanan secara struktur berdasarkan harmoni dan melodi yang diberikan. Kertas kerja ini melaksanakan penilaian meluas MUSICGEN, dan kaedah yang dicadangkan mengatasi garis dasar penilaian dengan margin yang besar: MUSICGEN menerima skor subjektif 84.8 daripada 100, berbanding 80.5 untuk garis dasar terbaik. Selain itu, artikel ini menyediakan kajian ablasi yang menggambarkan kepentingan setiap komponen kepada prestasi model keseluruhan.

Akhir sekali, penilaian manusia menunjukkan bahawa MUSICGEN menghasilkan sampel berkualiti tinggi yang kedua-duanya mematuhi penerangan teks dan juga sejajar dengan melodi yang lebih baik dengan struktur harmonik yang diberikan.

Teks sumber terbuka meta menjana model muzik yang besar Kami mencubanya dengan lirik Qilixiang.

Sumbangan utama artikel ini adalah seperti berikut:

  • Mencadangkan model yang ringkas dan cekap: ia boleh menghasilkan muzik berkualiti tinggi pada 32khz. MUSICGEN boleh menjana muzik yang konsisten dengan model bahasa satu peringkat melalui strategi interleaving buku kod yang berkesan; melodi yang disediakan adalah konsisten dan konsisten dengan maklumat keadaan tekstual;
  • Gambaran keseluruhan kaedah
  • MUSICGEN mengandungi penyahkod berasaskan transformer autoregresif yang dikondisikan pada teks atau perwakilan melodi. Model (bahasa) adalah berdasarkan unit pengkuantitian tokenizer audio EnCodec, yang menyediakan pembinaan semula kesetiaan tinggi daripada perwakilan diskret bingkai rendah. Selain itu, model mampatan yang menggunakan kuantiti vektor sisa (RVQ) akan menjana berbilang aliran selari. Dalam tetapan ini, setiap aliran terdiri daripada token diskret daripada buku kod yang dipelajari berbeza.
Kerja sebelum ini telah mencadangkan beberapa strategi pemodelan untuk menyelesaikan masalah ini. Para penyelidik mencadangkan rangka kerja pemodelan novel yang boleh digeneralisasikan kepada pelbagai mod interleaving buku kod. Terdapat juga beberapa variasi rangka kerja ini. Berdasarkan corak, mereka boleh memanfaatkan struktur dalaman token audio terkuantisasi. Akhirnya MUSICGEN menyokong penjanaan bersyarat berdasarkan teks atau melodi.

Tokenisasi audio

Para penyelidik menggunakan EnCodec, iaitu pengekod auto konvolusi yang menggunakan ruang terpendam terkuantiti RVQ dan lawan kerugian pembinaan semula. Diberi rujukan pembolehubah rawak audio X ∈ R^d·f_s, dengan d mewakili tempoh audio dan f_s mewakili kadar pensampelan. EnCodec mengekod pembolehubah ini ke dalam tensor berterusan dengan kadar bingkai f_r ≪ f_s, dan kemudian perwakilan dikuantasikan sebagai Q ∈ {1, }^K×d・f_r, dengan K mewakili buku kod yang digunakan dalam Kuantiti RVQ. N mewakili saiz buku kod.

Mod selang buku kod

Penguraian autoregresif diratakan tepat. Model autoregresif memerlukan jujukan rawak diskret U ∈ {1, , N}^S dan panjang jujukan S. Mengikut konvensyen, penyelidik akan menggunakan U_0 = 0, yang merupakan token khas deterministik yang mewakili permulaan jujukan. Mereka kemudiannya boleh memodelkan pengedaran.

Penguraian autoregresif yang tidak tepat. Satu lagi kemungkinan ialah mempertimbangkan penguraian autoregresif, di mana sesetengah buku kod memerlukan ramalan selari. Sebagai contoh, takrifkan satu lagi urutan, V_0 = 0, dan t∈ {1, N}, k ∈ {1, }, V_t,k . Apabila indeks buku kod k dialih keluar (cth. V_t), ini mewakili gabungan semua buku kod pada masa t.

Mod interleaving buku kod sewenang-wenangnya. Untuk bereksperimen dengan penguraian sedemikian dan mengukur dengan tepat kesan penggunaan penguraian yang tidak tepat, para penyelidik memperkenalkan mod interleaving buku kod. Mula-mula pertimbangkan Ω = {(t, k): {1, ・f_r}, k ∈, K}}, iaitu set semua pasangan indeks. Corak buku kod ialah urutan P=(P_0, P_1, P_2, . . . , P_S), di mana P_0 = ∅, dan 0

Pensyaratan model

Pensyaratan teks. Diberi penerangan teks yang sepadan dengan audio input

Penyesuaian melodi. Walaupun teks ialah pendekatan dominan kepada model generatif bersyarat hari ini, pendekatan yang lebih semula jadi kepada muzik adalah dengan menyesuaikan struktur melodi daripada trek audio lain atau pun bersiul atau bersenandung. Pendekatan ini juga membolehkan pengoptimuman lelaran keluaran model. Untuk menyokong ini, kami cuba mengawal struktur melodi dengan memodulasi bersama kromatogram input dan penerangan teks. Dalam eksperimen awal, mereka memerhatikan bahawa penyaman pada kromatogram asal sering membina semula sampel asal, yang membawa kepada overfitting. Untuk tujuan ini, penyelidik memilih tong kekerapan masa utama dalam setiap langkah masa untuk memperkenalkan kesesakan maklumat.

Seni bina model

Unjuran buku kod dan pembenaman kedudukan. Memandangkan corak buku kod, hanya beberapa buku kod wujud dalam setiap langkah corak P_s. Penyelidik mendapatkan semula nilai dari Q yang sepadan dengan indeks dalam P_s. Setiap buku kod muncul dalam P_s paling banyak sekali atau tidak sama sekali.

Penyahkod Transformer. Input dimasukkan ke dalam pengubah dengan lapisan L dan dimensi D, setiap lapisan terdiri daripada blok perhatian kendiri sebab. Blok perhatian silang kemudian digunakan, yang disediakan oleh isyarat penyaman C. Apabila menggunakan pelaziman melodi, penyelidik menetapkan awalan tensor C terkondisi kepada input pengubah.

Ramalan logit. Pada langkah corak P_s, keluaran penyahkod pengubah ditukar kepada ramalan logit bagi nilai Q. Setiap buku kod muncul paling banyak sekali dalam P_s+1. Jika buku kod wujud, lapisan linear khusus buku kod digunakan daripada saluran D ke N untuk mendapatkan ramalan logit.

Hasil percubaan

Model tokenisasi audio. Kajian ini menggunakan model EnCodec lima lapisan bukan sebab untuk audio mono 32 kHz dengan langkah 640, kadar bingkai 50 Hz dan saiz tersembunyi awal 64 yang digandakan dalam setiap lima lapisan model itu.

Model Transformer, Kajian ini melatih model Transformer autoregresif dengan saiz yang berbeza: parameter 300M, 1.5B, 3.3B.

Set data latihan. Kaji menggunakan 20,000 jam muzik berlesen untuk melatih MUSICGEN. Secara terperinci, kajian itu menggunakan set data dalaman yang mengandungi 10K lagu berkualiti tinggi, serta set data muzik ShutterStock dan Pond5 yang masing-masing mengandungi 25K dan 365K trek instrumental sahaja.

Dataset penilaian. Kajian ini menilai kaedah yang dicadangkan pada penanda aras MusicCaps dan membandingkannya dengan kerja sebelumnya. MusicCaps terdiri daripada 5.5K sampel (10 saat panjang) yang disediakan oleh ahli muzik pakar dan 1K subset yang seimbang merentas genre.

Jadual 1 di bawah memberikan perbandingan kaedah yang dicadangkan dengan Mousai, Riffusion, MusicLM dan Noise2Music. Keputusan menunjukkan bahawa MUSICGEN mengatasi garis dasar yang dinilai oleh pendengar manusia dari segi kualiti audio dan konsistensi dengan penerangan teks yang disediakan. Noise2Music menunjukkan prestasi terbaik pada FAD pada MusicCaps, diikuti oleh MUSICGEN yang dilatih dengan keadaan teks. Menariknya, menambah keadaan melodi merendahkan metrik objektif, tetapi tidak menjejaskan penilaian manusia dengan ketara dan masih lebih baik daripada garis dasar yang dinilai.

Teks sumber terbuka meta menjana model muzik yang besar Kami mencubanya dengan lirik Qilixiang.

Pengkaji menggunakan ukuran objektif dan subjektif pada set penilaian yang diberikan, dalam teks MUSICGEN telah dinilai di bawah keadaan yang sama seperti perwakilan melodi Keputusan ditunjukkan dalam Jadual 2 di bawah. Keputusan menunjukkan bahawa MUSICGEN yang dilatih dengan pensyaratan kromatogram berjaya menjana muzik yang mengikut melodi tertentu, membolehkan kawalan yang lebih baik ke atas output yang dihasilkan. MUSICGEN adalah teguh untuk menjatuhkan kroma pada masa inferens menggunakan OVL dan REL.

Teks sumber terbuka meta menjana model muzik yang besar Kami mencubanya dengan lirik Qilixiang.

Kesan mod interleaving buku kod. Kami menilai pelbagai corak buku kod menggunakan rangka kerja dalam Bahagian 2.2, K = 4, yang diberikan oleh model tokenisasi audio. Artikel ini melaporkan penilaian objektif dan subjektif dalam Jadual 3 di bawah. Walaupun meratakan meningkatkan penjanaan, ia adalah mahal dari segi pengiraan. Prestasi yang sama boleh dicapai pada sebahagian kecil daripada kos menggunakan kaedah penangguhan mudah.

Teks sumber terbuka meta menjana model muzik yang besar Kami mencubanya dengan lirik Qilixiang.

Kesan saiz model. Jadual 4 di bawah melaporkan keputusan untuk saiz model yang berbeza, iaitu model parametrik 300M, 1.5B dan 3.3B. Seperti yang dijangkakan, peningkatan saiz model menghasilkan skor yang lebih baik, tetapi hanya dengan mengorbankan masa latihan dan inferens yang lebih lama. Dari segi penilaian subjektif, kualiti keseluruhan adalah optimum pada 1.5B, tetapi model yang lebih besar boleh lebih memahami gesaan teks.

Teks sumber terbuka meta menjana model muzik yang besar Kami mencubanya dengan lirik Qilixiang.

Atas ialah kandungan terperinci Teks sumber terbuka meta menjana model muzik yang besar Kami mencubanya dengan lirik 'Qilixiang'.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam
Carta 10 kuasa bi yang paling banyak digunakan - Analytics VidhyaCarta 10 kuasa bi yang paling banyak digunakan - Analytics VidhyaApr 16, 2025 pm 12:05 PM

Memanfaatkan kekuatan visualisasi data dengan carta Microsoft Power BI Dalam dunia yang didorong oleh data hari ini, dengan berkesan menyampaikan maklumat yang rumit kepada penonton bukan teknikal adalah penting. Visualisasi data jambatan jurang ini, mengubah data mentah i

Sistem Pakar di AISistem Pakar di AIApr 16, 2025 pm 12:00 PM

Sistem Pakar: menyelam yang mendalam ke dalam kuasa membuat keputusan AI Bayangkan mempunyai akses kepada nasihat pakar mengenai apa -apa, dari diagnosis perubatan kepada perancangan kewangan. Itulah kuasa sistem pakar dalam kecerdasan buatan. Sistem ini meniru pro

Tiga coder getaran terbaik memecahkan revolusi AI ini dalam kodTiga coder getaran terbaik memecahkan revolusi AI ini dalam kodApr 16, 2025 am 11:58 AM

Pertama sekali, jelas bahawa ini berlaku dengan cepat. Pelbagai syarikat bercakap mengenai perkadaran kod mereka yang kini ditulis oleh AI, dan ini semakin meningkat pada klip pesat. Terdapat banyak anjakan pekerjaan

Runway AI's Gen-4: Bagaimanakah montaj AI boleh melampaui kebodohanRunway AI's Gen-4: Bagaimanakah montaj AI boleh melampaui kebodohanApr 16, 2025 am 11:45 AM

Industri filem, bersama semua sektor kreatif, dari pemasaran digital ke media sosial, berdiri di persimpangan teknologi. Sebagai kecerdasan buatan mula membentuk semula setiap aspek bercerita visual dan mengubah landskap hiburan

Bagaimana untuk mendaftar selama 5 hari kursus percuma ISRO AI? - Analytics VidhyaBagaimana untuk mendaftar selama 5 hari kursus percuma ISRO AI? - Analytics VidhyaApr 16, 2025 am 11:43 AM

Kursus Online AI/ML percuma ISRO: Gerbang ke Inovasi Teknologi Geospatial Pertubuhan Penyelidikan Angkasa India (ISRO), melalui Institut Pengesan Jauh India (IIRS), menawarkan peluang yang hebat untuk pelajar dan profesional

Algoritma Carian Tempatan di AIAlgoritma Carian Tempatan di AIApr 16, 2025 am 11:40 AM

Algoritma Carian Tempatan: Panduan Komprehensif Merancang acara berskala besar memerlukan pengagihan beban kerja yang cekap. Apabila pendekatan tradisional gagal, algoritma carian tempatan menawarkan penyelesaian yang kuat. Artikel ini meneroka pendakian bukit dan simul

Terbuka beralih fokus dengan GPT-4.1, mengutamakan pengekodan dan kecekapan kosTerbuka beralih fokus dengan GPT-4.1, mengutamakan pengekodan dan kecekapan kosApr 16, 2025 am 11:37 AM

Pelepasan ini termasuk tiga model yang berbeza, GPT-4.1, GPT-4.1 Mini dan GPT-4.1 Nano, menandakan langkah ke arah pengoptimuman khusus tugas dalam landskap model bahasa yang besar. Model-model ini tidak segera menggantikan antara muka yang dihadapi pengguna seperti

Prompt: CHATGPT menjana pasport palsuPrompt: CHATGPT menjana pasport palsuApr 16, 2025 am 11:35 AM

Gergasi Chip Nvidia berkata pada hari Isnin ia akan memulakan pembuatan superkomputer AI - mesin yang boleh memproses sejumlah besar data dan menjalankan algoritma kompleks - sepenuhnya dalam A.S. untuk kali pertama. Pengumuman itu datang selepas Presiden Trump Si

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Arahan sembang dan cara menggunakannya
1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

Alat panas

MantisBT

MantisBT

Mantis ialah alat pengesan kecacatan berasaskan web yang mudah digunakan yang direka untuk membantu dalam pengesanan kecacatan produk. Ia memerlukan PHP, MySQL dan pelayan web. Lihat perkhidmatan demo dan pengehosan kami.

Penyesuai Pelayan SAP NetWeaver untuk Eclipse

Penyesuai Pelayan SAP NetWeaver untuk Eclipse

Integrasikan Eclipse dengan pelayan aplikasi SAP NetWeaver.

VSCode Windows 64-bit Muat Turun

VSCode Windows 64-bit Muat Turun

Editor IDE percuma dan berkuasa yang dilancarkan oleh Microsoft

SublimeText3 versi Inggeris

SublimeText3 versi Inggeris

Disyorkan: Versi Win, menyokong gesaan kod!

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

Persekitaran pembangunan bersepadu PHP yang berkuasa