Rumah  >  Artikel  >  Peranti teknologi  >  Model SOTA muzik domestik pertama ada di sini! Dioptimumkan untuk bahasa Cina, percuma untuk digunakan, tiada sekatan pada genre

Model SOTA muzik domestik pertama ada di sini! Dioptimumkan untuk bahasa Cina, percuma untuk digunakan, tiada sekatan pada genre

王林
王林ke hadapan
2024-04-18 18:50:321030semak imbas
Pada ulang tahun pertama keluaran model besar "Tiangong", Kunlun Worldwide mengumumkan bahawa model asas "Tiangong 3.0" dan model muzik "Tiangong SkyMusic" telah melancarkan beta awam secara rasmi.

Memandangkan AI membolehkan manusia mencapai kebebasan penciptaan muzik, malah pertengkaran menjadi menarik.

Pada masa lalu, Aran Komatsuzaki, seorang blogger AI yang terkenal di platform X, menulis lagu khusus untuk menyatakan ketidakpuasan hatinya terhadap seorang lagi saintis AI-Gary Marcus, dan menghasilkannya menggunakan Suno yang popular pada masa ini. Anda tahu, pada masa lalu, perang mulut antara orang-orang besar ini terutamanya untuk menyiarkan siaran, dan kemudian anda dan saya akan membuat susulan. Kali ini, pendekatan Aran Komatsuzaki boleh dikatakan telah memainkan helah baru entahlah ianya diilhamkan daripada "Terima kasih, terima kasih, saya ingin mencelah".

Model SOTA muzik domestik pertama ada di sini! Dioptimumkan untuk bahasa Cina, percuma untuk digunakan, tiada sekatan pada genre

Seperti Aran Komatsuzaki, ramai orang di dalam dan luar negara yang mengetahui muzik tetapi tidak memahami muzik cuba memainkan alatan penciptaan muzik AI seperti Suno, dan telah menghasilkan banyak karya muzik yang sangat menarik.

Walau bagaimanapun, ramai netizen melaporkan bahawa Suno kadangkala menjana bahasa Cina yang tidak stabil, dan terdapat masalah seperti lagu-lagu Cina mempunyai rasa bahasa Inggeris dan perkataan yang tidak biasa dinyanyikan dengan tidak betul. Komen stesen B yang diterbitkan oleh lagu Cina yang dihasilkan oleh Suno. Alamat video: https://b23.tv/gVqTUOu

Model SOTA muzik domestik pertama ada di sini! Dioptimumkan untuk bahasa Cina, percuma untuk digunakan, tiada sekatan pada genre

Jadi, adakah model penjanaan muzik AI yang dioptimumkan khusus untuk bahasa Cina?

Model SOTA muzik domestik pertama ada di sini! Dioptimumkan untuk bahasa Cina, percuma untuk digunakan, tiada sekatan pada genre "Tiangong SkyMusic" yang Kunlun Wanwei buka kepada seluruh masyarakat untuk beta awam hari ini adalah model sedemikian. Vokal Cina yang dihasilkannya jelas, tulen, dan tidak mempunyai bunyi yang tidak normal, dan tiada masalah penyesuaian seperti "Lagu Cina gaya Broadway". Selain itu, ia bukan sahaja dioptimumkan untuk bahasa Mandarin, tetapi juga menjaga dialek seperti Kantonis, Chengdu, dan Beijing.

Jadi, bagaimanakah prestasi SkyMusic berbanding Suno? Data penilaian mendatar menunjukkan bahawa SkyMusic lebih unggul dalam beberapa petunjuk seperti kualiti bunyi vokal dan BGM, keaslian vokal, dan kebolehfahaman sebutannya mengatasi Suno V3, menjadi muzik pertama China AIGC SOTA Model ini juga menjadikan China yang dibangunkan sendiri besar. teknologi model menerajui dunia dalam bidang AIGC buat kali pertama.

Model SOTA muzik domestik pertama ada di sini! Dioptimumkan untuk bahasa Cina, percuma untuk digunakan, tiada sekatan pada genre Prestasi cemerlang sedemikian sememangnya tidak dapat dipisahkan daripada model asas yang berkuasa, iaitu model besar "Tiangong 3.0" yang dikeluarkan dan sumber terbuka oleh Kunlun Wanwei pada masa yang sama. Model ini mempunyai 400 bilion parameter, mengatasi Grok-1 dengan 314 bilion parameter, dan merupakan model MoE sumber terbuka terbesar di dunia. Model SOTA muzik domestik pertama ada di sini! Dioptimumkan untuk bahasa Cina, percuma untuk digunakan, tiada sekatan pada genre

Dalam banyak keputusan penilaian berbilang modal yang berwibawa seperti MMBench, "Tiangong 3.0" melepasi GPT-4V dan menerajui dunia.

Model SOTA muzik domestik pertama ada di sini! Dioptimumkan untuk bahasa Cina, percuma untuk digunakan, tiada sekatan pada genre

Dengan sokongan model asas ini, SkyMusic mempunyai pemahaman yang lebih mendalam tentang lagu. Ia boleh mengawal perubahan emosi melalui lirik dan melaksanakan pelbagai teknik nyanyian seperti vibrato, opera, nyanyian dan sebagainya, menjadikan karya muzik yang dihasilkan lebih kaya dari segi emosi dan sesuai dengan situasi.

Model SOTA muzik domestik pertama ada di sini! Dioptimumkan untuk bahasa Cina, percuma untuk digunakan, tiada sekatan pada genre

So, macam mana nak guna model ni? Apakah laluan teknikal? Apakah inovasi di sebalik "Tiangong 3.0"? Mari kita lihat mereka satu persatu.

Model SOTA muzik domestik pertama ada di sini! Dioptimumkan untuk bahasa Cina, percuma untuk digunakan, tiada sekatan pada genreModel SOTA muzik domestik pertama dengan permainan tanpa had

Malah, sangat mudah untuk menggunakan SkyMusic untuk menjana lagu: anda hanya perlu memasukkan tajuk lagu, lirik dan memilih trek rujukan, dan ia akan menjana lagu dengan gaya dan vokal yang serupa.

Model SOTA muzik domestik pertama ada di sini! Dioptimumkan untuk bahasa Cina, percuma untuk digunakan, tiada sekatan pada genre

Jika anda tidak mahu menulis lirik sendiri, anda juga boleh mencuba fungsi "AI Lyric Writing" di sudut kanan bawah kotak input. Ia boleh ditulis dari ayat pertama, dan hanya satu ayat dijana pada satu masa ayat yang tidak memuaskan boleh dipadamkan dalam masa sehingga keseluruhan lagu selesai.

Model SOTA muzik domestik pertama ada di sini! Dioptimumkan untuk bahasa Cina, percuma untuk digunakan, tiada sekatan pada genre

Sudah tentu, anda juga boleh cuba menggunakan "Tiangong 3.0" untuk menulis lagu Contohnya, lagu "This Site" ini ditulis oleh kami menggunakan "Tiangong 3.0":

Model SOTA muzik domestik pertama ada di sini! Dioptimumkan untuk bahasa Cina, percuma untuk digunakan, tiada sekatan pada genre

Langkah seterusnya ialah. untuk memilih Lagu rujukan, ini juga merupakan ciri unik SkyMusic, iaitu, ia boleh menjana muzik berdasarkan sumber bunyi sampel.

Dalam langkah ini, SkyMusic menyediakan banyak trek rujukan, anda boleh memilih daripadanya, atau anda boleh memilih untuk memuat naik fail lagu. Di sini, kami telah memuat naik lagu oleh Luo Tianyi untuk melihat bagaimana kesan penjanaan: Model SOTA muzik domestik pertama ada di sini! Dioptimumkan untuk bahasa Cina, percuma untuk digunakan, tiada sekatan pada genreKeupayaan untuk menjana muzik berdasarkan sumber bunyi sampel telah memperkayakan permainan SkyMusic. Di kawasan paparan kerja pengguna, kita dapat melihat bahawa "The New Man" (episod filem "Zhou Chu Eliminates Three Evils") mempunyai lima versi termasuk rock kuno dan DJ. Model SOTA muzik domestik pertama ada di sini! Dioptimumkan untuk bahasa Cina, percuma untuk digunakan, tiada sekatan pada genreSemasa proses percubaan, kami juga mendapati bahawa, sebenarnya, muzik yang dijana oleh SkyMusic merangkumi rap, folk, funk, gaya kuno, elektronik dan genre lain. Dalam langkah seterusnya, pasukan itu juga merancang untuk membenarkan pengguna menjana lagu berdasarkan melodi yang disenandungkan, yang akan sangat membantu golongan profesional. Model SOTA muzik domestik pertama ada di sini! Dioptimumkan untuk bahasa Cina, percuma untuk digunakan, tiada sekatan pada genre

Pada masa ini, Tiangong SkyMusic dibuka sepenuhnya. Anda boleh mengalaminya dengan memuat turun APP "Tiangong". Ini adalah satu-satunya model penjanaan muzik AI berskala besar yang tersedia secara umum di China, dan kemunculannya mengisi jurang dalam alat AIGC domestik dalam bidang ini.

Walaupun model ini masih di peringkat awal, ia telah membolehkan ramai orang merasai keseronokan penciptaan muzik. Semua orang menggunakannya untuk mengubah komedi ketuhanan, mencipta hits kedua, menulis semula puisi kuno untuk menyokong pendidikan... dan membangunkan pelbagai hala tuju baharu untuk penciptaan muzik.

Seni bina Sora yang dibangunkan sendiri, pelan hala tuju teknikal telah didedahkan kepada umum

Tiangong SkyMusic ialah model generasi muzik hujung ke hujung, jadi kami rasa sangat mudah untuk menggunakannya. Walau bagaimanapun, pembangunan keseluruhan model tidak semudah itu.

Pertama sekali, dari perspektif teknikal, SkyMusic telah memilih laluan penjanaan audio muzik model besar, yang bermaksud bahawa ia secara langsung mempelajari dan menjana bentuk gelombang audio dan bukannya menggunakan laluan penjanaan muzik simbolik (seperti MIDI) untuk menjana skor muzik. Pendekatan ini membolehkan penjanaan elemen hujung ke hujung bersepadu seperti instrumen, vokal, melodi, volum, nota, dll., memberikan pengalaman penciptaan muzik yang lebih langsung dan berkualiti tinggi. Walau bagaimanapun, arah ini juga lebih sukar dan memerlukan kuasa dan dana pengkomputeran yang tinggi, jadi terdapat sangat sedikit orang yang melakukannya.

Lebih-lebih lagi, ke arah ini, semakin kurang orang yang berazam untuk menakluki bidang "vocal song". Kebanyakan kajian tertumpu kepada bidang BGM tanpa vokal, kerana hampir tiada maklumat terbuka atau model sumber terbuka untuk rujukan. dalam bekas.

Melawan tekanan ini, Kunlun Wanwei telah menjalankan eksperimen penyelidikan dan pembangunan yang tidak terkira banyaknya, melaburkan banyak kuasa pengkomputeran, membina set data yang mengandungi 20 juta lagu (set data muzik terbesar dalam sejarah manusia), dan akhirnya meneroka kesan Baik, boleh dihasilkan semula penyelesaian. Selain itu, mereka juga membuat rajah skema teknikal penyelesaian ini kepada umum.

Model SOTA muzik domestik pertama ada di sini! Dioptimumkan untuk bahasa Cina, percuma untuk digunakan, tiada sekatan pada genre

Gambarajah skema teknikal Tiangong SkyMusic: Transformer Skala Besar bertanggungjawab untuk mengarang muzik untuk mempelajari kebergantungan kontekstual Music Patches sambil mencapai kebolehkawalan muzik Diffusion Transformer bertanggungjawab untuk menyanyi dan membenarkan Music Patches; menjadi audio berkualiti tinggi. Seni bina model ini berfungsi dengan sangat baik apabila memproses video, audio dan muzik.

Seperti yang dapat dilihat dari gambar, rangka kerja SkyMusic adalah laluan teknologi DiT yang serupa dengan Sora, tetapi masa pembangunan adalah sebelum Sora keluar, jadi tidak dapat dielakkan untuk memijak banyak perangkap.

Bagi industri, gambarajah skematik ini sangat berharga, kerana tidak ada syarikat model muzik AI berskala besar di pasaran yang telah mendedahkan laluan teknikalnya, termasuk SUNO, Kunlun Wanwei adalah satu-satunya.

Pangkalan berkuasa di belakangnya - Tiangong 3.0

Kejayaan SkyMusic tidak dapat dipisahkan daripada model asas di belakangnya - Tiangong 3.0. Peningkatan terasnya dicerminkan dalam "pemikiran bebas". Ini ditunjukkan dalam carian berbilang pusingan baharu model dan panggilan alat komprehensif, lukisan carta, mod penyelidikan, mod peningkatan dan fungsi lain.

Memandangkan tugas statistik data, ia bukan sahaja dapat membantu anda mengumpul semua data, tetapi juga menulis kod anda sendiri dan memanggil pelbagai fungsi untuk melukis carta. Setiap langkah perantaraan telah dibongkar dengan cara yang jelas, dan pelaksanaan seterusnya memerlukan sedikit campur tangan manusia Malah butiran seperti "mengelakkan pertindihan label" dan "memusatkan paparan teks" telah diambil kira. Ini adalah penjelmaan keupayaan "pemikiran bebas". Model SOTA muzik domestik pertama ada di sini! Dioptimumkan untuk bahasa Cina, percuma untuk digunakan, tiada sekatan pada genre

Peningkatan keupayaan "pemikiran bebas" ini tidak dapat dipisahkan daripada pengoptimuman "Tiangong 3.0" dalam pemahaman semantik, penaakulan logik dan aspek lain. Berbanding dengan model besar KPM "Tiangong 2.0" generasi sebelumnya, "Tiangong 3.0" mempunyai peningkatan prestasi yang menakjubkan dalam bidang seperti pemahaman semantik model, penaakulan logik, serba boleh, generalisasi, pengetahuan ketidakpastian dan keupayaan pembelajaran model telah meningkat lebih daripada 20%, dan kebolehan matematik/penaakulan/pengekodan/budaya dan kreatif telah meningkat lebih daripada 30%.

Ambil tugas carian sebagai contoh. Dalam mod "Peningkatan Carian", memandangkan permintaan carian mudah, "Tiangong 3.0" bukan sahaja akan memberikan jawapan ringkasan, tetapi juga memperhalusi beberapa maklumat penting ke dalam carta. Model SOTA muzik domestik pertama ada di sini! Dioptimumkan untuk bahasa Cina, percuma untuk digunakan, tiada sekatan pada genre

Dalam mod "Penyelidikan", ia juga akan menyediakan modul "Penyelidikan Mendalam" untuk membincangkan dan mencari soalan lanjutan yang tidak disebut dalam Pertanyaan, memberikan anda perasaan membaca kertas kerja. Akhir sekali, ia juga menyusun maklumat ini ke dalam peta minda untuk rujukan pantas. Model SOTA muzik domestik pertama ada di sini! Dioptimumkan untuk bahasa Cina, percuma untuk digunakan, tiada sekatan pada genre

Berdasarkan peningkatan ketara dalam pemahaman semantik dan keupayaan penaakulan logik, "Tiangong 3.0" juga menjalankan latihan khas tentang keupayaan model untuk merancang, memanggil dan menggabungkan alat dan maklumat luaran secara bebas. Dengan merancang dan memanggil dan menggabungkan alat dan maklumat luaran secara bebas, ia boleh membantu anda menyelesaikan pelbagai keperluan kompleks dengan tepat dan cekap seperti penyelidikan industri, ulasan produk dan analisis maklumat.

Keupayaan untuk berfikir secara bebas ini penting untuk model kecerdasan buatan yang besar. Pertama, keupayaan ini membolehkan AI melakukan penaakulan autonomi tanpa arahan langsung, meningkatkan keupayaannya untuk menangani masalah yang kompleks, kedua, model AI yang berfikir secara bebas boleh mereka bentuk penyelesaian yang inovatif untuk memenuhi permintaan yang diperibadikan dan berdasarkan senario; membolehkan AI untuk terus mengoptimumkan prestasinya melalui pembelajaran kendiri dan penyesuaian apabila menghadapi persekitaran yang baru atau berubah. Kesan kumulatif ketiga-tiga aspek ini telah menggalakkan keluasan dan kedalaman aplikasi teknologi AI, menjadikannya lebih pintar dan cekap dalam pelbagai aplikasi praktikal.

"Tiangong 3.0" merangkumi banyak keupayaan model besar seperti muzik AI, carian AI, penulisan AI, lukisan AI, dll. Apabila bercakap tentang hubungan di sebalik 400 bilion parameter model besar MoE "Tiangong 3.0" dan Tiangong SkyMusic, Kunlun Fang Han, Pengerusi dan Ketua Pegawai Eksekutif Wanwei, menjelaskan, "Semua orang tahu bahawa model besar asas AI adalah asas kukuh AIGC, terutamanya model besar teks. Asas keupayaan Vincent Picture, Vincent Music dan Vincent Video (model AIGC ini ) adalah semua Model teks. Jika keupayaan model teks tidak cukup kuat, keupayaan AIGC akan menjadi sangat terhad."

Kesan ini juga ditunjukkan dalam lukisan AI dan keupayaan lain "Tiangong 3.0". "Tiangong 3.0" telah menambah fungsi baharu seperti pengembangan saiz imej, pelarasan orientasi imej, penjanaan imej tikar, evolusi imej tikar, dan pengembangan imej tikar, dan keputusan ujian sebenar adalah sangat baik.

Model SOTA muzik domestik pertama ada di sini! Dioptimumkan untuk bahasa Cina, percuma untuk digunakan, tiada sekatan pada genre

"Model besar 400 bilion kami ialah model asas yang menyediakan sokongan untuk semua produk C-end kami. Lebih baik model asas saya, lebih baik muzik, permainan, video dan produk animasi saya. Lakukan lebih baik. Jadi kami mempunyai motivasi yang sangat kuat untuk membuat model asas yang besar.”

Mencapai kecerdasan buatan am,

membolehkan semua orang membentuk dan mengekspresikan diri mereka dengan lebih baik

Dalam visi AGI, kita sering mendengar beberapa eksekutif syarikat AI menyebut bahawa mereka mahu menggunakan alatan AI untuk meningkatkan produktiviti dan kecekapan manusia. masyarakat. Oleh itu, mereka kebanyakannya menumpukan pada pengembangan dan peningkatan kecerdasan model. Tetapi pada pandangan Fang Han, satu isu penting telah diabaikan, iaitu cara menggunakan AI untuk membantu orang ramai memahami dan meluahkan emosi dengan lebih baik.

Di bahagian muzik SkyMusic, kami telah melihat banyak contoh perkara ini: kesedihan pelajar yang bakal menamatkan pengajian, kesedihan orang muda tidak dapat mencintai, dan keletihan orang pertengahan umur menyara keluarga mereka semuanya diluahkan melalui nyanyian . Inilah "nyanyian untuk menyatakan cita-cita" sebenar.

Model SOTA muzik domestik pertama ada di sini! Dioptimumkan untuk bahasa Cina, percuma untuk digunakan, tiada sekatan pada genre

Model SOTA muzik domestik pertama ada di sini! Dioptimumkan untuk bahasa Cina, percuma untuk digunakan, tiada sekatan pada genre

Model SOTA muzik domestik pertama ada di sini! Dioptimumkan untuk bahasa Cina, percuma untuk digunakan, tiada sekatan pada genre

Sokongan untuk dialek lebih seperti sejenis kesaksamaan budaya, yang merupakan sesuatu yang Fang Han sangat menghargai​​​sangat. Pada masa akan datang, mereka berharap untuk menambah lebih banyak bahasa supaya setiap orang yang bercakap bahasa kecil boleh mencipta kandungan budaya mereka sendiri dengan mudah.

"Dalam bidang AIGC, matlamat bercita-cita tinggi kami adalah untuk berharap semua orang di dunia dapat mencipta kandungan secara sama rata. Kami mahu menurunkan ambang kreatif untuk semua orang supaya semua orang boleh membentuk dan mengekspresikan diri mereka dengan lebih baik."

Baru-baru ini, kandungan ini juga telah ditulis ke dalam misi terbaru Kunlun Worldwide.

Model SOTA muzik domestik pertama ada di sini! Dioptimumkan untuk bahasa Cina, percuma untuk digunakan, tiada sekatan pada genre

Sebenarnya, pendekatan ini juga masuk akal secara komersial. "Apabila semua orang boleh mencipta muzik, saya percaya bahawa mana-mana tempat awam, seperti setiap restoran dan bar, boleh mencipta muzik latar belakang mereka sendiri untuk memenuhi keperluan perniagaan mereka sendiri."

Dengan pengoptimuman dan penambahbaikan berterusan pada masa hadapan, SkyMusic akan beransur-ansur berkembang menjadi platform penciptaan muzik yang profesional dan mudah digunakan untuk semua orang.

Sudah tentu, usaha Kunlun Wanwei tidak terhad kepada muzik. Berdasarkan "Tiangong 3.0", mereka telah membentuk enam matriks perniagaan AI utama. Pada masa hadapan, matriks ini akan membentuk platform AI UGC.

Model SOTA muzik domestik pertama ada di sini! Dioptimumkan untuk bahasa Cina, percuma untuk digunakan, tiada sekatan pada genre

Platform ini bukan sahaja dapat membantu orang biasa mengekspresikan diri mereka, tetapi juga membantu pencipta yang ingin menggunakan AI untuk mencipta kandungan bagi melengkapkan gelung tertutup sepenuhnya penciptaan IP. Gelung tertutup ini mengambil "cerita baik (IP)" sebagai teras dan merangkumi pelbagai bentuk seperti teks, komik, muzik dan video penggunaan kandungan pengguna juga dilengkapkan pada platform ini.

"Intipati kami adalah untuk membenarkan lebih ramai orang menyertai pasukan pencipta. Premisnya ialah anda mesti boleh menceritakan kisah yang baik. Jika anda boleh mencipta IP yang baik, maka anda boleh mencipta kandungan. Adalah dijangkakan bahawa , semua industri kandungan akan dibuat semula Bilangan pencipta akan berkembang seratus kali ganda, dan kandungan yang boleh digunakan juga akan berkembang seratus kali Ini juga merupakan logik strategi "Semua dalam AGI dan AIGC" kami.

Apakah era ini akan dibentuk? Kita akan lihat.

Atas ialah kandungan terperinci Model SOTA muzik domestik pertama ada di sini! Dioptimumkan untuk bahasa Cina, percuma untuk digunakan, tiada sekatan pada genre. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:jiqizhixin.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam