Rumah >Peranti teknologi >AI >CCTV memuji teknik pemanggilan kebangkitan AI domestik, dan pahlawan terracotta sebenarnya mengetuk dengan Uncle Gemstone?

CCTV memuji teknik pemanggilan kebangkitan AI domestik, dan pahlawan terracotta sebenarnya mengetuk dengan Uncle Gemstone?

王林
王林asal
2024-07-15 17:09:10895semak imbas
The Terracotta Warriors and Horses, yang telah tidur selama lebih daripada dua ribu tahun, telah bangun?

CCTV memuji teknik pemanggilan kebangkitan AI domestik, dan pahlawan terracotta sebenarnya mengetuk dengan Uncle Gemstone?

Barisan pembukaan Qin Opera membawa kami ke Dataran Tinggi Loess. Jika mereka tidak melihatnya dengan mata kepala sendiri, ramai penonton mungkin tidak menyangka bahawa mereka akan melihat Terracotta Warriors dan Gem membuat persembahan "Army March" di pentas yang sama sepanjang hayat mereka.

"Awan panjang dan gunung yang dilitupi salji gelap di Qinghai, kota sunyi yang memandang ke Yumen Pass di kejauhan Walaupun lagu kuno telah berubah dalam muzik, bunyinya masih menyentuh perasaan:

CCTV memuji teknik pemanggilan kebangkitan AI domestik, dan pahlawan terracotta sebenarnya mengetuk dengan Uncle Gemstone?

." "Teknik pemanggilan AI kebangkitan semula" di sebalik persembahan ini dipanggil EMO, Dari Lab Alibaba Tongyi. Dengan hanya foto dan audio, EMO boleh menukar imej pegun menjadi nyanyian dan video persembahan seperti hidup, serta menangkap turun naik dan turun audio dengan tepat.

Dalam "Festival AI China 2024" CCTV, juga berdasarkan teknologi EMO, penulis Dinasti Song Utara Su Shi "dibangkitkan" dan menyanyikan lagu "Shui Tiao Ge Tou" bersama Li Yugang di pentas yang sama. Pergerakan "AI Su Shi" adalah mudah dan semula jadi, seolah-olah dia telah mengembara melalui masa dan ruang:

CCTV memuji teknik pemanggilan kebangkitan AI domestik, dan pahlawan terracotta sebenarnya mengetuk dengan Uncle Gemstone?

Diinspirasikan oleh teknologi canggih dalam bidang AI seperti EMO, teknologi peringkat kebangsaan pertama jamuan dengan kecerdasan buatan sebagai teras "Festival AI China 2024" adalah hebat Pada pembukaan, kuasa teknologi AI domestik yang paling canggih akan dihantar kepada setiap penonton sebelum persembahan dalam bentuk integrasi "media + teknologi + seni": CCTV memuji teknik pemanggilan kebangkitan AI domestik, dan pahlawan terracotta sebenarnya mengetuk dengan Uncle Gemstone?Ini bukan kali pertama EMO "keluar dari kalangan". "Gao Qiqiang Integrated Luo Xiang Pufa" yang pernah meletup di media sosial juga dicipta oleh EMO: CCTV memuji teknik pemanggilan kebangkitan AI domestik, dan pahlawan terracotta sebenarnya mengetuk dengan Uncle Gemstone?
Selepas log masuk ke APP Tongyi, dengan bantuan pelbagai percubaan imaginatif pemain, EMO telah menjadi begitu popular hari ini Tidak berkurangan . Rakan-rakan yang belum mencubanya boleh memuat turun aplikasi ini, masukkan "Saluran" dan pilih "Peringkat Kebangsaan" untuk mendapatkan pengalaman yang lancar.

CCTV memuji teknik pemanggilan kebangkitan AI domestik, dan pahlawan terracotta sebenarnya mengetuk dengan Uncle Gemstone?

Malah, seawal Februari tahun ini, Tongyi Laboratory menerbitkan kertas kerja berkaitan EMO (Emote Portrait Alive). Kertas kerja ini mendapat ulasan yang memberangsangkan apabila ia mula-mula dilancarkan malah ada yang memuji: "EMO ialah penyelidikan revolusioner."

CCTV memuji teknik pemanggilan kebangkitan AI domestik, dan pahlawan terracotta sebenarnya mengetuk dengan Uncle Gemstone?

.
  • Alamat kertas: https://arxiv.org/pdf/2402.17485
  • Laman utama projek: https://humanaigc.github.io/emote-portrait-alive/


berfungsi Untuk menerima pujian yang begitu tinggi? Ini juga bermula dengan status pembangunan semasa teknologi penjanaan video dan inovasi teknologi asas EMO.

Jadi di luar bulatan, kenapa EMO?

Dalam beberapa tahun kebelakangan ini, kejayaan AI dalam penjanaan imej adalah jelas kepada semua. Pada masa ini, hotspot penyelidikan dalam bidang AI adalah untuk mengatasi tugas yang lebih sukar: penjanaan video.

EMO sedang menghadapi salah satu tugas yang paling sukar:
Penjanaan video watak dipacu audio.

Berbeza daripada video Vincent biasa dan permainan video Tusheng, penjanaan video watak dipacu audio ialah proses yang merentasi secara langsung daripada modaliti audio ke video. Penjanaan jenis video ini selalunya melibatkan pelbagai elemen seperti pergerakan kepala, pandangan, berkelip, pergerakan bibir, dsb., dan konsistensi dan kelancaran kandungan video mesti dikekalkan.

Dalam kaedah sebelumnya, kebanyakan model terlebih dahulu melakukan pemodelan 3D atau penandaan mata kunci muka untuk muka, kepala atau bahagian badan dan menggunakan ini sebagai ungkapan perantaraan untuk menjana video akhir. Walau bagaimanapun, kaedah menggunakan ungkapan perantaraan boleh menyebabkan maklumat dalam audio menjadi terlalu mampat, menjejaskan ekspresi emosi dalam video yang dijana akhir.

Bo Liefeng, ketua pasukan penglihatan gunaan Makmal Tongyi, berkata bahawa CCTV memuji teknik pemanggilan kebangkitan AI domestik, dan pahlawan terracotta sebenarnya mengetuk dengan Uncle Gemstone?

Inovasi utama "reka bentuk kawalan lemah" EMO menyelesaikan masalah di atas dengan baik, bukan sahaja mengurangkan kos penjanaan video, tetapi juga bertambah baik. kualiti penjanaan video.

"Kawalan lemah" dicerminkan dalam dua aspek: Pertama, EMO tidak memerlukan pemodelan dan mengekstrak maklumat secara langsung daripada audio untuk menjana video dinamik ekspresi muka dan penyegerakan bibir, dengan itu menghapuskan keperluan untuk pra-pemprosesan yang kompleks . Cipta video potret semula jadi, lancar dan ekspresif dari hujung ke hujung. Kedua, EMO tidak mempunyai terlalu banyak "kawalan" pada ekspresi dan pergerakan badan yang dihasilkan Hasil akhir yang semula jadi dan lancar adalah disebabkan oleh keupayaan generalisasi model itu sendiri yang dilatih dengan belajar daripada data berkualiti tinggi.

CCTV memuji teknik pemanggilan kebangkitan AI domestik, dan pahlawan terracotta sebenarnya mengetuk dengan Uncle Gemstone?

Mengambil pahlawan terracotta dan kuda serta Permata Permata dalam bingkai yang sama untuk menyanyikan "Army March", emosi (seperti keterujaan) yang ingin disampaikan dalam lagu itu terpapar dengan baik di wajahnya tanpa memberi orang rasa ketidakpatuhan:

Berdasarkan konsep kawalan yang lemah, pasukan penyelidik membina set data audio dan video yang besar dan pelbagai untuk model EMO, berjumlah
lebih daripada 250 jam rakaman dan lebih daripada 150 juta imej
, meliputi pelbagai kandungan, termasuk ucapan, filem Dengan klip televisyen dan persembahan nyanyian dalam pelbagai bahasa termasuk bahasa Cina dan Inggeris, pelbagai jenis video memastikan bahan latihan menangkap pelbagai ekspresi manusia dan gaya vokal.

Terdapat pandangan dalam komuniti akademik bahawa pemampatan tanpa kerugian terbaik untuk set data ialah generalisasi terbaik untuk data di luar set data. Algoritma yang boleh mencapai pemampatan yang cekap selalunya boleh mendedahkan corak data yang mendalam, yang juga merupakan manifestasi penting kecerdasan.

CCTV memuji teknik pemanggilan kebangkitan AI domestik, dan pahlawan terracotta sebenarnya mengetuk dengan Uncle Gemstone? Oleh itu, pasukan mereka bentuk

algoritma pengekodan data kesetiaan tinggi🎜 semasa proses latihan untuk memastikan butiran kaya dan julat dinamik maklumat asal dikekalkan sebanyak mungkin semasa proses pemampatan atau pemprosesan data . Khusus untuk latihan EMO, hanya apabila maklumat audio lengkap barulah emosi watak dapat dipaparkan dengan baik. 🎜🎜🎜🎜
Trek penjanaan video semakin meningkat
Bagaimana Tongyi Lab menjadi eselon pertama di dunia?

Pada awal Februari tahun ini, keluaran Sora mencetuskan trek penjanaan video, dan banyak teknologi di belakangnya menarik perhatian, termasuk DiT (Diffusion Transformer).

Kami tahu bahawa U-Net dalam model resapan boleh mensimulasikan proses pemulihan beransur-ansur isyarat daripada hingar Ia secara teorinya boleh menghampiri mana-mana pengedaran data yang kompleks dan lebih unggul daripada rangkaian musuh generatif (GAN) dan berubah-ubah dari segi kualiti imej. Autoencoders (VAE) yang menjana imej dunia sebenar dengan tekstur yang lebih semula jadi dan butiran yang lebih tepat. Walau bagaimanapun, kertas DiT menunjukkan bahawa bias induktif U-Net tidak diperlukan untuk prestasi model resapan dan boleh digantikan dengan mudah dengan reka bentuk standard (seperti Transformer Ini adalah model resapan baharu DiT berdasarkan seni bina Transformer). dicadangkan dalam kertas kerja.

Perkara yang paling penting ialah Sora dengan DiT sebagai teras telah mengesahkan bahawa Undang-undang Skala masih wujud dalam model penjanaan video, dan penyelidik boleh mengembangkan saiz model untuk mencapai hasil yang lebih baik dengan menambahkan lebih banyak parameter dan data.

Kejayaan model DiT dalam menghasilkan video sebenar telah membolehkan komuniti AI melihat potensi kaedah ini, mendorong bidang penjanaan video beralih daripada seni bina U-Net klasik kepada paradigma Seni bina tulang belakang resapan berasaskan pengubah. Ramalan sementara berdasarkan mekanisme perhatian Transformer dan data video berkualiti tinggi berskala besar adalah kuasa utama yang memacu transformasi ini.

Namun, melihat kepada bidang penjanaan video semasa, masih belum wujud seni bina yang "bersatu".

EMO tidak berasaskan seni bina seperti DiT, iaitu, ia tidak menggunakan Transformer untuk menggantikan U-Net tradisional Ia juga boleh mensimulasikan dunia fizikal sebenar dengan baik, yang telah memberi inspirasi kepada keseluruhan penyelidikan padang.

Apakah laluan teknikal yang akan muncul dalam bidang penjanaan video pada masa hadapan? Kedua-dua penyelidik dan pengamal teori boleh mengekalkan "jangkaan yang agak terbuka."

Bo Liefeng berkata pada dasarnya, model bahasa semasa dan model penjanaan imej/video belum melepasi rangka kerja pembelajaran mesin statistik. Malah Undang-undang Skala mempunyai batasannya sendiri. Walaupun setiap model mempunyai pemahaman yang agak tepat tentang penjanaan hubungan yang kuat dan hubungan sederhana, pembelajaran hubungan yang lemah masih tidak mencukupi. Jika penyelidik tidak dapat terus menyediakan data berkualiti tinggi yang mencukupi, sukar untuk meningkatkan keupayaan model secara kualitatif.

Melihat dari sudut lain, walaupun ada seni bina bersatu yang "menduduki separuh negara" dalam bidang penjanaan video, ia tidak bermakna ia mempunyai keunggulan mutlak. Sama seperti dalam bidang bahasa semula jadi, Transformer yang sentiasa teguh di kedudukan C, juga akan berdepan dikalahkan oleh Mamba.

Khususnya dalam bidang penjanaan video, setiap laluan teknikal mempunyai senario aplikasi tersendiri. Contohnya, pemacu titik utama dan pemacu video lebih sesuai untuk adegan migrasi ekspresi, dan pemacu audio lebih sesuai untuk adegan watak bercakap dan menyanyi. Dari segi tahap kawalan bersyarat, kaedah kawalan yang lemah sangat sesuai untuk tugas kreatif, manakala banyak tugas profesional dan khusus boleh mendapat manfaat daripada kaedah kawalan yang kuat.

Makmal Tongyi ialah salah satu institusi terawal di China yang meletakkan teknologi penjanaan video Pada masa ini, ia telah mengumpulkan penyelidikan dan pembangunan dalam pelbagai arah seperti Video Wensheng dan Video Tusheng Terutamanya dalam aspek penjanaan video watak. ia telah membentuk Peoplematriks penyelidikan lengkap termasuk Animasikan Sesiapa sahaja, rangka kerja penjanaan video perubahan watak Sesiapa sahaja, rangka kerja penggantian peranan video watak Motionshop, nyanyian watak dan rangka kerja penjanaan video persembahan Emote Portrait Alive.

CCTV memuji teknik pemanggilan kebangkitan AI domestik, dan pahlawan terracotta sebenarnya mengetuk dengan Uncle Gemstone?

: Untuk lebih banyak projek, sila ambil perhatian: https://github.com/humanaigc
, seperti sebelum EMO, Animasikan Sesiapa sahaja pernah menguasai media sosial dan kalangan rakan. Model ini menyelesaikan masalah mengekalkan kesinambungan jangka pendek dan konsistensi jangka panjang penampilan watak dalam penjanaan video pergerakan watak Selepas itu, fungsi "Raja Tarian Kebangsaan" telah dilancarkan pada Aplikasi Tongyi, mencetuskan gelombang tarian di seluruh negara. klimaks.
CCTV memuji teknik pemanggilan kebangkitan AI domestik, dan pahlawan terracotta sebenarnya mengetuk dengan Uncle Gemstone?Dari teknologi ke dunia nyata
Dalam dua tahun lalu, model bahasa telah menunjukkan keupayaan teks yang berkuasa dalam dialog, pemahaman, ringkasan, penaakulan, dll., dan model penjanaan imej yang berkuasa penjanaan semula jadi, Hiburan dan keupayaan artistik, kedua-dua lagu utama telah menghasilkan banyak produk hit. Kejayaan model ini memberitahu kita sekurang-kurangnya satu perkara:
Pasukan teknikal yang ingin mendapatkan pengaruh dalam era ini perlu belajar berjalan di atas dua kaki: "model asas" dan "aplikasi super."
Pada masa ini, kandungan video menunjukkan trend pertumbuhan yang pesat, dan orang ramai menantikan kemunculan platform penjanaan video AI yang "boleh digunakan" dan "praktikal" untuk semua orang.
EMO mungkin merupakan satu kejayaan teknologi yang penting untuk memecahkan situasi ini, dan Tongyi App menyediakan platform yang luas untuk pelaksanaan teknologi.
Cabaran seterusnya dalam teknologi penjanaan video ialah cara menangkap kandungan peringkat profesional.
Syarikat teknologi berharap dapat mengubah teknologi AI menjadi alat produktiviti sebenar untuk memberi perkhidmatan kepada penulis blog video pendek, penerbit filem dan televisyen, pengiklanan dan kreatif permainan. Inilah sebabnya mengapa aplikasi penjanaan video tidak boleh hanya kekal pada tahap "kandungan umum".
Melihat sekeliling pada kebanyakan aplikasi penjanaan video semasa, kebanyakannya adalah berdasarkan 3 hingga 5 saat model penjanaan video, dengan pengehadan yang jelas dalam aplikasi dan pengalaman.
Walau bagaimanapun, teknologi EMO sangat bertolak ansur dengan tempoh audio, dan kualiti kandungan yang dijana boleh memenuhi piawaian studio. Sebagai contoh, dalam siaran "Terracotta Warriors and Horses Nyanyian dan Persembahan" ini di CCTV, tiada satu saat pun daripada video persembahan empat minit Terracotta Warriors and Horses memerlukan "penalaan halus" manual dalam pasca produksi.
Kini nampaknya teknologi penjanaan video watak yang diwakili oleh EMO merupakan salah satu hala tuju pelaksanaan yang paling hampir dengan "peringkat generasi peringkat profesional". Berbanding dengan banyak ketidakpastian dalam gesaan pengguna dalam teknologi video Wensheng, teknologi EMO sangat selaras dengan keperluan teras untuk keselarasan kandungan dan konsistensi dalam penciptaan video watak, yang menunjukkan ruang aplikasi yang sangat berpotensi.
Sebab mengapa EMO "keluar dari bulatan" bukan sahaja kekuatan teknikal pasukan R&D, tetapi yang lebih penting, pecutan pelaksanaan teknologi penjanaan video.
Zaman "pencipta profesional per kapita" mungkin tidak jauh lagi.

Atas ialah kandungan terperinci CCTV memuji teknik pemanggilan kebangkitan AI domestik, dan pahlawan terracotta sebenarnya mengetuk dengan Uncle Gemstone?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn