Rumah >Peranti teknologi >AI >Menambah kesan khas hanya memerlukan satu ayat atau gambar Syarikat Stable Diffusion telah menggunakan AIGC untuk memainkan helah baharu.

Menambah kesan khas hanya memerlukan satu ayat atau gambar Syarikat Stable Diffusion telah menggunakan AIGC untuk memainkan helah baharu.

PHPzke hadapan: 2023-04-12 23:46:011406semak imbas

Saya percaya ramai orang telah memahami daya tarikan teknologi AI generatif, terutamanya selepas mengalami wabak AIGC pada tahun 2022. Teknologi penjanaan teks-ke-imej yang diwakili oleh Stable Diffusion pernah popular di seluruh dunia, dan tidak terkira banyaknya pengguna datang untuk meluahkan imaginasi artistik mereka dengan bantuan AI...

Berbanding dengan penyuntingan imej, Penyuntingan video ialah topik yang lebih mencabar, memerlukan mensintesis tindakan baharu dan bukannya mengubah suai rupa visual, sambil mengekalkan ketekalan temporal.

Terdapat banyak syarikat yang meneroka trek ini. Beberapa ketika dahulu, Google mengeluarkan Dreamix untuk menggunakan model penyebaran video bersyarat (VDM) teks pada penyuntingan video.

Baru-baru ini, Runway, sebuah syarikat yang mengambil bahagian dalam penciptaan Stable Diffusion, melancarkan model kecerdasan buatan baharu "Gen-1", yang menggunakan sebarang gaya yang ditentukan dengan menggunakan gesaan teks atau rujukan imej. Boleh menukar video sedia ada kepada video baharu.

Menambah kesan khas hanya memerlukan satu ayat atau gambar Syarikat Stable Diffusion telah menggunakan AIGC untuk memainkan helah baharu.

Pautan kertas: https://arxiv.org/pdf/2302.03011.pdf

Laman utama projek: https://research.runwayml.com/gen1

Pada 2021, Runway dan Universiti Penyelidik Munich bekerjasama untuk mencipta versi pertama Stable Diffusion. Kemudian Stability AI, syarikat permulaan UK, melangkah masuk untuk membiayai perbelanjaan pengiraan yang diperlukan untuk melatih model pada lebih banyak data. Pada 2022, Stability AI membawa Stable Diffusion ke dalam arus perdana, mengubahnya daripada projek penyelidikan kepada fenomena global.

Runway berkata ia berharap Gen-1 akan lakukan untuk video seperti yang dilakukan Stable Diffusion untuk grafik.

"Kami telah melihat ledakan model penjanaan imej," kata Cristóbal Valenzuela, Ketua Pegawai Eksekutif dan pengasas bersama Runway. "Saya benar-benar percaya bahawa 2023 akan menjadi tahun video." Penggayaan. Pindahkan gaya mana-mana imej atau gesaan ke setiap bingkai video anda.

2. Papan cerita. Ubah model anda menjadi rendering yang bergaya dan animasi sepenuhnya.

3. Topeng. Asingkan topik dalam video dan ubah suainya menggunakan gesaan teks mudah.

4. Tukar pemaparan tanpa tekstur kepada output fotorealistik dengan menggunakan imej input atau gesaan.

5. Lepaskan kuasa penuh Gen-1 dengan menyesuaikan model anda untuk hasil ketepatan yang lebih tinggi.

Dalam demo yang disiarkan di tapak web rasmi syarikat, ia menunjukkan cara Gen-1 boleh menukar gaya video dengan lancar, mari kita lihat beberapa contoh.

Sebagai contoh, untuk menukar "orang di jalanan" menjadi "boneka tanah liat", anda hanya memerlukan satu baris gesaan:

Daripada "berlari di atas salji" kepada "berjalan di bulan":

Menambah kesan khas hanya memerlukan satu ayat atau gambar Syarikat Stable Diffusion telah menggunakan AIGC untuk memainkan helah baharu.

The gadis muda, dalam beberapa saat Menjadi seorang bijak purba:

Menambah kesan khas hanya memerlukan satu ayat atau gambar Syarikat Stable Diffusion telah menggunakan AIGC untuk memainkan helah baharu.

Butiran Kertas

Kesan visual dan penyuntingan video terdapat di mana-mana dalam media kontemporari. Apabila platform bertumpu video semakin popular, keperluan untuk alat penyuntingan video yang lebih intuitif dan berkuasa meningkat. Walau bagaimanapun, disebabkan sifat temporal data video, penyuntingan dalam format ini masih rumit dan memakan masa. Model pembelajaran mesin tercanggih menunjukkan janji yang baik dalam meningkatkan proses penyuntingan, tetapi banyak kaedah perlu mencapai keseimbangan antara ketekalan temporal dan perincian spatial.

Kaedah generatif untuk sintesis imej baru-baru ini mengalami fasa pertumbuhan pesat dalam kualiti dan populariti disebabkan oleh pengenalan model resapan yang dilatih pada set data berskala besar. Sesetengah model bersyarat teks, seperti DALL-E 2 dan Stable Diffusion, membolehkan pengguna baru menjana imej terperinci dengan hanya gesaan teks. Model resapan terpendam menyediakan kaedah yang cekap untuk menjana imej dengan menggubah dalam ruang yang dimampatkan secara persepsi.

Dalam kertas kerja ini, penyelidik mencadangkan model penyebaran video struktur dan sedar kandungan yang boleh dikawal pada video tanpa sari kata dan data imej teks yang dilatih pada set data berskala besar. Para penyelidik memilih untuk menggunakan anggaran kedalaman monokular untuk mewakili struktur dan benam yang diramalkan oleh rangkaian saraf pra-terlatih untuk mewakili kandungan.

Kaedah ini menyediakan beberapa mod kawalan berkuasa semasa proses penjanaannya: Pertama, sama dengan model sintesis imej, penyelidik melatih model untuk membuat kandungan video yang disimpulkan, seperti penampilannya atau gaya, sepadan dengan imej atau gesaan teks yang dibekalkan pengguna (Rajah 1). Kedua, diilhamkan oleh proses penyebaran, para penyelidik menggunakan proses penyamaran maklumat kepada perwakilan struktur untuk dapat memilih sejauh mana model itu menyokong struktur tertentu. Akhir sekali, kami menyesuaikan proses inferens melalui kaedah panduan tersuai yang diilhamkan oleh panduan bebas klasifikasi untuk mencapai kawalan ke atas ketekalan temporal segmen yang dijana.

Secara keseluruhannya, sorotan kajian ini adalah seperti berikut:

Dengan memperkenalkan lapisan temporal dalam model imej pra-latihan , dan Latihan bersama tentang imej dan video memanjangkan model resapan terpendam ke bidang penjanaan video
mencadangkan model struktur dan sedar kandungan yang mengubah suai video di bawah bimbingan imej sampel; atau teks. Penyuntingan dilakukan sepenuhnya dalam masa inferens, tidak memerlukan latihan tambahan atau prapemprosesan untuk setiap video; Kajian ini adalah yang pertama menunjukkan bahawa latihan bersama pada data imej dan video membolehkan masa inferens untuk mengawal ketekalan temporal. Untuk ketekalan struktur, latihan pada tahap perincian yang berbeza dalam perwakilan membolehkan pemilihan tetapan yang diingini semasa inferens; Dalam kajian pengguna, kaedah kami Lebih popular daripada beberapa kaedah lain; model terlatih boleh diperibadikan lagi dengan menala halus pada subset kecil imej untuk menghasilkan video khusus subjek yang lebih tepat.
Kaedah
Untuk tujuan penyelidikan, adalah berguna untuk mempertimbangkan video dari kedua-dua perspektif kandungan dan struktur. Dengan struktur, di sini kami maksudkan ciri yang menerangkan geometri dan dinamiknya, seperti bentuk dan kedudukan badannya, dan perubahan temporalnya. Untuk kandungan, ia ditakrifkan di sini sebagai ciri yang menerangkan penampilan dan semantik video, seperti warna dan gaya objek dan pencahayaan tempat kejadian. Matlamat model Gen-1 adalah untuk mengedit kandungan video sambil mengekalkan strukturnya.
Untuk mencapai matlamat ini, penyelidik mempelajari model generatif p (x|s, c) untuk video x, yang syaratnya ialah perwakilan struktur (diwakili oleh s) dan perwakilan kandungan ( Diwakili oleh c). Mereka menyimpulkan perwakilan bentuk daripada video input dan mengubah suainya berdasarkan gesaan teks c yang menerangkan suntingan. Pertama, pelaksanaan model generatif sebagai model penyebaran video terpendam bersyarat diterangkan, dan kemudian, pilihan bentuk dan perwakilan kandungan diterangkan. Akhir sekali, proses pengoptimuman model dibincangkan.

Struktur model ditunjukkan dalam Rajah 2.

Eksperimen

Untuk menilai kaedah, penyelidik menggunakan video DAVIS dan pelbagai bahan. Untuk membuat gesaan pengeditan secara automatik, para penyelidik mula-mula menjalankan model sari kata untuk mendapatkan perihalan kandungan video asal, dan kemudian menggunakan GPT-3 untuk menjana gesaan pengeditan.

Penyelidikan kualitatif

Seperti yang ditunjukkan dalam Rajah 5, keputusan membuktikan bahawa kaedah artikel ini berkesan pada beberapa input berbeza Berprestasi dengan baik.

Menambah kesan khas hanya memerlukan satu ayat atau gambar Syarikat Stable Diffusion telah menggunakan AIGC untuk memainkan helah baharu.

Penyelidikan Pengguna

Penyelidik juga A kajian pengguna telah dijalankan menggunakan Amazon Mechanical Turk (AMT) pada set penilaian 35 gesaan pengeditan video yang mewakili. Untuk setiap sampel, 5 anotor diminta untuk membandingkan ketepatan gesaan pengeditan video antara kaedah garis dasar dan kaedah kami ("Video manakah yang lebih baik mewakili sari kata yang disunting yang disediakan?"), dan kemudian Dipersembahkan secara rawak secara berurutan, dengan undian majoriti digunakan untuk menentukan muktamad hasil.

Keputusan ditunjukkan dalam Rajah 7:

Menambah kesan khas hanya memerlukan satu ayat atau gambar Syarikat Stable Diffusion telah menggunakan AIGC untuk memainkan helah baharu.

Penilaian Kuantitatif

Rajah 6 menunjukkan keputusan setiap model menggunakan petunjuk ketekalan dan ketekalan segera rangka kerja artikel ini. Prestasi model dalam kertas kerja ini cenderung untuk mengatasi model garis dasar dalam kedua-dua aspek (iaitu, ia lebih tinggi di sudut kanan atas rajah). Para penyelidik juga menyedari bahawa terdapat sedikit pertukaran untuk meningkatkan parameter keamatan dalam model garis dasar: penskalaan intensiti yang lebih besar bermakna konsistensi segera yang lebih tinggi pada kos ketekalan bingkai yang lebih rendah. Mereka juga mendapati bahawa penskalaan struktur yang meningkat membawa kepada konsistensi segera yang lebih tinggi kerana kandungan tidak lagi ditentukan oleh struktur input.

Penyesuaian

Rajah 10 menunjukkan model dengan bilangan langkah penyesuaian yang berbeza dan contoh kebergantungan struktur yang berbeza . Para penyelidik memerhatikan bahawa penyesuaian meningkatkan kesetiaan kepada gaya dan penampilan watak, supaya, walaupun menggunakan video didorong watak dengan ciri berbeza, digabungkan dengan nilai ts yang lebih tinggi, kesan animasi yang tepat boleh dicapai.

Menambah kesan khas hanya memerlukan satu ayat atau gambar Syarikat Stable Diffusion telah menggunakan AIGC untuk memainkan helah baharu.

Atas ialah kandungan terperinci Menambah kesan khas hanya memerlukan satu ayat atau gambar Syarikat Stable Diffusion telah menggunakan AIGC untuk memainkan helah baharu.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan：

Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel sebelumnya：Pemaju ketawa gila! Kebocoran mengejutkan LLaMa mencetuskan kegilaan penggantian ChatGPT, dan medan LLM sumber terbuka berubah.Artikel seterusnya：Pemaju ketawa gila! Kebocoran mengejutkan LLaMa mencetuskan kegilaan penggantian ChatGPT, dan medan LLM sumber terbuka berubah.

Artikel berkaitan

Lihat lagi