Rumah  >  Artikel  >  Peranti teknologi  >  Apabila AI bertemu dengan seni lukisan, apakah jenis percikan api yang akan muncul?

Apabila AI bertemu dengan seni lukisan, apakah jenis percikan api yang akan muncul?

WBOY
WBOYke hadapan
2023-04-08 18:21:011371semak imbas

Kata Pengantar

Apakah AI? Dalam fikiran anda, anda mungkin memikirkan rangkaian saraf yang terdiri daripada neuron yang disusun satu di atas yang lain. Jadi apakah seni lukisan? Adakah "Mona Lisa Smile" Da Vinci, "Starry Night" dan "Sunflowers" karya Van Gogh atau "Girl with a Pearl Earring" karya Johannes Vermeer? Apabila AI bertemu dengan seni lukisan, apakah jenis percikan yang boleh dicipta di antara mereka?

Pada awal 2021, pasukan OpenAI mengeluarkan model DALL-E yang boleh menjana imej berdasarkan penerangan teks. Disebabkan keupayaan penjanaan imej silang mod yang kuat, ia telah membangkitkan pengejaran yang kuat dalam kalangan peminat bahasa semula jadi dan teknologi bulatan visual. Dalam tempoh lebih setahun, teknologi penjanaan imej berbilang modal telah mula muncul seperti cendawan selepas hujan Dalam tempoh ini, banyak aplikasi yang menggunakan teknologi ini untuk penciptaan seni AI telah dilahirkan, seperti Disco Diffusion yang popular baru-baru ini. Pada masa kini, aplikasi ini secara beransur-ansur memasuki bidang visi pencipta seni dan masyarakat umum, dan telah menjadi "pena ajaib Ma Liang" di mulut ramai orang.

Artikel ini bermula daripada minat teknikal, memperkenalkan teknologi penjanaan imej berbilang modal dan karya klasik, dan akhirnya meneroka cara menggunakan penjanaan imej berbilang mod untuk mencipta seni lukisan AI ajaib. Apabila AI bertemu dengan seni lukisan, apakah jenis percikan api yang akan muncul?​Karya seni lukisan AI yang dicipta oleh pengarang menggunakan Disco Diffusion

Konsep penjanaan imej berbilang modal

Penjanaan imej berbilang modal (Multi- Penjanaan Imej Modal) bertujuan untuk menggunakan maklumat modal seperti teks dan audio sebagai syarat panduan untuk menjana imej realistik dengan tekstur semula jadi. Tidak seperti teknologi penjanaan mod tunggal tradisional yang menghasilkan imej berdasarkan hingar, penjanaan imej berbilang modal sentiasa menjadi tugas yang sangat mencabar. jurang" untuk memecahkan halangan yang wujud antara modaliti?

(2) Bagaimana untuk menjana imej logik, pelbagai dan resolusi tinggi? Dalam dua tahun yang lalu, dengan kejayaan penerapan Transformer dalam bidang seperti pemprosesan bahasa semula jadi (seperti GPT), penglihatan komputer (seperti ViT), latihan pra-latihan pelbagai modal (seperti CLIP), dan teknologi penjanaan imej yang diwakili oleh VAE dan GAN, terdapat secara beransur-ansur diatasi oleh bintang yang semakin meningkat - Model Penyebaran, pembangunan penjanaan imej berbilang mod adalah di luar kawalan.

Teknologi penjanaan imej berbilang mod dan kerja klasik

Klasifikasi

Mengikut kaedah latihan, sama ada model autoregresif Transformer atau difusi digunakan , Kerja utama penjanaan imej berbilang mod dalam tempoh dua tahun yang lalu dikelaskan seperti berikut:

Apabila AI bertemu dengan seni lukisan, apakah jenis percikan api yang akan muncul?

Transformer Autoregressive

Pendekatan menggunakan kaedah Transformer autoregressive selalunya menukar teks dan imej kepada jujukan token masing-masing, kemudian menggunakan seni bina Transformer generatif untuk meramalkan jujukan imej daripada jujukan teks (dan jujukan imej pilihan), dan akhirnya menggunakan teknologi penjanaan imej (VAE, GAN, dsb.) menyahkod jujukan imej untuk mendapatkan imej hasil akhir. Ambil DALL-E (OpenAI) [1] sebagai contoh:

Apabila AI bertemu dengan seni lukisan, apakah jenis percikan api yang akan muncul?Imej dan teks ditukar menjadi jujukan melalui pengekod masing-masing, dan kemudian disambungkan bersama-sama dan dihantar ke Transformer (di sini GPT3 digunakan) untuk penjanaan jujukan autoregresif. Dalam peringkat inferens, CLIP pra-latihan digunakan untuk mengira persamaan antara teks dan imej yang dijana, dan output imej yang dijana akhir diperoleh selepas pengisihan. Sama seperti DALL-E, siri CogView Tsinghua [2, 3] dan ERNIE-ViLG [4] Baidu juga menggunakan reka bentuk seni bina VQ-VAE + Transformer, manakala Parti Google [5] menggantikan codec imej dengan ViT-VQGAN. NUWA-Infinity [6] Microsoft menggunakan kaedah autoregresif untuk mencapai penjanaan visual yang tidak terhingga.

Model Penyebaran

Model Penyebaran ialah teknologi penjanaan imej yang telah berkembang pesat pada tahun lalu dan dipuji sebagai penamat GAN. Seperti yang ditunjukkan dalam rajah, model resapan dibahagikan kepada dua peringkat: (1) Noising: menambah hingar rawak secara beransur-ansur pada imej di sepanjang proses resapan rantai Markov: (2) Denoising: mempelajari proses resapan songsang untuk memulihkan imej. Varian biasa termasuk model probabilistik penyebaran resapan (DDPM), dsb.

Kaedah penjanaan imej berbilang mod menggunakan model resapan terutamanya mempelajari pemetaan ciri teks kepada ciri imej melalui model resapan dengan panduan bersyarat, dan menyahkod ciri imej untuk mendapatkan imej hasil akhir. Ambil DALL-E-2 (OpenAI) [7] sebagai contoh Walaupun ia adalah sekuel DALL-E, ia memerlukan laluan teknikal yang berbeza daripada DALL-E Prinsipnya lebih seperti GLIDE [8] (sesetengah orang panggil GLIDE DALL-E-1.5). Keseluruhan seni bina DALL-E-2 ditunjukkan dalam rajah: 

Apabila AI bertemu dengan seni lukisan, apakah jenis percikan api yang akan muncul?

DALL-E-2 menggunakan CLIP untuk mengekod teks dan menggunakan model resapan untuk mempelajari proses sebelum (sebelumnya) untuk mendapatkan pemetaan daripada ciri teks kepada ciri imej akhirnya, pelajari proses CLIP songsang untuk menyahkod ciri imej ke dalam imej akhir. Berbanding dengan DALL-E-2, Imagen Google [9] menggunakan T5-XXL terlatih untuk menggantikan CLIP untuk pengekodan teks, dan kemudian menggunakan model resapan resolusi super (seni bina U-Net) untuk meningkatkan saiz imej, memperoleh 1024 ✖️1024 imej yang dijana HD.

Ringkasan

Pengenalan Transformer autoregresif dan kaedah pembelajaran perbandingan CLIP telah mewujudkan jambatan antara teks dan imej pada masa yang sama, berdasarkan model penyebaran dengan bimbingan bersyarat, ia boleh menjana imej Resolusi yang pelbagai dan berkualiti tinggi meletakkan asas. Walau bagaimanapun, menilai kualiti penjanaan imej selalunya subjektif, jadi sukar untuk membandingkan sama ada teknologi model autoregresif Transformer atau model penyebaran lebih baik di sini. Dan model seperti siri DALL-E, Imagen dan Parti dilatih pada set data berskala besar, dan penggunaannya boleh menyebabkan isu etika dan berat sebelah sosial, jadi model ini belum lagi menjadi sumber terbuka. Walau bagaimanapun, masih terdapat ramai peminat yang cuba menggunakan teknologi tersebut, dan banyak aplikasi yang boleh dimainkan telah dihasilkan dalam tempoh ini.

Penciptaan Seni AI

Pembangunan teknologi penjanaan imej berbilang modal menyediakan lebih banyak kemungkinan untuk penciptaan seni AI. Pada masa ini, aplikasi dan alatan penciptaan AI yang digunakan secara meluas termasuk CLIPDraw, VQGAN-CLIP, Disco Diffusion, DALL-E Mini, Midjourney (memerlukan kelayakan jemputan), DALL-E-2 (memerlukan kelayakan beta dalaman), Dream By Wombo ( App), Fungsi Meta "Make-A-Scene", Tiktok "AI Green Screen", Resapan Stabil [10], Baidu "Yige", dsb. Artikel ini terutamanya menggunakan Disco Diffusion, yang popular dalam kalangan penciptaan seni, untuk penciptaan seni AI.

Pengenalan kepada Disco Diffusion

Disco Diffusion [11] ialah aplikasi penciptaan seni AI yang diselenggara secara bersama oleh ramai peminat teknologi di Github Ia telah mengulangi beberapa versi. Tidak sukar untuk melihat dari nama Disco Diffusion bahawa teknologi yang digunakannya adalah model penyebaran yang dipandu oleh CLIP. Disco Diffusion boleh menjana imej atau video artistik berdasarkan penerangan teks yang ditentukan (dan peta asas pilihan). Contohnya, jika anda memasukkan "Laut Bunga", model akan menjana imej hingar secara rawak, dan mengulangi langkah demi langkah melalui proses resapan denoising Diffusion Selepas mencapai beberapa langkah, imej yang cantik boleh dipaparkan. Terima kasih kepada kaedah penjanaan model penyebaran yang pelbagai, anda akan mendapat imej yang berbeza setiap kali anda menjalankan program Pengalaman "pembukaan kotak buta" ini sungguh menarik.

Disco Diffsion mempunyai masalah

Penciptaan AI berdasarkan model penjanaan imej pelbagai mod Disco Diffusion (DD) pada masa ini mempunyai masalah berikut:

(1) Kualiti imej yang dihasilkan Tidak Sekata: Bergantung pada kesukaran tugasan penjanaan, dianggarkan secara kasar kadar hasil penjanaan tugasan dengan kandungan perihalan yang lebih sukar ialah 20% hingga 30%, dan kadar hasil penjanaan tugasan dengan kandungan penerangan yang lebih mudah ialah 60% hingga 70 %. Kadar hasil kebanyakan tugas adalah antara Antara 30~40%.

(2) Kelajuan penjanaan perlahan + penggunaan memori yang besar: Mengambil lelaran 250 langkah untuk menjana imej 1280*768 sebagai contoh, ia mengambil masa kira-kira 6 minit dan menggunakan memori video V100 16G.

(3) Sangat bergantung pada pengalaman pakar: Memilih set deskriptor yang sesuai memerlukan banyak percubaan dan kesilapan kandungan teks dan tetapan berat, pemahaman tentang gaya pelukis dan komuniti seni, dan pemilihan pengubah suai teks ; melaraskan parameter Anda perlu mempunyai pemahaman yang mendalam tentang konsep seperti bilangan panduan CLIP/tepu/kontras/bunyi/bilangan pemotongan/potongan dalaman dan luaran/saiz kecerunan/simetri/... termasuk dalam DD, dan anda mesti mempunyai kemahiran seni tertentu. Bilangan parameter yang besar juga bermakna bahawa pengalaman pakar yang kuat diperlukan untuk mendapatkan imej yang dihasilkan dengan baik.

Rizab Kemahiran

Sebagai tindak balas kepada isu di atas, kami telah membuat beberapa rizab data dan teknologi, dan YY beberapa kemungkinan aplikasi akan datang. Seperti yang ditunjukkan dalam gambar di bawah:

Apabila AI bertemu dengan seni lukisan, apakah jenis percikan api yang akan muncul?



  • Sebagai tindak balas kepada soalan pertama, kami merangkak hampir 20,000 karya seni yang dijana AI daripada komuniti penciptaan seni, dan menjalankan tiga klasifikasi berdasarkan atribut asas imej yang dijana dan rasional kandungan: kualiti yang baik / kualiti sederhana / kualiti buruk, melatih model penilaian kualiti kerja seni. Model ini secara automatik boleh menilai kualiti imej yang dijana AI dan memilih imej dengan hasil yang tinggi, menyelesaikan masalah kecekapan rendah dalam memilih imej berkualiti tinggi secara manual.
  • Untuk masalah kedua, kami meningkatkan kecekapan penjanaan DD dengan mengurangkan bilangan lelaran + menjana imej bersaiz kecil, dan kemudian menggunakan algoritma resolusi super ESRGAN untuk pembinaan semula imej resolusi tinggi. Kaedah ini boleh mencapai kesan imej yang sama seperti yang dijana oleh lelaran biasa DD, dan kecekapan penjanaan dan pengoptimuman memori video sekurang-kurangnya dua kali ganda.
  • Sebagai tindak balas kepada soalan ketiga, kami telah membangunkan satu set logik prapemprosesan peta asas, termasuk suhu warna dan pelarasan warna/latar hadapan dan pelarasan warna latar belakang/menambah hingar, dsb., yang boleh menggunakan tugas penjanaan peta asas yang berbeza dengan cepat. ; pada masa yang sama, kami juga Ia telah mengumpulkan sejumlah besar perkataan gesaan teks, menjalankan sejumlah besar ujian dan ralat pelarasan parameter DD, dan bergantung pada pengalaman pakar untuk menghasilkan imej yang diperibadikan, pelbagai dan berkualiti tinggi.

Dengan menggunakan data dan rizab teknikal ini, kami telah mengumpulkan kaedah aplikasi penjanaan imej berbilang mod seperti kertas dinding telefon mudah alih/komputer, nama/nama artistik, penggayaan bandar mercu tanda, koleksi digital, dsb. Di bawah ini kami akan menunjukkan karya seni yang dijana AI khusus.

Karya seni AI

Pengayaan bangunan mercu tanda bandar

Janakan gaya lukisan yang berbeza (gaya anime) dengan memasukkan penerangan teks dan peta asas bandar mercu tanda / Cyberpunk gaya/ gaya seni piksel):

(1) Bangunan dengan gaya anime, oleh makoto shinkai dan beeple, Sohor kini di stesen seni.

(2) Bangunan dengan gaya cyberpunk , oleh Gregory Grewdson , Sohor kini di stesen seni.

(3) Bangunan dengan gaya piksel, oleh Stefan Bogdanovi, Sohor kini di stesen seni.

Apabila AI bertemu dengan seni lukisan, apakah jenis percikan api yang akan muncul?

Apabila AI bertemu dengan seni lukisan, apakah jenis percikan api yang akan muncul?

Koleksi Digital

Buat pada peta asas dengan memasukkan perihalan teks dan peta asas.

  • Siri Logo Semut (Hutan Semut/Rumah Semut/Kapal Angkasa Semut):

(1) Landskap dengan tumbuh-tumbuhan dan tasik, oleh RAHDS dan beeple, Trend di stesen seni .(2) Kotej terpesona di pinggir tebing landskap fantasi yang tidak menyenangkan, oleh RAHDS dan beeple, Trend di stesen seni.

(3) Sebuah kapal angkasa oleh RAHDS dan beeple, Trend di stesen seni.

Apabila AI bertemu dengan seni lukisan, apakah jenis percikan api yang akan muncul?

  • Siri Ayam Semut (Chicken Transformers/Chicken Spongebob):

(1) Transformers dengan perisai mesin, oleh Alex Milne, Trending di artstation .

(2) Spongebob oleh RAHDS dan beeple, Sohor kini di stesen seni.

Apabila AI bertemu dengan seni lukisan, apakah jenis percikan api yang akan muncul?

Kertas dinding mudah alih/komputer

  • Jana kertas dinding mudah alih dengan memasukkan keterangan teks:

(1) Pemandangan mimpi esoterik oleh Dan Luvisi, menjadi sohor kini di Artstation, lukisan matte landskap luas.

(2) Tersebar teres, musim sejuk, salji, oleh Makoto Shinka, menjadi sohor kini di Artstation, kertas dinding 4k.

(3) Lukisan cloudpunk Atlantis yang indah terbit dari jurang yang digembar-gemburkan oleh ikan paus steampunk oleh gaya rococo Pixar, Artstation, pencahayaan volumetrik.

Apabila AI bertemu dengan seni lukisan, apakah jenis percikan api yang akan muncul?

(4~8) Pemandangan indah planet berputar melalui krim chantilly oleh Ernst Haeckel dan Pixar yang menjadi sohor kini di Artstation, kertas dinding 4k .

Apabila AI bertemu dengan seni lukisan, apakah jenis percikan api yang akan muncul?

  •  Jana kertas dinding komputer dengan memasukkan keterangan teks:

(1) Padang desa yang indah, sudut super lebar, menghadap, pagi oleh Makoto Shinkai .

(2) Lukisan indah malam berbintang, memancarkan cahayanya merentasi lautan bunga matahari oleh James Gurney, Trending di stesen seni.

(3) Negara wap dongeng oleh greg rutkowski dan thomas kinkade Arah Aliran di stesen seni.

(4) Hiasan bangunan ajaib dalam landskap indah oleh daniel merriam, pencahayaan lembut, kertas dinding 4k hd, Sohor kini di stesen seni dan behance.

Apabila AI bertemu dengan seni lukisan, apakah jenis percikan api yang akan muncul?

AI 艺术姓

  • 通过输入文本描述与姓氏底图,生成不同风树的输入文本描述与姓氏底图,生成不同风栜>
(2) Lukisan mashroom yang cantik, pokok , artstation, Artstation, kertas dinding 4k hd.

(3) Lukisan indah bunga matahari, kabus, enjin tidak nyata, memancarkan cahayanya merentasi lautan darah yang bergelora oleh greg rutkowski dan thomas kinkade, Artstation, Andreas Rocha, Greg Rutkowski.

(4) Lukisan astaka yang indah di atas air memberikan pantulan, oleh John Howe, Albert Bierstadt, Alena Aenami, dan kertas dinding seni konsep dan mumford 4k, menjadi trend di stesen seni, seni konsep, sinematik, enjin tidak sebenar, sohor kini atas nama.

(5) Landskap indah hutan rimbun dengan tumbuhan dan pokok eksotik, oleh John Howe, Albert Bierstadt, Alena Aenami dan kertas dinding seni konsep dan mumford 4k, sohor kini di stesen seni, seni konsep, sinematik, enjin tidak sebenar, sohor kini atas nama.

(6) Contra Force, kubu Merah, kapal angkasa, oleh Ernst Haeckel dan Pixar, kertas dinding hd 4k, sohor kini di stesen seni.

总结展望

Apabila AI bertemu dengan seni lukisan, apakah jenis percikan api yang akan muncul?本文主要介绍了近两年来多模态图像生成技术及相关的进展模态图像生成进行多种 AI 艺术创作。接下来,我们还将探索多模态图像生成技术在消费级 CPU 上运行的可能性,以及结合业务为 AI ,走行为 AI更多如电影、动漫主题封面,游戏,元宇宙内容创作等更多相关应用。

使用多模态图像生成技术进行艺术创作只是 AI 自主生产内容生产内容(AI yang dihasilkan 。得益于当前海量数据与预训练大模型的发展, AIGC 能够加速落地,为人类提供更多优质内容。或许,通用人工智能又迈进了一小正了一小正涉及到的技术或者应用感兴趣,欢迎共创交流。参考文献

[1] Ramesh A, Pavlov M, Goh G, et al. Penjanaan teks-ke-imej tangkapan sifar[C]//Persidangan Antarabangsa mengenai Pembelajaran Mesin. PMLR, 2021: 8821-8831.

[2] Ding M, Yang Z, Hong W, et al. Cogview: Menguasai penjanaan teks-ke-imej melalui transformer[J]. Kemajuan dalam Sistem Pemprosesan Maklumat Neural, 2021, 34: 19822-19835.Apabila AI bertemu dengan seni lukisan, apakah jenis percikan api yang akan muncul?

[3] Ding M, Zheng W, Hong W, et al. CogView2: Penjanaan Teks-ke-Imej yang Lebih Pantas dan Lebih Baik melalui Transformers Hierarki[J]. pracetak arXiv arXiv:2204.14217, 2022.

[4] Zhang H, Yin W, Fang Y, et al. ERNIE-ViLG: Pra-latihan generatif bersatu untuk penjanaan bahasa penglihatan dua arah[J]. pracetak arXiv arXiv:2112.15283, 2021.

[5] Yu J, Xu Y, Koh J Y, et al. Menskalakan Model Autoregresif untuk Penjanaan Teks-ke-Imej yang Kaya Kandungan[J]. pracetak arXiv arXiv:2206.10789, 2022.

[6] Wu C, Liang J, Hu X, et al. NUWA-Infinity: Autoregressive over Autoregressive Generation untuk Sintesis Visual Infinite[J]. pracetak arXiv arXiv:2207.09814, 2022.

[7] Ramesh A, Dhariwal P, Nichol A, et al. Penjanaan imej bersyarat teks hierarki dengan pendam klip[J]. pracetak arXiv arXiv:2204.06125, 2022.

[8] Nichol A, Dhariwal P, Ramesh A, et al. Glide: Ke arah penjanaan imej fotorealistik dan penyuntingan dengan model resapan berpandukan teks[J]. pracetak arXiv arXiv:2112.10741, 2021.

[9] Saharia C, Chan W, Saxena S, et al. Model Resapan Teks-ke-Imej Fotorealistik dengan Pemahaman Bahasa Mendalam[J]. pracetak arXiv arXiv:2205.11487, 2022.

[10] Rombach R, Blattmann A, Lorenz D, et al. Sintesis imej resolusi tinggi dengan model resapan terpendam[C]//Prosiding Persidangan IEEE/CVF tentang Penglihatan Komputer dan Pengecaman Corak. 2022: 10684-10695.

[11] Github: https://github.com/alembics/disco-diffusion

[12] Github: https://github.com/CompVis/stable-diffusion

Atas ialah kandungan terperinci Apabila AI bertemu dengan seni lukisan, apakah jenis percikan api yang akan muncul?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam