Rumah >Peranti teknologi >AI >Kebangkitan rangkaian GAN generasi kedua? Grafik DALL·E Mini sangat mengerikan sehingga orang asing menjadi gila!
Kini, model graf berasaskan teks yang dihasilkan oleh syarikat utama seperti Google dan OpenAI adalah nadi kepada pemberita berita yang menarik dan nektar kemarau panjang bagi pencinta meme. Dengan memasukkan perkataan, anda boleh menghasilkan pelbagai gambar yang cantik atau lucu, yang boleh menarik perhatian orang ramai tanpa memenatkan atau menyusahkan. Oleh itu, siri DALL·E dan Imagens mempunyai sifat penting makanan dan pakaian serta kemarau jangka panjang: tahap ketersediaan adalah terhad, dan ia bukan faedah yang boleh diedarkan tanpa had pada bila-bila masa. Pada pertengahan Jun 2022, Syarikat Hugging Face mendedahkan sepenuhnya versi antara muka DALL·E yang mudah digunakan dan ringkas: DALL·E Mini kepada semua pengguna di seluruh rangkaian secara percuma, ia menyebabkan satu lagi gelombang besar pada pelbagai laman web media sosial.
Kini terdapat orang di pelbagai media sosial Berkata: Bermain DALL·E Mini terasa hebat untuk seketika, dan ia sentiasa berasa hebat. Apakah yang perlu saya lakukan jika saya tidak boleh berhenti sama sekali? Seperti "najis di atas papan selaju", geseran dan geseran, seperti rentak syaitan.
Sesetengah orang suka membuat "ciptaan biasa", seperti "Corgi Zebra" yang memecahkan sempadan spesies.
Sekiranya penjawat awam purba mempunyai bahan-bahan ini, mereka tidak perlu bekerja keras untuk mencipta zirafah Afrika menjadi haiwan mitos Kirin. Para pengekod di GitHub adalah benar kepada profesion mereka dan menyiarkan hasil kerja "Squirrel Programming with Computers" di Twitter rasmi.
"Godzilla's Court Sketches", saya harus katakan, ia benar-benar kelihatan seperti yang dilihat dalam akhbar dalam bahasa Inggeris- negara bercakap, Laporan ala lakaran tentang perbicaraan kes yang tidak terbuka kepada orang ramai.
"Care Bears merompak kedai serbaneka". Mengapa berhala kartun jatuh seperti ini? Adakah ini penyelewengan sifat beruang atau hilangnya akhlak...
Kecuali Selain itu, DALL·E Mini juga mempunyai pencapaian cemerlang dalam menghasilkan imej "binatang mitos ditangkap berjalan di atas denai liar". Ini ialah "dinasour kecil berjalan di laluan liar, ditangkap pada kamera."
Ini ialah "tanda dagangan Duolingo Parrot berjalan di atas denai liar, ditangkap pada kamera".
Gambar berjalan haiwan mitos yang dihasilkan oleh DALL·E Mini sangat sunyi dan sunyi sepi. Tetapi ini mungkin kesan fotografi cahaya rendah yang disimulasikan oleh AI. Semua orang di jabatan editorial juga menirunya: "Berjalan di atas jalan di atas rumput dan kuda lumpur", dan nadanya menjadi lebih cerah dan lebih cerah.
Imej tuhan dan manusia yang dihasilkan oleh DALL·E Mini tidak lebih buruk daripada imej binatang mitos. Sebagai contoh, dalam gambar "Jesus' Fiery Break Dance" ini, saya benar-benar tidak tahu bahawa tubuhnya begitu fleksibel Nampaknya iklan "Stretching Exercises with the Lord" di pelbagai laman web kecergasan adalah bersebab.
Ada juga "rapper Gou Ye pada kaca berwarna" ini, bukan? benar-benar mempunyai gaya tingkap ikon gereja dan lukisan impresionis.
Menggunakan DALL·E Mini untuk menipu watak dalam industri filem dan televisyen telah menjadi fesyen sekarang. Berikut ialah "R2D2's Baptism" dari alam semesta Star Wars. Mungkin undang-undang fizik dan kimia di alam semesta Star Wars berbeza daripada yang di dunia nyata Robot tidak akan bocor elektrik atau berkarat selepas terdedah kepada air.
"Memancing Ais Darth Vader" juga dari alam semesta Star Wars, Cikgu Darth Vader sungguh menyedihkan. Dia ditebang oleh tuannya dan dipaksa mandi dalam lahar gunung berapi Selepas menjadi orang kurang upaya, dia dikejar oleh anaknya sendiri Setelah menguasai kekuatan dengan alat pernafasan, orang cacat itu diturunkan ke bumi untuk bersaing dengan orang Eskimo untuk perniagaan...
Ada juga gambar " Walter White secara tidak sengaja memasuki dunia Animal Crossing", raja dadah janda botak yang kesepian tiba-tiba Ia menjadi comel. Sayang sekali bahawa Nintendo tidak benar-benar melancarkan Animal Crossing pada tahun 2000-an, jika tidak, saya akan mendapati bahawa membuat wang melalui transaksi maya dalam Animal Crossing adalah lebih bebas masalah dan bebas masalah daripada bekerja keras untuk membuat fizikal berbentuk ais biru. barangan untuk menyara keluarga saya. Marilah kita menyanyikan "Tolak pornografi~tolak dadah~tolak lucah, judi dan dadah~".
Gambar "Thanos mencari ibunya di pasar raya" ini sangat sesuai dengan inti watak dan sangat profesional dalam tafsiran drama bank. Jika anda tidak berpuas hati, anda akan terlibat dalam pembunuhan beramai-ramai, dan jika anda tidak bersetuju, anda akan memusnahkan alam semesta Ini adalah watak bayi gergasi yang akan menangis pahit apabila dia tidak dapat mencari ibunya.
Namun, ciptaan ini semuanya berperisa ringan, berbanding dengan Kesu berperisa berat Karya-karya pencinta Lu hanya berair. Sebagai contoh, gambar "Elon Musk memainkan Badut Retak" ini agak menakutkan.
"The Devil main basketball lepas tengok gambar ni, editor memang tak berani nak teruskan ". Stranger Things" 》Drama ini.
Protagonis pelbagai siri filem seram juga muncul dalam karya, seperti ini "Topeng" Jason makan burrito"
Ada juga "A Nightmare on Elm Street" ini " "Makan Pasta"... Coraknya sangat menakutkan sehingga mengingatkan editor pada zaman hijau apabila menonton filem seram ini di era DVD dan ketakutan sehingga panik.
Walau bagaimanapun, kesusasteraan dan seni popular kontemporari kurang menakutkan daripada seni klasik, seperti lukisan ini "Komi Frog in Goya" Fotogenik dalam lukisan minyak "The Torma of the God of Agriculture". AI menggabungkan kartun kontemporari dengan lukisan minyak ekspresionis abad ke-19, yang boleh menakutkan sesiapa sahaja yang melihatnya buat kali pertama dengan peluh sejuk mengalir di tulang belakang mereka.
Ada juga "Death clicks on the Golden Arches" selepas membaca ini, anda masih akan berani pergi untuk bekerja dan pergi ke sekolah pada masa hadapan Lewat?
Sudah tentu, pembaca yang berhati-hati dan mengikuti dinamik siri DALL·E akan mendapati terdapat perbezaan yang jelas dalam gambar yang dihasilkan oleh DALL·E Mini dan model besar DALL·E sebelum ini: DALL ·E Mini menjana Dalam potret, wajah adalah kabur daripada yang asalnya dihasilkan oleh DALL·E. Boris Dayma, pembangun utama projek DALL·E Mini, menjelaskan dalam nota pembangunan: Ini adalah versi mesra rakyat dengan spesifikasi yang dikurangkan Demo hanya mempunyai 60 baris kod, dan adalah perkara biasa untuk fungsinya lemah .
Berikut ialah penjelasan Boris Dayma tentang projek itu dalam notanya. Mari kita lihat pelaksanaan khusus projek itu akan menghasilkan gambar yang sepadan berdasarkan teks:
Ayat mudah, dan yang berikut ialah kerusi berlengan alpukat yang berkelip-kelip ke angkasa~ Model menggunakan tiga set data:
1 "Konseptual" yang mengandungi 3 juta imej dan pasangan tajuk Set Data Kapsyen";
2. Subset AI Terbuka "YFCC100M", yang mengandungi kira-kira 15 juta imej, bagaimanapun, disebabkan pertimbangan ruang penyimpanan, pengarang memproses 2 juta imej. Gunakan tajuk dan perihalan teks sebagai teg pada masa yang sama, dan padamkan teg html, pemisah baris dan ruang tambahan yang sepadan;
3.
Dalam fasa latihan:
1 Mula-mula, imej akan dikodkan oleh pengekod VQGAN, dengan tujuan menukar imej kepada urutan token
2 . Teks yang sepadan dengan imej Penerangan akan dikodkan oleh pengekod BART; penyahkod ialah model autoregresif. Tujuannya adalah untuk meramalkan jujukan token seterusnya; dan pengekodan imej sebenar VQGAN.
Dalam fasa inferens, pengarang hanya menggunakan tag pendek dan cuba menjana imej yang sepadan Proses khusus adalah seperti berikut:1. Tag akan Pengekodan melalui pengekod BART;
2.
Bendera jujukan yang memainkan peranan khas - bendera permulaan, akan dihantar ke penyahkod BART 3 Pengedaran yang diramalkan oleh penyahkod pada token seterusnya, token imej akan dijadikan sampel mengikut urutan; Akhir sekali, "CLIP" akan memilih hasil generasi terbaik untuk kita.Model Seq2Seq menukar satu jujukan token kepada jujukan token lain dan biasanya digunakan dalam NLP untuk tugasan seperti terjemahan, ringkasan atau pemodelan perbualan. Idea yang sama juga boleh dipindahkan ke medan CV jika imej dikodkan ke dalam token diskret. Model ini menggunakan BART, dan pengarang hanya memperhalusi seni bina asal: 1 Mencipta lapisan benam bebas untuk pengekod dan penyahkod (apabila terdapat jenis input dan output yang sama, kedua-duanya Biasanya boleh. dikongsi); 2. Laraskan bentuk input dan output penyahkod supaya konsisten dengan saiz VQGAN (langkah ini tidak memerlukan lapisan benam perantaraan); jujukan yang dijana mempunyai 256 token (
dan sebagai tanda mula dan tamat jujukan tidak disertakan di sini).
KLIP digunakan untuk mewujudkan perhubungan antara imej dan teks dan dilatih menggunakan pembelajaran kontrastif, termasuk memaksimumkan produk (kesamaan kosinus) antara imej dan darjah pemasukan pasangan teks, yang ialah produk antara sampel positif) dan meminimumkan pasangan tidak berkorelasi (iaitu sampel negatif). Apabila menjana imej, pengarang mengambil sampel secara rawak label imej mengikut taburan logit model, yang menghasilkan sampel yang berbeza dan kualiti yang tidak konsisten bagi imej yang dijana. CLIP membenarkan pemarkahan imej yang dijana berdasarkan penerangan input, dengan itu memilih sampel terjana terbaik. Dalam fasa inferens, versi OpenAI yang telah dilatih digunakan secara langsung.
1 DALL·E menggunakan versi 12 bilion parameter GPT-3. Sebagai perbandingan, model pengarang adalah 27 kali lebih besar dan mempunyai kira-kira 400 juta parameter.
2. Pengarang menggunakan model pra-latihan secara meluas (VQGAN, pengekod BART dan CLIP), manakala OpenAI mesti melatih semua model dari awal. Seni bina model mengambil kira model pra-latihan yang ada dan kecekapannya.
3. DALL·E mengekod imej menggunakan bilangan token yang lebih besar (1,024 lwn 256) daripada perbendaharaan kata yang lebih kecil (8,192 lwn 16,384).
4. DALL·E menggunakan VQVAE, manakala pengarang menggunakan VQGAN. DALL·E membaca teks dan imej sebagai satu aliran data apabila pengarang memisahkan antara pengekod dan penyahkod Seq2Seq. Ini juga membolehkan mereka menggunakan perbendaharaan kata yang berasingan untuk teks dan imej.
5. DALL·E membaca teks melalui model autoregresif, manakala pengarang menggunakan pengekod dua arah.
6 DALL·E melatih 250 juta pasangan imej dan teks, manakala pengarang hanya menggunakan 15 juta pasangan. daripada.
7. DALL·E menggunakan lebih sedikit token (sehingga 256 VS 1024) dan perbendaharaan kata yang lebih kecil (16384 VS 50264) untuk mengekod teks. Dalam latihan VQGAN, penulis mula-mula bermula dari pusat pemeriksaan pra-latihan di ImageNet, dengan faktor mampatan f=16 dan saiz perbendaharaan kata 16,384. Walaupun sangat cekap dalam pengekodan pelbagai imej, pusat pemeriksaan pra-latihan tidak pandai mengekod orang dan muka (kerana kedua-duanya tidak biasa dalam ImageNet), jadi penulis memutuskan untuk mengujinya pada contoh awan 2 x RTX A6000 Kira-kira 20 jam penalaan halus. Jelas sekali, kualiti imej yang dihasilkan pada wajah manusia tidak banyak bertambah baik, dan ia mungkin "keruntuhan model". Setelah model dilatih, kami menukar model Pytorch kepada JAX untuk digunakan dalam peringkat seterusnya.
Latihan DALL·E Mini: Model ini menggunakan pengaturcaraan JAX, menggunakan sepenuhnya kelebihan TPU. Pengarang pra-kod semua imej dengan pengekod imej untuk pemuatan data yang lebih pantas. Semasa latihan, pengarang dengan cepat menentukan beberapa parameter yang hampir boleh dilaksanakan:
1 Pada setiap langkah, saiz kelompok setiap TPU ialah 56, iaitu memori maksimum yang tersedia untuk setiap TPU
2 . Pengumpulan kecerunan: saiz saiz kumpulan yang berkesan ialah 56 × 8 cip TPU × 8 langkah = 3,584 imej dikemas kini setiap kali
3 Kecekapan memori pengoptimum Adafactor membolehkan kami menggunakan saiz kumpulan yang lebih tinggi; 🎜>4. 2000 langkah "pemanasan badan" dan kadar pembelajaran yang mereput secara linear. Penulis menghabiskan hampir setengah hari untuk mencari kadar pembelajaran yang baik untuk model dengan melancarkan carian hiperparameter. Di sebalik setiap model NB, mungkin terdapat proses yang teliti untuk mencari hiperparameter! Selepas penerokaan awal pengarang, beberapa kadar pembelajaran yang berbeza telah dicuba dalam tempoh masa yang panjang sehingga mereka akhirnya menetap pada 0.005.
Atas ialah kandungan terperinci Kebangkitan rangkaian GAN generasi kedua? Grafik DALL·E Mini sangat mengerikan sehingga orang asing menjadi gila!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!