Langkah baharu ke arah penjanaan imej berkualiti tinggi: kaedah pensampelan ultra pantas UFOGen Google-AI-php.cn

Rumah

Peranti teknologi

Langkah baharu ke arah penjanaan imej berkualiti tinggi: kaedah pensampelan ultra pantas UFOGen Google

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Nov 20, 2023 pm 02:30 PM

aiModel

Pada tahun lalu, satu siri model penyebaran graf Vincentian yang diwakili oleh Stable Diffusion telah mengubah sepenuhnya bidang penciptaan visual. Banyak pengguna telah meningkatkan produktiviti mereka dengan imej yang dihasilkan oleh model penyebaran. Walau bagaimanapun, kelajuan penjanaan model penyebaran adalah masalah biasa. Oleh kerana model denoising bergantung pada denoising berbilang langkah untuk menukar hingar Gaussian awal secara beransur-ansur menjadi imej, ia memerlukan berbilang pengiraan rangkaian, menghasilkan kelajuan penjanaan yang sangat perlahan. Ini menjadikan model penyebaran graf Vincentian berskala besar sangat tidak mesra kepada sesetengah aplikasi yang memfokuskan pada masa nyata dan interaktiviti. Dengan pengenalan satu siri teknologi, bilangan langkah yang diperlukan untuk mengambil sampel daripada model penyebaran telah meningkat daripada beberapa ratus langkah awal kepada berpuluh-puluh langkah, atau bahkan hanya 4-8 langkah.

Baru-baru ini, pasukan penyelidik daripada Google mencadangkan model UFOGen, satu varian model resapan yang boleh mencuba dengan sangat cepat. Dengan memperhalusi Stable Diffusion dengan kaedah yang dicadangkan dalam kertas, UFOGen boleh menjana imej berkualiti tinggi dalam satu langkah sahaja. Pada masa yang sama, aplikasi hiliran Stable Diffusion, seperti penjanaan graf, ControlNet dan keupayaan lain, juga boleh dikekalkan.

Langkah baharu ke arah penjanaan imej berkualiti tinggi: kaedah pensampelan ultra pantas UFOGen Google

Sila klik pautan berikut untuk melihat kertas kerja: https://arxiv.org/abs/2311.09257

Seperti yang anda lihat dari gambar di bawah, UFO,Gen boleh menjana kualiti tinggi imej dalam satu langkah sahaja.

Langkah baharu ke arah penjanaan imej berkualiti tinggi: kaedah pensampelan ultra pantas UFOGen Google

Meningkatkan kelajuan penjanaan model resapan bukanlah hala tuju penyelidikan baharu. Penyelidikan terdahulu dalam bidang ini tertumpu terutamanya pada dua arah. Satu arah adalah untuk mereka bentuk kaedah pengiraan berangka yang lebih cekap,supaya mencapai tujuan menyelesaikan pensampelan ODE model resapan menggunakan langkah diskret yang lebih sedikit. Contohnya, siri penyelesai berangka DPM yang dicadangkan oleh pasukan Zhu Jun di Universiti Tsinghua telah disahkan sangat berkesan dalam Resapan Stabil, dan boleh mengurangkan dengan ketara bilangan langkah penyelesaian daripada 50 langkah lalai DDIM kepada kurang daripada 20 langkah. Arahan lain ialah menggunakan kaedah penyulingan pengetahuan untuk memampatkan laluan pensampelan berasaskan ODE model kepada bilangan langkah yang lebih kecil. Contoh ke arah ini ialah penyulingan Berpandu, salah satu calon kertas terbaik di CVPR2023, dan Model Ketekalan Terpendam (LCM) yang popular baru-baru ini. LCM, khususnya, boleh mengurangkan bilangan langkah pensampelan kepada hanya 4 dengan menyuling sasaran ketekalan, yang telah melahirkan banyak aplikasi penjanaan masa nyata.

Walau bagaimanapun, pasukan penyelidik Google tidak mengikut arahan umum di atas dalam model UFOGen, tetapi mengambil pendekatan berbeza dan menggunakan idea model hibrid model difusi dan GAN yang dicadangkan lebih setahun lalu. Mereka percaya bahawa pensampelan dan penyulingan berasaskan ODE yang dinyatakan di atas mempunyai had asasnya, dan sukar untuk memampatkan bilangan langkah pensampelan kepada had. Oleh itu, jika anda ingin mencapai matlamat generasi satu langkah, anda perlu membuka idea baharu.

Model hibrid merujuk kepada kaedah yang menggabungkan model resapan dan rangkaian musuh generatif (GAN). Kaedah ini pertama kali dicadangkan oleh pasukan penyelidik NVIDIA di ICLR 2022 dan dipanggil DDGAN ("Menggunakan Denoising Diffusion GAN untuk Menyelesaikan Tiga Masalah dalam Pembelajaran Generatif"). DDGAN diilhamkan oleh kelemahan model resapan biasa yang membuat andaian Gaussian tentang pengagihan pengurangan hingar. Ringkasnya, model resapan mengandaikan bahawa taburan denosing (taburan bersyarat yang, diberikan sampel bising, menghasilkan sampel yang kurang bising) ialah taburan Gaussian yang mudah. Walau bagaimanapun, teori persamaan pembezaan stokastik membuktikan bahawa andaian sedemikian hanya berlaku apabila saiz langkah pengurangan hingar menghampiri 0. Oleh itu, model resapan memerlukan sejumlah besar langkah denoising berulang untuk memastikan saiz langkah denoising yang kecil, menghasilkan kelajuan penjanaan yang perlahan DDGAN mencadangkan untuk meninggalkan andaian Gaussian bagi pengedaran denoising dan sebaliknya menggunakan GAN bersyarat untuk mensimulasikannya. Pengagihan pengurangan hingar ini. Oleh kerana GAN mempunyai keupayaan perwakilan yang sangat kuat dan boleh mensimulasikan pengedaran kompleks, saiz langkah pengurangan hingar yang lebih besar boleh digunakan untuk mengurangkan bilangan langkah. Walau bagaimanapun, DDGAN menukar matlamat latihan pembinaan semula yang stabil bagi model resapan kepada matlamat latihan GAN, yang boleh menyebabkan ketidakstabilan latihan dengan mudah dan menyukarkan untuk melanjutkan kepada tugas yang lebih kompleks. Di NeurIPS 2023, pasukan penyelidik Google yang sama yang mencipta UGOGen mencadangkan SIDDM (tajuk kertas Semi-Implicit Denoising Diffusion Models), yang memperkenalkan semula fungsi objektif pembinaan semula ke dalam objektif latihan DDGAN, meningkatkan kestabilan latihan dan kualiti penjanaan Semua meningkat dengan ketara berbanding DDGAN.

SIDDM, sebagai pendahulu UFOGen, boleh menjana imej berkualiti tinggi pada CIFAR-10, ImageNet dan set data penyelidikan lain dalam hanya 4 langkah. Tetapi SIDDM mempunyai dua masalah yang perlu diselesaikan: pertama, ia tidak boleh mencapai penjanaan satu langkah keadaan ideal kedua, ia tidak mudah untuk memanjangkannya ke bidang graf Vincentian yang lebih prihatin. Untuk tujuan ini, pasukan penyelidik Google mencadangkan UFOGen untuk menyelesaikan dua masalah ini.

Khususnya, untuk soalan satu, melalui analisis matematik mudah, pasukan mendapati bahawa dengan menukar kaedah parameterisasi penjana dan menukar kaedah pengiraan fungsi kehilangan pembinaan semula, model teori boleh dijana dalam satu langkah. Untuk soalan dua, pasukan mencadangkan untuk menggunakan model Stable Diffusion sedia ada untuk permulaan bagi membolehkan model UFOGen dikembangkan kepada tugas rajah Vincent dengan lebih pantas dan lebih baik. Perlu diingat bahawa SIDDM telah mencadangkan bahawa kedua-dua penjana dan diskriminasi mengguna pakai seni bina UNet Oleh itu, berdasarkan reka bentuk ini, penjana dan diskriminator UFOGen dimulakan oleh model Stable Diffusion. Melakukannya memanfaatkan sepenuhnya maklumat dalaman Stable Diffusion, terutamanya tentang hubungan antara imej dan teks. Maklumat sebegini sukar diperoleh melalui pembelajaran lawan. Algoritma latihan dan gambar rajah ditunjukkan di bawah.

Langkah baharu ke arah penjanaan imej berkualiti tinggi: kaedah pensampelan ultra pantas UFOGen Google

Perlu diperhatikan bahawa terdapat beberapa kerja sebelum ini menggunakan GAN untuk membuat graf Vincentian, seperti NVIDIA's StyleGAN-T dan Adobe's GigaGAN, yang telah mengembangkan seni bina asas StyleGAN kepada saiz yang lebih besar . skala, supaya gambar boleh dibuat dalam satu langkah. Pengarang UFOGen menegaskan bahawa berbanding dengan kerja berasaskan GAN sebelumnya, sebagai tambahan kepada kualiti penjanaan, UFOGen mempunyai beberapa kelebihan:

Kandungan yang ditulis semula: 1. Dalam tugas graf Vincentian, latihan rangkaian adversarial generatif tulen (GAN) adalah sangat tidak stabil. Diskriminasi bukan sahaja perlu menilai tekstur imej, tetapi juga perlu memahami tahap padanan antara imej dan teks, yang merupakan tugas yang sangat sukar, terutamanya pada peringkat awal latihan. Oleh itu, model GAN terdahulu, seperti GigaGAN, memperkenalkan sejumlah besar kerugian tambahan untuk membantu latihan, yang menjadikan latihan dan pelarasan parameter amat sukar. Walau bagaimanapun, UFOGen menjadikan GAN memainkan peranan tambahan dalam hal ini dengan memperkenalkan kerugian pembinaan semula, dengan itu mencapai latihan yang sangat stabil

2 Latihan GAN secara langsung bukan sahaja tidak stabil tetapi juga sangat mahal, terutamanya pada graf Vincent sejumlah besar data dan langkah latihan. Oleh kerana dua set parameter perlu dikemas kini pada masa yang sama, latihan GAN menggunakan lebih banyak masa dan memori daripada model resapan. Reka bentuk inovatif UFOGen boleh memulakan parameter daripada Stable Diffusion, dengan sangat menjimatkan masa latihan. Biasanya penumpuan hanya memerlukan puluhan ribu langkah latihan.

3 Salah satu daya tarikan model penyebaran graf Vincent ialah ia boleh digunakan untuk tugasan lain, termasuk aplikasi yang tidak memerlukan penalaan halus seperti graf graf, dan aplikasi yang sudah memerlukan penalaan halus seperti. generasi terkawal. Model GAN sebelum ini sukar untuk dipertingkatkan kepada tugas hiliran ini kerana penalaan halus GAN adalah sukar. Sebaliknya, UFOGen mempunyai rangka kerja model penyebaran dan oleh itu boleh digunakan dengan lebih mudah untuk tugas-tugas ini. Rajah di bawah menunjukkan graf penjanaan graf UFOGen dan contoh penjanaan boleh dikawal Ambil perhatian bahawa penjanaan ini hanya memerlukan satu langkah persampelan.

Langkah baharu ke arah penjanaan imej berkualiti tinggi: kaedah pensampelan ultra pantas UFOGen Google

Percubaan telah menunjukkan bahawa UFOGen boleh menjana imej berkualiti tinggi yang sepadan dengan penerangan teks dalam hanya satu langkah pensampelan. Berbanding dengan kaedah pensampelan berkelajuan tinggi yang dicadangkan baru-baru ini untuk model resapan (seperti Instaflow dan LCM), UFOGen menunjukkan daya saing yang kukuh. Malah berbanding dengan Resapan Stabil, yang memerlukan 50 langkah persampelan, sampel yang dihasilkan oleh UFOGen tidaklah lebih rendah dari segi rupa. Berikut ialah beberapa hasil perbandingan:

Langkah baharu ke arah penjanaan imej berkualiti tinggi: kaedah pensampelan ultra pantas UFOGen Google

Ringkasan

Pasukan Google mencadangkan model berkuasa yang dipanggil UFOGen, yang dilaksanakan dengan menambah baik model penyebaran sedia ada dan model hibrid GAN. Model ini diperhalusi oleh Stable Diffusion, dan sambil memastikan keupayaan untuk menjana graf dalam satu langkah, ia juga sesuai untuk aplikasi hiliran yang berbeza. Sebagai salah satu kerja awal untuk mencapai sintesis teks-ke-imej yang sangat pantas, UFOGen telah membuka laluan baharu dalam bidang model generatif berkecekapan tinggi

Atas ialah kandungan terperinci Langkah baharu ke arah penjanaan imej berkualiti tinggi: kaedah pensampelan ultra pantas UFOGen Google. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Cara Membina Pembantu AI Peribadi Anda Dengan Huggingface SmollmApr 18, 2025 am 11:52 AM

Memanfaatkan kuasa AI di peranti: Membina CLI Chatbot Peribadi Pada masa lalu, konsep pembantu AI peribadi kelihatan seperti fiksyen sains. Bayangkan Alex, seorang peminat teknologi, bermimpi seorang sahabat AI yang pintar, yang tidak bergantung

AI untuk Kesihatan Mental dianalisis dengan penuh perhatian melalui inisiatif baru yang menarik di Stanford UniversityApr 18, 2025 am 11:49 AM

Pelancaran AI4MH mereka berlaku pada 15 April, 2025, dan Luminary Dr. Tom Insel, M.D., pakar psikiatri yang terkenal dan pakar neurosains, berkhidmat sebagai penceramah kick-off. Dr. Insel terkenal dengan kerja cemerlangnya dalam penyelidikan kesihatan mental dan techno

Kelas Draf WNBA 2025 memasuki liga yang semakin meningkat dan melawan gangguan dalam talianApr 18, 2025 am 11:44 AM

"Kami mahu memastikan bahawa WNBA kekal sebagai ruang di mana semua orang, pemain, peminat dan rakan kongsi korporat, berasa selamat, dihargai dan diberi kuasa," kata Engelbert, menangani apa yang telah menjadi salah satu cabaran sukan wanita yang paling merosakkan. Anno

Panduan Komprehensif untuk Struktur Data Terbina Python - Analytics VidhyaApr 18, 2025 am 11:43 AM

Pengenalan Python cemerlang sebagai bahasa pengaturcaraan, terutamanya dalam sains data dan AI generatif. Manipulasi data yang cekap (penyimpanan, pengurusan, dan akses) adalah penting apabila berurusan dengan dataset yang besar. Kami pernah meliputi nombor dan st

Tayangan pertama dari model baru Openai berbanding dengan alternatifApr 18, 2025 am 11:41 AM

Sebelum menyelam, kaveat penting: Prestasi AI adalah spesifik yang tidak ditentukan dan sangat digunakan. Dalam istilah yang lebih mudah, perbatuan anda mungkin berbeza -beza. Jangan ambil artikel ini (atau lain -lain) sebagai perkataan akhir -sebaliknya, uji model ini pada senario anda sendiri

AI Portfolio | Bagaimana untuk membina portfolio untuk kerjaya AI?Apr 18, 2025 am 11:40 AM

Membina portfolio AI/ML yang menonjol: Panduan untuk Pemula dan Profesional Mewujudkan portfolio yang menarik adalah penting untuk mendapatkan peranan dalam kecerdasan buatan (AI) dan pembelajaran mesin (ML). Panduan ini memberi nasihat untuk membina portfolio

AI AI apa yang boleh dimaksudkan untuk operasi keselamatanApr 18, 2025 am 11:36 AM

Hasilnya? Pembakaran, ketidakcekapan, dan jurang yang melebar antara pengesanan dan tindakan. Tak satu pun dari ini harus datang sebagai kejutan kepada sesiapa yang bekerja dalam keselamatan siber. Janji Agentic AI telah muncul sebagai titik perubahan yang berpotensi. Kelas baru ini

Google Versus Openai: AI berjuang untuk pelajarApr 18, 2025 am 11:31 AM

Impak segera berbanding perkongsian jangka panjang? Dua minggu yang lalu Openai melangkah ke hadapan dengan tawaran jangka pendek yang kuat, memberikan akses kepada pelajar A.S. dan Kanada.

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

3 minggu yang laluByDDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

2 minggu yang laluByDDD

Di mana untuk mencari kad kunci kawalan kren di atomfall

3 minggu yang laluByDDD

Penjimatan di R.E.P.O. Dijelaskan (dan simpan fail)

1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows - Cara Mencari Orang Panda

4 minggu yang laluByDDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SecLists

SecLists ialah rakan penguji keselamatan muktamad. Ia ialah koleksi pelbagai jenis senarai yang kerap digunakan semasa penilaian keselamatan, semuanya di satu tempat. SecLists membantu menjadikan ujian keselamatan lebih cekap dan produktif dengan menyediakan semua senarai yang mungkin diperlukan oleh penguji keselamatan dengan mudah. Jenis senarai termasuk nama pengguna, kata laluan, URL, muatan kabur, corak data sensitif, cangkerang web dan banyak lagi. Penguji hanya boleh menarik repositori ini ke mesin ujian baharu dan dia akan mempunyai akses kepada setiap jenis senarai yang dia perlukan.