Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - 'platform tersuai arXiv' bagi pasukan visual teratas universiti Jerman-AI-php.cn

Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - 'platform tersuai arXiv' bagi pasukan visual teratas universiti Jerman

王林

Dec 27, 2023 pm 05:49 PM

sistemmengesyorkanJepun

Imej dijana dalam 10 milisaat, dan 6,000 imej dijana dalam 1 minit Apakah konsepnya?

Dalam gambar di bawah, anda boleh merasai kuasa super AI. .

Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - platform tersuai arXiv bagi pasukan visual teratas universiti Jerman Gambar

Kelajuan penjanaan gambar masa nyata yang menakjubkan adalah hasil daripada StreamDiffusion yang dicadangkan oleh penyelidik dari UC Berkeley, Universiti Tsukuba, dsb.

Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - platform tersuai arXiv bagi pasukan visual teratas universiti Jerman Penyelesaian serba baharu ini ialah proses model penyebaran yang membolehkan penjanaan imej interaktif masa nyata pada lebih 100fps.

Gambar

Alamat kertas: https://arxiv.org/abs/2312.12491

Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - platform tersuai arXiv bagi pasukan visual teratas universiti Jerman StreamDiffusion secara langsung mendominasi sumber terbuka GitHub.

Pictures

StreamDiffusion secara inovatif menggunakan strategi pemprosesan kelompok dan bukannya denoising jujukan, iaitu kira-kira 1.5 kali lebih cepat daripada kaedah tradisional. Selain itu, algoritma panduan bebas pengelas sisa (RCFG) baharu yang dicadangkan oleh pengarang boleh 2.05 kali lebih pantas daripada panduan bebas pengelas tradisional.

Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - platform tersuai arXiv bagi pasukan visual teratas universiti Jerman Perkara yang paling penting ialah kaedah baharu itu boleh mencapai kelajuan penjanaan imej-ke-imej sebanyak 91.07fps pada RTX 4090.

Gambar

Pada masa hadapan, dalam senario yang berbeza seperti metaverse, pemaparan grafik permainan video dan penstriman video secara langsung, penjanaan pantas StreamDiffusion dapat memenuhi keperluan daya pemprosesan yang tinggi bagi aplikasi ini.

Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - platform tersuai arXiv bagi pasukan visual teratas universiti Jerman Khususnya, penjanaan imej masa nyata boleh memberikan keupayaan pengeditan dan kreatif yang hebat untuk mereka yang bekerja dalam pembangunan permainan dan pemaparan video. .

Contoh biasa ialah menggunakan model resapan untuk mencipta watak maya VTuber - dapat bertindak balas dengan lancar kepada input pengguna.

Gambar

Untuk meningkatkan daya pemprosesan tinggi dan keupayaan interaksi masa nyata, hala tuju penyelidikan semasa tertumpu terutamanya pada mengurangkan bilangan lelaran denoising, seperti mengurangkannya daripada 50 lelaran kepada beberapa, atau satu. Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - platform tersuai arXiv bagi pasukan visual teratas universiti Jerman

Strategi biasa adalah untuk memperhalusi model resapan berbilang langkah kepada beberapa langkah dan membina semula proses resapan menggunakan ODE. Untuk meningkatkan kecekapan, model resapan juga telah dikira.

Dalam kertas terbaharu, penyelidik bermula dari arah ortogon dan memperkenalkan StreamDiffusion - saluran paip resapan masa nyata yang direka untuk penjanaan imej interaktif yang tinggi.

Kerja reka bentuk model sedia ada boleh disepadukan dengan StreamDiffusion sambil juga menggunakan model penyebaran denoising N-step untuk mengekalkan daya pemprosesan yang tinggi dan menyediakan pengguna dengan pilihan yang lebih fleksibel

Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - platform tersuai arXiv bagi pasukan visual teratas universiti Jerman Gambar

Penjanaan imej masa nyata｜Lajur pertama dan kedua: contoh lukisan masa nyata berbantukan AI, lajur ketiga: pemaparan masa nyata ilustrasi 2D daripada avatar 3D. Lajur 4 dan 5: Penapis kamera langsung. Penjanaan imej masa nyata |. Lajur pertama dan kedua menunjukkan contoh lukisan masa nyata berbantukan AI, dan lajur ketiga menunjukkan proses menjana ilustrasi 2D dengan memaparkan avatar 3D dalam masa nyata. Lajur keempat dan kelima menunjukkan kesan penapis kamera masa nyata

Bagaimana ia dilaksanakan secara khusus?

StreamDiffusion Architecture

StreamDiffusion ialah saluran paip resapan baharu yang direka untuk meningkatkan daya pemprosesan.

Ia terdiri daripada beberapa bahagian penting:

Strategi pemprosesan batch penstriman, panduan bebas pengelas sisa (RCFG), baris gilir input dan output, penapis persamaan stokastik (Penapis Keserupaan Stochastic), program pra-pengiraan, pengekod autoelerasi mikro alatan.

Batch denoising

Dalam model resapan, langkah denoising dilakukan mengikut turutan, yang menyebabkan masa pemprosesan U-Net meningkat mengikut perkadaran dengan bilangan langkah.

Walau bagaimanapun, untuk menghasilkan imej kesetiaan tinggi, bilangan langkah perlu ditambah.

Untuk menyelesaikan masalah penjanaan kependaman tinggi dalam penyebaran interaktif, penyelidik mencadangkan kaedah yang dipanggil Stream Batch.

Seperti yang ditunjukkan dalam rajah di bawah, dalam kaedah terkini, dan bukannya menunggu satu imej dibatalkan sepenuhnya sebelum memproses imej input seterusnya, imej input seterusnya diterima selepas setiap langkah denoise.

Ini membentuk kumpulan denoising, dan langkah denosing untuk setiap imej adalah berperingkat.

Dengan menggabungkan langkah denoising bersilang ini ke dalam satu kelompok, penyelidik boleh menggunakan U-Net untuk memproses kumpulan input berturut-turut dengan cekap.

Imej input yang dikodkan pada langkah masa t dijana dan dinyahkod pada langkah masa t+n, dengan n ialah bilangan langkah penyahkodan. . . Algoritma untuk meningkatkan kesan keadaan asal.

Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - platform tersuai arXiv bagi pasukan visual teratas universiti Jerman Gambar

Ini boleh membawa faedah seperti meningkatkan kesan gesaan.

Walau bagaimanapun, untuk mengira bunyi sisa bersyarat negatif, setiap pembolehubah pendam input perlu digandingkan dengan pembenaman bersyarat negatif dan dihantar ke U-Net pada setiap masa inferens.

Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - platform tersuai arXiv bagi pasukan visual teratas universiti Jerman Untuk menyelesaikan masalah ini, penulis memperkenalkan residual classifier-free bootstrapping (RCFG) yang inovatif

Kaedah ini menggunakan bunyi sisa maya untuk menghampiri keadaan negatif, jadi kita hanya perlu Mampu mengira bunyi bersyarat negatif, sekali gus mengurangkan dengan ketara kos pengiraan inferens U-Net tambahan apabila pembenaman bersyarat negatif

Baris gilir input dan output

Tukar imej input kepada pemformatan data tensor yang boleh diuruskan saluran paip, sebaliknya, sebaliknya, sebaliknya. kepada imej output memerlukan masa pemprosesan tambahan yang tidak boleh diabaikan.

Untuk mengelakkan penambahan masa pemprosesan imej ini pada saluran paip inferens rangkaian saraf, kami mengasingkan imej pra dan pasca pemprosesan kepada urutan yang berbeza, membolehkan pemprosesan selari.

Selain itu, dengan menggunakan baris gilir tensor input, ia juga boleh mengatasi gangguan sementara dalam imej input yang disebabkan oleh kegagalan peranti atau ralat komunikasi, membolehkan penstriman lancar.

gambar

Penapis Persamaan Stokastik

Seperti yang ditunjukkan di bawah, saluran paip inferens resapan teras termasuk VAE dan U-Net.

Meningkatkan kelajuan saluran paip inferens dan mendayakan penjanaan imej masa nyata dengan memperkenalkan penomboran batching dan cache pembenaman pembayang pra-pengiraan, cache hingar sampel dan cache nilai penjadual.

Penapisan Kesamaan Stokastik (SSF) direka untuk menjimatkan penggunaan kuasa GPU dan boleh menutup saluran paip model penyebaran secara dinamik, dengan itu mencapai inferens masa nyata yang pantas dan cekap.

Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - platform tersuai arXiv bagi pasukan visual teratas universiti Jerman Imej

Pracomputation

Seni bina U-Net memerlukan pembolehubah pendam input dan pembenaman bersyarat.

Biasanya, pembenaman bersyarat diperoleh daripada "pembenaman pembayang" dan kekal tidak berubah antara bingkai yang berbeza.

Untuk mengoptimumkan ini, penyelidik mengira pra-pengiraan benam pembayang dan menyimpannya dalam cache. Dalam mod interaktif atau penstriman, cache pembenaman pembayang prakira ini ditarik balik.

Dalam U-Net, pengiraan kunci dan nilai bagi setiap bingkai dilaksanakan berdasarkan pembenaman petunjuk pra-pengiraan

Oleh itu, penyelidik mengubah suai U-Net untuk menyimpan pasangan kunci dan nilai ini, menjadikannya boleh digunakan semula . Setiap kali gesaan input dikemas kini, penyelidik mengira semula dan mengemas kini pasangan kunci dan nilai ini dalam U-Net.

Model Acceleration and Tiny Autoencoders

Untuk mengoptimumkan kelajuan, kami mengkonfigurasi sistem untuk menggunakan saiz kelompok statik dan saiz input tetap (tinggi dan lebar).

Pendekatan ini memastikan graf pengiraan dan peruntukan memori dioptimumkan untuk saiz input tertentu, menghasilkan pemprosesan yang lebih pantas.

Walau bagaimanapun, ini bermakna jika anda perlu memproses imej bentuk yang berbeza (iaitu ketinggian dan lebar yang berbeza), gunakan saiz kelompok yang berbeza (termasuk saiz kelompok untuk langkah denoising).

Penilaian eksperimen

Penilaian kuantitatif kumpulan penolakan

Rajah 8 menunjukkan perbandingan kecekapan penolakan kelompok dan gelung U-Net berjujukan asal

melaksanakan strategi pemrosesan apabila saya gagal bertambah baik dengan ketara. Ini mengurangkan masa separuh berbanding gelung U-Net tradisional dengan langkah denoising berurutan.

Walaupun dengan alat pecutan modul saraf TensorRT digunakan, pemprosesan kelompok aliran yang dicadangkan oleh penyelidik masih boleh meningkatkan kecekapan saluran paip resapan berjujukan asal dalam langkah penyahnosan yang berbeza dengan ketara.

Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - platform tersuai arXiv bagi pasukan visual teratas universiti Jerman Image

Selain itu, penyelidik membandingkan kaedah terkini dengan saluran paip AutoPipeline-ForImage2Image yang dibangunkan oleh Huggingface Diffusers.

Perbandingan masa inferens purata ditunjukkan dalam Jadual 1. Saluran paip terkini menunjukkan bahawa kelajuan telah dipertingkatkan dengan banyak.

Apabila menggunakan TensorRT, StreamDiffusion mampu mencapai kelajuan 13x ganda apabila menjalankan 10 langkah denoising. Apabila hanya satu langkah denoising terlibat, peningkatan kelajuan boleh mencecah 59.6 kali

Walaupun tanpa TensorRT, StreamDiffusion adalah 29.7 kali lebih pantas daripada AutoPipeline apabila menggunakan denoising satu langkah, dan bertambah baik apabila menggunakan denoising 10 langkah 8.3 kali.

Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - platform tersuai arXiv bagi pasukan visual teratas universiti Jerman Gambar

Jadual 2 membandingkan masa inferens saluran paip resapan aliran menggunakan RCFG dan CFG biasa.

Dalam kes denoising satu langkah, masa inferens Onetime-Negatif RCFG dan CFG tradisional adalah hampir sama.

Jadi masa inferens RCFG Sekali dan CFG tradisional dalam denoising satu langkah adalah hampir sama. Walau bagaimanapun, apabila bilangan langkah denoising meningkat, peningkatan kelajuan inferens daripada CFG tradisional kepada RCFG menjadi lebih jelas.

Dalam langkah 5 menafikan, RCFG Negatif Sendiri adalah 2.05 kali lebih pantas daripada CFG tradisional, dan RCFG Onetime-Negatif ialah 1.79 kali lebih pantas daripada CFG tradisional.

Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - platform tersuai arXiv bagi pasukan visual teratas universiti Jerman Pictures

Selepas ini, penyelidik menjalankan penilaian menyeluruh terhadap penggunaan tenaga SSF yang dicadangkan. Keputusan proses ini boleh dilihat dalam Rajah 6 dan Rajah 7

Angka-angka ini menggambarkan corak penggunaan GPU apabila menggunakan SSF (menetapkan ambang η kepada 0.98) pada video input kepada adegan yang mengandungi ciri statik berkala

Analisis perbandingan menunjukkan bahawa apabila imej input kebanyakannya adalah imej statik dan mempunyai tahap persamaan yang tinggi, menggunakan SSF boleh mengurangkan penggunaan GPU dengan ketara.

Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - platform tersuai arXiv bagi pasukan visual teratas universiti Jerman Gambar

Kajian Ablasi

Kesan modul berbeza pada purata masa inferens di bawah langkah denoising berbeza ditunjukkan dalam Jadual 3. Seperti yang dapat dilihat, pengurangan modul yang berbeza disahkan dalam proses penjanaan imej-ke-imej. 🎙 , tanpa menggunakan sebarang bentuk CFG, menunjukkan isyarat penjajaran yang lemah, terutamanya dalam aspek seperti perubahan warna atau menambah elemen yang tidak wujud, yang tidak dilaksanakan dengan cekap.

Sebaliknya, penggunaan CFG atau RCFG meningkatkan keupayaan untuk mengubah suai imej asal, seperti menukar warna rambut, menambah corak badan, atau termasuk objek seperti cermin mata. Terutama, penggunaan RCFG boleh meningkatkan pengaruh isyarat berbanding dengan CFG standard. Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - platform tersuai arXiv bagi pasukan visual teratas universiti Jerman

Gambar

Akhir sekali, kualiti hasil penjanaan teks-ke-imej standard ditunjukkan dalam Rajah 11.

Menggunakan model sd-turbo, anda boleh menjana imej berkualiti tinggi seperti yang ditunjukkan dalam Rajah 11 dalam satu langkah sahaja.

Apabila menggunakan saluran paip resapan aliran dan model sd-turbo yang dicadangkan oleh penyelidik untuk menjana imej dalam persekitaran GPU: RTX 4090, CPU: Core i9-13900K, OS: Ubuntu 22.04.3 LTS, ia mencapai lebih 100fps Ia boleh dilakukan untuk menghasilkan imej berkualiti tinggi pada kadar yang pantas. .

Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - platform tersuai arXiv bagi pasukan visual teratas universiti Jerman Gambar

Alamat projek: https://github.com/cumulo-autumn/StreamDiffusion

Ramai netizen sudah mula menjana isteri dua dimensi sendiri.

Gambar

Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - platform tersuai arXiv bagi pasukan visual teratas universiti Jerman Terdapat juga animasi masa nyata orang sebenar.

Gambar

10x penjanaan lukisan tangan kelajuan.

Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - platform tersuai arXiv bagi pasukan visual teratas universiti Jerman

Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - platform tersuai arXiv bagi pasukan visual teratas universiti Jerman Gambar

Bagi yang berminat dengan kasut kanak-kanak, apa kata buat sendiri.

Rujukan:

https://www.php.cn/link/f9d8bf6b7414e900118caa579ea1b7be

99 3aefba4f6cb07254637a6133🎜🎜🎜

Atas ialah kandungan terperinci Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - 'platform tersuai arXiv' bagi pasukan visual teratas universiti Jerman. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Cara Membina Pembantu AI Peribadi Anda Dengan Huggingface SmollmApr 18, 2025 am 11:52 AM

Memanfaatkan kuasa AI di peranti: Membina CLI Chatbot Peribadi Pada masa lalu, konsep pembantu AI peribadi kelihatan seperti fiksyen sains. Bayangkan Alex, seorang peminat teknologi, bermimpi seorang sahabat AI yang pintar, yang tidak bergantung

AI untuk Kesihatan Mental dianalisis dengan penuh perhatian melalui inisiatif baru yang menarik di Stanford UniversityApr 18, 2025 am 11:49 AM

Pelancaran AI4MH mereka berlaku pada 15 April, 2025, dan Luminary Dr. Tom Insel, M.D., pakar psikiatri yang terkenal dan pakar neurosains, berkhidmat sebagai penceramah kick-off. Dr. Insel terkenal dengan kerja cemerlangnya dalam penyelidikan kesihatan mental dan techno

Kelas Draf WNBA 2025 memasuki liga yang semakin meningkat dan melawan gangguan dalam talianApr 18, 2025 am 11:44 AM

"Kami mahu memastikan bahawa WNBA kekal sebagai ruang di mana semua orang, pemain, peminat dan rakan kongsi korporat, berasa selamat, dihargai dan diberi kuasa," kata Engelbert, menangani apa yang telah menjadi salah satu cabaran sukan wanita yang paling merosakkan. Anno

Panduan Komprehensif untuk Struktur Data Terbina Python - Analytics VidhyaApr 18, 2025 am 11:43 AM

Pengenalan Python cemerlang sebagai bahasa pengaturcaraan, terutamanya dalam sains data dan AI generatif. Manipulasi data yang cekap (penyimpanan, pengurusan, dan akses) adalah penting apabila berurusan dengan dataset yang besar. Kami pernah meliputi nombor dan st

Tayangan pertama dari model baru Openai berbanding dengan alternatifApr 18, 2025 am 11:41 AM

Sebelum menyelam, kaveat penting: Prestasi AI adalah spesifik yang tidak ditentukan dan sangat digunakan. Dalam istilah yang lebih mudah, perbatuan anda mungkin berbeza -beza. Jangan ambil artikel ini (atau lain -lain) sebagai perkataan akhir -sebaliknya, uji model ini pada senario anda sendiri

AI Portfolio | Bagaimana untuk membina portfolio untuk kerjaya AI?Apr 18, 2025 am 11:40 AM

Membina portfolio AI/ML yang menonjol: Panduan untuk Pemula dan Profesional Mewujudkan portfolio yang menarik adalah penting untuk mendapatkan peranan dalam kecerdasan buatan (AI) dan pembelajaran mesin (ML). Panduan ini memberi nasihat untuk membina portfolio

AI AI apa yang boleh dimaksudkan untuk operasi keselamatanApr 18, 2025 am 11:36 AM

Hasilnya? Pembakaran, ketidakcekapan, dan jurang yang melebar antara pengesanan dan tindakan. Tak satu pun dari ini harus datang sebagai kejutan kepada sesiapa yang bekerja dalam keselamatan siber. Janji Agentic AI telah muncul sebagai titik perubahan yang berpotensi. Kelas baru ini

Google Versus Openai: AI berjuang untuk pelajarApr 18, 2025 am 11:31 AM

Impak segera berbanding perkongsian jangka panjang? Dua minggu yang lalu Openai melangkah ke hadapan dengan tawaran jangka pendek yang kuat, memberikan akses kepada pelajar A.S. dan Kanada.

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

3 minggu yang laluByDDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

2 minggu yang laluByDDD

Di mana untuk mencari kad kunci kawalan kren di atomfall

3 minggu yang laluByDDD

Penjimatan di R.E.P.O. Dijelaskan (dan simpan fail)

1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows - Cara Mencari Orang Panda

4 minggu yang laluByDDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SecLists

SecLists ialah rakan penguji keselamatan muktamad. Ia ialah koleksi pelbagai jenis senarai yang kerap digunakan semasa penilaian keselamatan, semuanya di satu tempat. SecLists membantu menjadikan ujian keselamatan lebih cekap dan produktif dengan menyediakan semua senarai yang mungkin diperlukan oleh penguji keselamatan dengan mudah. Jenis senarai termasuk nama pengguna, kata laluan, URL, muatan kabur, corak data sensitif, cangkerang web dan banyak lagi. Penguji hanya boleh menarik repositori ini ke mesin ujian baharu dan dia akan mempunyai akses kepada setiap jenis senarai yang dia perlukan.