Rumah >Peranti teknologi >AI >MVDiffusion: Mencapai penjanaan imej berbilang paparan berkualiti tinggi dan pengeluaran semula bahan pemandangan yang tepat
Penjanaan imej realistik mempunyai aplikasi luas dalam bidang seperti realiti maya, realiti tambahan, permainan video dan penerbitan filem.
Dengan perkembangan pesat model penyebaran dalam tempoh dua tahun yang lalu, penemuan besar telah dibuat dalam bidang penjanaan imej. Satu siri model sumber terbuka atau komersial yang diperoleh daripada Stable Diffusion untuk menjana imej berdasarkan penerangan teks telah memberi impak yang besar pada reka bentuk, permainan dan medan lain
Walau bagaimanapun, cara untuk menjana imej berkualiti tinggi berdasarkan teks yang diberikan atau lain-lain keadaan? Imej berbilang paparan kekal sebagai cabaran. Kaedah sedia ada mempunyai kelemahan yang jelas dalam ketekalan berbilang paparan
Kaedah biasa pada masa ini boleh dibahagikan secara kasar kepada dua kategori
Kaedah kategori pertama dikhususkan untuk menjana gambar dan peta kedalaman sesuatu pemandangan, dan mendapatkan jaringan yang sepadan , seperti Text2Room, SceneScape - mula-mula gunakan Stable Diffusion untuk menjana imej pertama, dan kemudian gunakan kaedah autoregresif meledingkan imej dan mengecat imej untuk menjana imej dan peta kedalaman seterusnya.
Walau bagaimanapun, penyelesaian sedemikian boleh menyebabkan ralat terkumpul secara beransur-ansur semasa penjanaan berbilang gambar, dan biasanya terdapat masalah gelung tertutup (contohnya, apabila kamera berputar dan kembali ke kedudukan permulaan, kandungan yang dihasilkan adalah berbeza daripada gambar pertama) Gambar tidak konsisten sepenuhnya), mengakibatkan prestasi buruk apabila pemandangan besar atau perspektif berubah antara gambar.
Kaedah jenis kedua menjana berbilang gambar pada masa yang sama dengan memanjangkan algoritma penjanaan model resapan untuk menghasilkan kandungan yang lebih kaya daripada satu gambar (seperti menjana panorama 360 darjah, atau memindahkan kandungan satu gambar kepada kedua-dua pihak ekstrapolasi tak terhingga), seperti MultiDiffusion dan DiffCollage. Walau bagaimanapun, memandangkan model kamera tidak dipertimbangkan, hasil yang dihasilkan oleh kaedah jenis ini bukanlah panorama sebenar Matlamat MVDiffusion adalah untuk menjana imej berbilang paparan yang mematuhi model kamera tertentu, dan imej ini benar-benar konsisten dalam kandungan. dan mempunyai semantik global yang bersatu. Idea teras kaedah ini adalah untuk mengecam dan mempelajari korespondensi antara imej secara serentak untuk mengekalkan konsistensi
Sila klik pautan berikut untuk melihat kertas: https://arxiv.org/abs/2307.01097
Sila layari tapak web projek: https://mvdiffusion.github.io/
Demo: https://huggingface.co/spaces/tangshiao/MVDiffusion
Kod: https://github. com/Tangshiao/ MVDiffusion
Persidangan Diterbitkan: NeurIPS (Key Point)
Matlamat MVDiffusion adalah untuk menjana imej berbilang paparan dengan kandungan yang sangat konsisten dan semantik global yang bersatu melalui kesedaran serentak dan korespondensi global antara imej
Secara khusus, penyelidik mengembangkan model resapan teks-imej sedia ada (seperti Resapan Stabil), mula-mula membenarkannya memproses berbilang imej secara selari, dan seterusnya menambahkan mekanisme "Perhatian Sedar Surat-menyurat" tambahan kepada yang asal UNet Untuk mempelajari konsistensi antara pelbagai perspektif dan perpaduan global.
Dengan memperhalusi sejumlah kecil data latihan imej berbilang paparan, model yang terhasil secara serentak boleh menjana imej berbilang perspektif dengan kandungan yang sangat konsisten.
mvdiffusion telah mencapai hasil yang baik dalam tiga senario aplikasi yang berbeza:
Generate pelbagai pandangan berdasarkan teks, dan kemudian menyambungkannya untuk mendapatkan panorama
2. lengkapkan panorama 360 darjah
3.
Paparan Senario AplikasiAplikasi 1: Proses penjanaan panorama adalah untuk mencantumkan berbilang foto atau video untuk mencipta imej atau video perspektif panorama. Proses ini biasanya melibatkan penggunaan perisian atau alatan khas untuk menjajarkan, menggabungkan dan membaiki imej atau video ini secara automatik atau manual. Melalui penjanaan panorama, orang ramai boleh menghayati dan mengalami pemandangan, seperti landskap, bangunan atau ruang dalaman, dengan pemandangan yang lebih luas. Teknologi ini mempunyai pelbagai aplikasi dalam pelancongan, hartanah, realiti maya dan bidang lain (mengikut teks)
Ambil menjana panorama sebagai contoh, masukkan teks yang menerangkan pemandangan, MVDIffusion boleh menjana gambar pelbagai perspektif daripada pemandanganMasukkan yang berikut untuk mendapatkan 8 imej berbilang paparan: "Dapur ini merupakan gabungan menawan antara desa dan moden, menampilkan pulau kayu tebus guna yang besar dengan bahagian atas meja marmar dan singki yang dikelilingi oleh kabinet. Di sebelah kiri pulau itu adalah peti sejuk keluli tahan karat yang tinggi Di sebelah kanan singki terdapat kabinet kayu terbina dalam yang dicat dengan warna pastel."
8 gambar ini boleh dicantum dalam satu panorama:
#🎜 #🎜 #🎜🎜
MVDiffusion juga menyokong penyediaan penerangan teks yang berbeza untuk setiap imej, tetapi konsistensi semantik perlu dikekalkan antara penerangan ini.
Aplikasi 2: Proses penjanaan panorama adalah untuk mencantumkan berbilang foto atau video untuk mencipta imej atau video perspektif panorama. Proses ini biasanya melibatkan penggunaan perisian atau alatan khas untuk menjajarkan, menggabungkan dan membaiki imej atau video ini secara automatik atau manual. Melalui penjanaan panorama, orang ramai boleh menghayati dan mengalami pemandangan, seperti landskap, bangunan atau ruang dalaman, dengan pemandangan yang lebih luas. Teknologi ini mempunyai aplikasi yang luas dalam pelancongan, hartanah, realiti maya dan bidang lain (berdasarkan imej perspektif) .Sebagai contoh, andaikan kita memasuki perspektif berikut:
#🎜#🎜🎜 MVDiffusion boleh menjana lagi panorama berikut:
Anda boleh melihat input Panorama seman yang dijana secara meluas imej, dan kandungan paling kiri dan kanan disambungkan (tiada isu penutupan gelung).
Aplikasi 3: Menjana Bahan Adegan
Gunakan MVDiffusion untuk menjana bahan (tekstur) untuk jejaring adegan tanpa material yang diberikan#🎜🎜 🎜#
Secara khusus, kami mula-mula mendapatkan peta kedalaman berbilang paparan (peta kedalaman) dengan memaparkan jejaring Melalui pose kamera (pose) dan peta kedalaman, kita boleh mendapatkan imej berbilang paparan Surat-menyurat antara piksel.Kemudian, MVDiffusion menggunakan peta kedalaman berbilang paparan sebagai syarat untuk menjana imej RGB berbilang paparan yang konsisten secara serentak.
Oleh kerana gambar berbilang paparan yang dijana boleh mengekalkan tahap konsistensi kandungan yang tinggi, dan kemudian membuangnya semula ke dalam jaringan, anda boleh mendapatkan tekstur yang berkualiti tinggi mesh (jaring bertekstur) .
Berikut adalah lebih banyak contoh kesan:
#🎜🎜 Proses ##Panorama penjanaan ialah mencantumkan berbilang foto atau video untuk mencipta paparan panorama imej atau video. Proses ini biasanya melibatkan penggunaan perisian atau alatan khas untuk menjajarkan, menggabungkan dan membaiki imej atau video ini secara automatik atau manual. Melalui penjanaan panorama, orang ramai boleh menghayati dan mengalami pemandangan, seperti landskap, bangunan atau ruang dalaman, dengan pemandangan yang lebih luas. Teknologi ini mempunyai pelbagai aplikasi dalam pelancongan, hartanah, realiti maya dan bidang lain 🎜#
# 🎜🎜##🎜 🎜#
Dalam aplikasi ini, adalah penting untuk menyebut walaupun data imej berbilang paparan yang digunakan dalam latihan MVDiffusion semuanya datang daripada pemandangan dalaman Panorama, dan gaya semuanya adalah tunggal
Akhir sekali, model masih boleh menjana gambar berbilang paparan pelbagai gaya (seperti luar, kartun, dll.) berdasarkan teks yang diberikan.
Kandungan yang perlu ditulis semula ialah: ekstrapolasi paparan tunggal
Kami akan pertama Artikel ini memperkenalkan proses penjanaan imej khusus MVDiffusion dalam tiga tugasan yang berbeza, dan akhirnya memperkenalkan bahagian teras kaedah, iaitu modul "Perhatian Sedar Surat-menyurat". Rajah 1 menunjukkan gambaran keseluruhan MVDiffusion
1 Proses penjanaan panorama adalah untuk mencantumkan berbilang foto atau video untuk mencipta imej atau video perspektif panorama. Proses ini biasanya melibatkan penggunaan perisian atau alatan khas untuk menjajarkan, menggabungkan dan membaiki imej atau video ini secara automatik atau manual. Melalui penjanaan panorama, orang ramai boleh menghayati dan mengalami pemandangan, seperti landskap, bangunan atau ruang dalaman, dengan pemandangan yang lebih luas. Teknologi ini mempunyai aplikasi yang luas dalam pelancongan, hartanah, realiti maya dan bidang lain (mengikut teks)Dalam proses penjanaan khusus, MVDiffusion mula-mula menggunakan pemula rawak Gaussian untuk menjana 8 paparan gambar
Kemudian, 8 gambar ini dimasukkan ke dalam rangkaian Unet terlatih Stable Diffusion dengan berbilang cawangan Menjalankan tanpa segerak memperoleh hasil yang dihasilkan.
Modul baru "Perhatian Sedar Surat-menyurat" (bahagian biru muda dalam gambar di atas) telah ditambahkan pada rangkaian UNet, yang digunakan untuk mempelajari ketekalan geometri antara pandangan silang, supaya 8 gambar ini boleh disambung menjadi satu Panorama yang konsisten.
2. Proses penjanaan panorama adalah untuk mencantumkan berbilang foto atau video untuk mencipta imej atau video perspektif panorama. Proses ini biasanya melibatkan penggunaan perisian atau alatan khas untuk menjajarkan, menggabungkan dan membaiki imej atau video ini secara automatik atau manual. Melalui penjanaan panorama, orang ramai boleh menghayati dan mengalami pemandangan, seperti landskap, bangunan atau ruang dalaman, dengan pemandangan yang lebih luas. Teknologi ini mempunyai aplikasi yang luas dalam pelancongan, hartanah, realiti maya dan bidang lain (berdasarkan gambar perspektif)
Dalam model Stable Diffusion Inpainting, perbezaannya ialah UNet menggunakan input mask tambahan untuk membezakan gambar sebagai keadaan dan gambar yang akan dihasilkan
Perspektif yang sepadan dengan perspektif, mask Jika kod itu ditetapkan kepada 1, UNet cawangan ini akan memulihkan perspektif secara langsung. Untuk perspektif lain, topeng ditetapkan kepada 0, dan UNet cawangan yang sepadan akan menjana pandangan perspektif baharu
Begitu juga, MVDiffusion menggunakan modul "Perhatian Sedar Surat-menyurat" untuk mempelajari ketekalan geometri antara imej yang dijana dan imej bersyarat.
MVDiffusion mula-mula menjana imej RGB pada trajektori berdasarkan peta kedalaman dan pose kamera, dan kemudian menggunakan gabungan TSDF untuk mensintesis imej RGB kedalaman yang diberikan sebuah jaringan.
Korespondensi piksel imej RGB boleh diperolehi melalui peta kedalaman dan pose kamera.
Proses dengan penjanaan panorama adalah untuk mencantumkan berbilang foto atau video untuk mencipta paparan panorama imej atau video. Proses ini biasanya melibatkan penggunaan perisian atau alatan khas untuk menjajarkan, menggabungkan dan membaiki imej atau video ini secara automatik atau manual. Melalui penjanaan panorama, orang ramai boleh menghayati dan mengalami pemandangan, seperti landskap, bangunan atau ruang dalaman, dengan pemandangan yang lebih luas. Teknologi ini mempunyai pelbagai aplikasi dalam pelancongan, hartanah, realiti maya dan bidang lain Kami menggunakan UNet berbilang cawangan dan memasukkan "Perhatian Sedar Surat-menyurat" untuk mempelajari konsistensi geometri merentasi perspektif.
"Perhatian Sedar Surat-menyurat" (CAA) ialah teras kepada ketekalan geometrik.
MVDiffusion menyisipkan blok "Perhatian Sedar Persuratan" selepas setiap blok UNet dalam Stable Diffusion UNet. CAA berfungsi dengan mempertimbangkan peta ciri sumber dan peta ciri sasaran N.
Untuk lokasi dalam peta ciri sumber, kami mengira output perhatian berdasarkan piksel yang sepadan dan kejiranannya dalam peta ciri sasaran.
Khususnya, untuk setiap piksel sasaran t^l, MVDiffusion akan mempertimbangkan kejiranan K x K dengan menambahkan sesaran integer (dx/dy) pada koordinat (x/y) , di mana |dx| mewakili sesaran dalam arah x, |dy| mewakili sesaran dalam arah y
Dalam aplikasi praktikal, algoritma MVDiffusion menggunakan K=3 dan memilih kejiranan 9 mata untuk meningkatkan kualiti panorama. Walau bagaimanapun, apabila menjana imej berbilang paparan tertakluk kepada keadaan geometri, untuk meningkatkan kecekapan pengendalian, kami memilih untuk menggunakan K=1
Pengiraan modul CAA mengikut mekanisme perhatian standard, seperti yang ditunjukkan dalam formula di atas, dengan W_Q, W_K dan W_V ialah pemberat yang boleh dipelajari bagi pertanyaan, kunci dan matriks nilai, ciri sasaran tidak terletak pada kedudukan integer tetapi diperoleh dengan interpolasi dwilinear.
Perbezaan utama ialah pengekodan kedudukan ditambah pada ciri sasaran berdasarkan anjakan 2D (panorama) atau ralat kedalaman 1D (geometri) antara kedudukan s^l dan s yang sepadan dalam imej sumber.
Dalam penjanaan panorama (Aplikasi 1 dan Aplikasi 2), anjakan ini memberikan kedudukan relatif dalam kejiranan tempatan.
Dan dalam penjanaan mendalam-ke-imej (Aplikasi 3), ketaksamaan memberikan petunjuk tentang ketakselanjaran atau oklusi kedalaman, yang sangat penting untuk penjanaan imej ketepatan tinggi.
Sila ambil perhatian bahawa anjakan ialah konsep yang mengandungi vektor 2D (anjakan) atau 1D (ralat kedalaman). MVDiffusion menggunakan pengekodan frekuensi standard pada koordinat x dan y anjakan
Atas ialah kandungan terperinci MVDiffusion: Mencapai penjanaan imej berbilang paparan berkualiti tinggi dan pengeluaran semula bahan pemandangan yang tepat. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!