MVDiffusion: Mencapai penjanaan imej berbilang paparan berkualiti tinggi dan pengeluaran semula bahan pemandangan yang tepat-AI-php.cn

MVDiffusion: Mencapai penjanaan imej berbilang paparan berkualiti tinggi dan pengeluaran semula bahan pemandangan yang tepat

王林

Oct 04, 2023 pm 12:17 PM

gambarai

Penjanaan imej realistik mempunyai aplikasi luas dalam bidang seperti realiti maya, realiti tambahan, permainan video dan penerbitan filem.

Dengan perkembangan pesat model penyebaran dalam tempoh dua tahun yang lalu, penemuan besar telah dibuat dalam bidang penjanaan imej. Satu siri model sumber terbuka atau komersial yang diperoleh daripada Stable Diffusion untuk menjana imej berdasarkan penerangan teks telah memberi impak yang besar pada reka bentuk, permainan dan medan lain

Walau bagaimanapun, cara untuk menjana imej berkualiti tinggi berdasarkan teks yang diberikan atau lain-lain keadaan? Imej berbilang paparan kekal sebagai cabaran. Kaedah sedia ada mempunyai kelemahan yang jelas dalam ketekalan berbilang paparan

Kaedah biasa pada masa ini boleh dibahagikan secara kasar kepada dua kategori

Kaedah kategori pertama dikhususkan untuk menjana gambar dan peta kedalaman sesuatu pemandangan, dan mendapatkan jaringan yang sepadan , seperti Text2Room, SceneScape - mula-mula gunakan Stable Diffusion untuk menjana imej pertama, dan kemudian gunakan kaedah autoregresif meledingkan imej dan mengecat imej untuk menjana imej dan peta kedalaman seterusnya.

Walau bagaimanapun, penyelesaian sedemikian boleh menyebabkan ralat terkumpul secara beransur-ansur semasa penjanaan berbilang gambar, dan biasanya terdapat masalah gelung tertutup (contohnya, apabila kamera berputar dan kembali ke kedudukan permulaan, kandungan yang dihasilkan adalah berbeza daripada gambar pertama) Gambar tidak konsisten sepenuhnya), mengakibatkan prestasi buruk apabila pemandangan besar atau perspektif berubah antara gambar.

Kaedah jenis kedua menjana berbilang gambar pada masa yang sama dengan memanjangkan algoritma penjanaan model resapan untuk menghasilkan kandungan yang lebih kaya daripada satu gambar (seperti menjana panorama 360 darjah, atau memindahkan kandungan satu gambar kepada kedua-dua pihak ekstrapolasi tak terhingga), seperti MultiDiffusion dan DiffCollage. Walau bagaimanapun, memandangkan model kamera tidak dipertimbangkan, hasil yang dihasilkan oleh kaedah jenis ini bukanlah panorama sebenar Matlamat MVDiffusion adalah untuk menjana imej berbilang paparan yang mematuhi model kamera tertentu, dan imej ini benar-benar konsisten dalam kandungan. dan mempunyai semantik global yang bersatu. Idea teras kaedah ini adalah untuk mengecam dan mempelajari korespondensi antara imej secara serentak untuk mengekalkan konsistensi

Sila klik pautan berikut untuk melihat kertas: https://arxiv.org/abs/2307.01097 MVDiffusion: Mencapai penjanaan imej berbilang paparan berkualiti tinggi dan pengeluaran semula bahan pemandangan yang tepat

Sila layari tapak web projek: https://mvdiffusion.github.io/

Demo: https://huggingface.co/spaces/tangshiao/MVDiffusion

Kod: https://github. com/Tangshiao/ MVDiffusion

Persidangan Diterbitkan: NeurIPS (Key Point)

Matlamat MVDiffusion adalah untuk menjana imej berbilang paparan dengan kandungan yang sangat konsisten dan semantik global yang bersatu melalui kesedaran serentak dan korespondensi global antara imej

Secara khusus, penyelidik mengembangkan model resapan teks-imej sedia ada (seperti Resapan Stabil), mula-mula membenarkannya memproses berbilang imej secara selari, dan seterusnya menambahkan mekanisme "Perhatian Sedar Surat-menyurat" tambahan kepada yang asal UNet Untuk mempelajari konsistensi antara pelbagai perspektif dan perpaduan global.

Dengan memperhalusi sejumlah kecil data latihan imej berbilang paparan, model yang terhasil secara serentak boleh menjana imej berbilang perspektif dengan kandungan yang sangat konsisten.

mvdiffusion telah mencapai hasil yang baik dalam tiga senario aplikasi yang berbeza:

Generate pelbagai pandangan berdasarkan teks, dan kemudian menyambungkannya untuk mendapatkan panorama

2. lengkapkan panorama 360 darjah

Paparan Senario AplikasiAplikasi 1: Proses penjanaan panorama adalah untuk mencantumkan berbilang foto atau video untuk mencipta imej atau video perspektif panorama. Proses ini biasanya melibatkan penggunaan perisian atau alatan khas untuk menjajarkan, menggabungkan dan membaiki imej atau video ini secara automatik atau manual. Melalui penjanaan panorama, orang ramai boleh menghayati dan mengalami pemandangan, seperti landskap, bangunan atau ruang dalaman, dengan pemandangan yang lebih luas. Teknologi ini mempunyai pelbagai aplikasi dalam pelancongan, hartanah, realiti maya dan bidang lain (mengikut teks)

Ambil menjana panorama sebagai contoh, masukkan teks yang menerangkan pemandangan, MVDIffusion boleh menjana gambar pelbagai perspektif daripada pemandangan

Masukkan yang berikut untuk mendapatkan 8 imej berbilang paparan: "Dapur ini merupakan gabungan menawan antara desa dan moden, menampilkan pulau kayu tebus guna yang besar dengan bahagian atas meja marmar dan singki yang dikelilingi oleh kabinet. Di sebelah kiri pulau itu adalah peti sejuk keluli tahan karat yang tinggi Di sebelah kanan singki terdapat kabinet kayu terbina dalam yang dicat dengan warna pastel."

MVDiffusion: Mencapai penjanaan imej berbilang paparan berkualiti tinggi dan pengeluaran semula bahan pemandangan yang tepat

8 gambar ini boleh dicantum dalam satu panorama:

#🎜 MVDiffusion: Mencapai penjanaan imej berbilang paparan berkualiti tinggi dan pengeluaran semula bahan pemandangan yang tepat #🎜 #🎜🎜

MVDiffusion juga menyokong penyediaan penerangan teks yang berbeza untuk setiap imej, tetapi konsistensi semantik perlu dikekalkan antara penerangan ini.

Aplikasi 2: Proses penjanaan panorama adalah untuk mencantumkan berbilang foto atau video untuk mencipta imej atau video perspektif panorama. Proses ini biasanya melibatkan penggunaan perisian atau alatan khas untuk menjajarkan, menggabungkan dan membaiki imej atau video ini secara automatik atau manual. Melalui penjanaan panorama, orang ramai boleh menghayati dan mengalami pemandangan, seperti landskap, bangunan atau ruang dalaman, dengan pemandangan yang lebih luas. Teknologi ini mempunyai aplikasi yang luas dalam pelancongan, hartanah, realiti maya dan bidang lain (berdasarkan imej perspektif) .

Sebagai contoh, andaikan kita memasuki perspektif berikut:

#🎜#🎜🎜 MVDiffusion boleh menjana lagi panorama berikut:

MVDiffusion: Mencapai penjanaan imej berbilang paparan berkualiti tinggi dan pengeluaran semula bahan pemandangan yang tepat

Anda boleh melihat input Panorama seman yang dijana secara meluas imej, dan kandungan paling kiri dan kanan disambungkan (tiada isu penutupan gelung).

MVDiffusion: Mencapai penjanaan imej berbilang paparan berkualiti tinggi dan pengeluaran semula bahan pemandangan yang tepat Aplikasi 3: Menjana Bahan Adegan

Gunakan MVDiffusion untuk menjana bahan (tekstur) untuk jejaring adegan tanpa material yang diberikan#🎜🎜 🎜#

Secara khusus, kami mula-mula mendapatkan peta kedalaman berbilang paparan (peta kedalaman) dengan memaparkan jejaring Melalui pose kamera (pose) dan peta kedalaman, kita boleh mendapatkan imej berbilang paparan Surat-menyurat antara piksel.

Kemudian, MVDiffusion menggunakan peta kedalaman berbilang paparan sebagai syarat untuk menjana imej RGB berbilang paparan yang konsisten secara serentak.

Oleh kerana gambar berbilang paparan yang dijana boleh mengekalkan tahap konsistensi kandungan yang tinggi, dan kemudian membuangnya semula ke dalam jaringan, anda boleh mendapatkan tekstur yang berkualiti tinggi mesh (jaring bertekstur) .

Berikut adalah lebih banyak contoh kesan:

#🎜🎜 Proses ##Panorama penjanaan ialah mencantumkan berbilang foto atau video untuk mencipta paparan panorama imej atau video. Proses ini biasanya melibatkan penggunaan perisian atau alatan khas untuk menjajarkan, menggabungkan dan membaiki imej atau video ini secara automatik atau manual. Melalui penjanaan panorama, orang ramai boleh menghayati dan mengalami pemandangan, seperti landskap, bangunan atau ruang dalaman, dengan pemandangan yang lebih luas. Teknologi ini mempunyai pelbagai aplikasi dalam pelancongan, hartanah, realiti maya dan bidang lain 🎜#

MVDiffusion: Mencapai penjanaan imej berbilang paparan berkualiti tinggi dan pengeluaran semula bahan pemandangan yang tepat

# 🎜🎜#

#🎜 🎜#

MVDiffusion: Mencapai penjanaan imej berbilang paparan berkualiti tinggi dan pengeluaran semula bahan pemandangan yang tepat Dalam aplikasi ini, adalah penting untuk menyebut walaupun data imej berbilang paparan yang digunakan dalam latihan MVDiffusion semuanya datang daripada pemandangan dalaman Panorama, dan gaya semuanya adalah tunggal

Walau bagaimanapun, MVDiffusion tidak mengubah resapan stabil asal parameter, tetapi hanya melatih Perhatian peka Surat-menyurat yang baru ditambah

MVDiffusion: Mencapai penjanaan imej berbilang paparan berkualiti tinggi dan pengeluaran semula bahan pemandangan yang tepat

Akhir sekali, model masih boleh menjana gambar berbilang paparan pelbagai gaya (seperti luar, kartun, dll.) berdasarkan teks yang diberikan.

Kandungan yang perlu ditulis semula ialah: ekstrapolasi paparan tunggal

MVDiffusion: Mencapai penjanaan imej berbilang paparan berkualiti tinggi dan pengeluaran semula bahan pemandangan yang tepat

penjanaan bahan cene

Kami akan pertama Artikel ini memperkenalkan proses penjanaan imej khusus MVDiffusion dalam tiga tugasan yang berbeza, dan akhirnya memperkenalkan bahagian teras kaedah, iaitu modul "Perhatian Sedar Surat-menyurat". Rajah 1 menunjukkan gambaran keseluruhan MVDiffusion MVDiffusion: Mencapai penjanaan imej berbilang paparan berkualiti tinggi dan pengeluaran semula bahan pemandangan yang tepat

1 Proses penjanaan panorama adalah untuk mencantumkan berbilang foto atau video untuk mencipta imej atau video perspektif panorama. Proses ini biasanya melibatkan penggunaan perisian atau alatan khas untuk menjajarkan, menggabungkan dan membaiki imej atau video ini secara automatik atau manual. Melalui penjanaan panorama, orang ramai boleh menghayati dan mengalami pemandangan, seperti landskap, bangunan atau ruang dalaman, dengan pemandangan yang lebih luas. Teknologi ini mempunyai aplikasi yang luas dalam pelancongan, hartanah, realiti maya dan bidang lain (mengikut teks)

MVDiffusion secara serentak menghasilkan 8 gambar bertindih (imej perspektif), dan kemudian mencantumkan 8 gambar ini (jahitan) menjadi panorama. Dalam 8 imej perspektif ini, matriks homografi 3x3 menentukan korespondensi piksel antara setiap dua imej.

Dalam proses penjanaan khusus, MVDiffusion mula-mula menggunakan pemula rawak Gaussian untuk menjana 8 paparan gambar

Kemudian, 8 gambar ini dimasukkan ke dalam rangkaian Unet terlatih Stable Diffusion dengan berbilang cawangan Menjalankan tanpa segerak memperoleh hasil yang dihasilkan.

Modul baru "Perhatian Sedar Surat-menyurat" (bahagian biru muda dalam gambar di atas) telah ditambahkan pada rangkaian UNet, yang digunakan untuk mempelajari ketekalan geometri antara pandangan silang, supaya 8 gambar ini boleh disambung menjadi satu Panorama yang konsisten.

2. Proses penjanaan panorama adalah untuk mencantumkan berbilang foto atau video untuk mencipta imej atau video perspektif panorama. Proses ini biasanya melibatkan penggunaan perisian atau alatan khas untuk menjajarkan, menggabungkan dan membaiki imej atau video ini secara automatik atau manual. Melalui penjanaan panorama, orang ramai boleh menghayati dan mengalami pemandangan, seperti landskap, bangunan atau ruang dalaman, dengan pemandangan yang lebih luas. Teknologi ini mempunyai aplikasi yang luas dalam pelancongan, hartanah, realiti maya dan bidang lain (berdasarkan gambar perspektif)

MVDiffusion juga boleh melengkapkan imej perspektif tunggal menjadi panorama. Proses penjanaan panorama adalah untuk mencantumkan berbilang foto atau video untuk mencipta paparan panorama imej atau video. Proses ini biasanya melibatkan penggunaan perisian atau alatan khas untuk menjajarkan, menggabungkan dan membaiki imej atau video ini secara automatik atau manual. Melalui penjanaan panorama, orang ramai boleh menghayati dan mengalami pemandangan, seperti landskap, bangunan atau ruang dalaman, dengan pemandangan yang lebih luas. Teknologi ini mempunyai pelbagai aplikasi dalam bidang pelancongan, hartanah, realiti maya dan lain-lain input MVDiffusion yang dimulakan secara rawak 8 gambar perspektif (termasuk perspektif yang sepadan dengan pandangan perspektif) ke dalam rangkaian UNet terlatih Stable Diffusion Inpainting.

Dalam model Stable Diffusion Inpainting, perbezaannya ialah UNet menggunakan input mask tambahan untuk membezakan gambar sebagai keadaan dan gambar yang akan dihasilkan

Perspektif yang sepadan dengan perspektif, mask Jika kod itu ditetapkan kepada 1, UNet cawangan ini akan memulihkan perspektif secara langsung. Untuk perspektif lain, topeng ditetapkan kepada 0, dan UNet cawangan yang sepadan akan menjana pandangan perspektif baharu

Begitu juga, MVDiffusion menggunakan modul "Perhatian Sedar Surat-menyurat" untuk mempelajari ketekalan geometri antara imej yang dijana dan imej bersyarat.

3. Penjanaan bahan pemandangan

MVDiffusion mula-mula menjana imej RGB pada trajektori berdasarkan peta kedalaman dan pose kamera, dan kemudian menggunakan gabungan TSDF untuk mensintesis imej RGB kedalaman yang diberikan sebuah jaringan.

Korespondensi piksel imej RGB boleh diperolehi melalui peta kedalaman dan pose kamera.

Proses dengan penjanaan panorama adalah untuk mencantumkan berbilang foto atau video untuk mencipta paparan panorama imej atau video. Proses ini biasanya melibatkan penggunaan perisian atau alatan khas untuk menjajarkan, menggabungkan dan membaiki imej atau video ini secara automatik atau manual. Melalui penjanaan panorama, orang ramai boleh menghayati dan mengalami pemandangan, seperti landskap, bangunan atau ruang dalaman, dengan pemandangan yang lebih luas. Teknologi ini mempunyai pelbagai aplikasi dalam pelancongan, hartanah, realiti maya dan bidang lain Kami menggunakan UNet berbilang cawangan dan memasukkan "Perhatian Sedar Surat-menyurat" untuk mempelajari konsistensi geometri merentasi perspektif.

4. Mekanisme Perhatian Sedar Surat-menyurat

"Perhatian Sedar Surat-menyurat" (CAA) ialah teras kepada ketekalan geometrik.

MVDiffusion menyisipkan blok "Perhatian Sedar Persuratan" selepas setiap blok UNet dalam Stable Diffusion UNet. CAA berfungsi dengan mempertimbangkan peta ciri sumber dan peta ciri sasaran N.

Untuk lokasi dalam peta ciri sumber, kami mengira output perhatian berdasarkan piksel yang sepadan dan kejiranannya dalam peta ciri sasaran.

MVDiffusion: Mencapai penjanaan imej berbilang paparan berkualiti tinggi dan pengeluaran semula bahan pemandangan yang tepat

Khususnya, untuk setiap piksel sasaran t^l, MVDiffusion akan mempertimbangkan kejiranan K x K dengan menambahkan sesaran integer (dx/dy) pada koordinat (x/y) , di mana |dx| mewakili sesaran dalam arah x, |dy| mewakili sesaran dalam arah y

Dalam aplikasi praktikal, algoritma MVDiffusion menggunakan K=3 dan memilih kejiranan 9 mata untuk meningkatkan kualiti panorama. Walau bagaimanapun, apabila menjana imej berbilang paparan tertakluk kepada keadaan geometri, untuk meningkatkan kecekapan pengendalian, kami memilih untuk menggunakan K=1

MVDiffusion: Mencapai penjanaan imej berbilang paparan berkualiti tinggi dan pengeluaran semula bahan pemandangan yang tepat

Pengiraan modul CAA mengikut mekanisme perhatian standard, seperti yang ditunjukkan dalam formula di atas, dengan W_Q, W_K dan W_V ialah pemberat yang boleh dipelajari bagi pertanyaan, kunci dan matriks nilai, ciri sasaran tidak terletak pada kedudukan integer tetapi diperoleh dengan interpolasi dwilinear.

Perbezaan utama ialah pengekodan kedudukan ditambah pada ciri sasaran berdasarkan anjakan 2D (panorama) atau ralat kedalaman 1D (geometri) antara kedudukan s^l dan s yang sepadan dalam imej sumber.

Dalam penjanaan panorama (Aplikasi 1 dan Aplikasi 2), anjakan ini memberikan kedudukan relatif dalam kejiranan tempatan.

Dan dalam penjanaan mendalam-ke-imej (Aplikasi 3), ketaksamaan memberikan petunjuk tentang ketakselanjaran atau oklusi kedalaman, yang sangat penting untuk penjanaan imej ketepatan tinggi.

Sila ambil perhatian bahawa anjakan ialah konsep yang mengandungi vektor 2D (anjakan) atau 1D (ralat kedalaman). MVDiffusion menggunakan pengekodan frekuensi standard pada koordinat x dan y anjakan

Atas ialah kandungan terperinci MVDiffusion: Mencapai penjanaan imej berbilang paparan berkualiti tinggi dan pengeluaran semula bahan pemandangan yang tepat. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Panduan komprehensif untuk ekstrapolasiApr 15, 2025 am 11:38 AM

Pengenalan Katakan ada petani yang setiap hari memerhatikan kemajuan tanaman dalam beberapa minggu. Dia melihat kadar pertumbuhan dan mula merenungkan betapa lebih tinggi tumbuhannya dapat tumbuh dalam beberapa minggu lagi. Dari th

Kebangkitan AI lembut dan apa maksudnya untuk perniagaan hari iniApr 15, 2025 am 11:36 AM

Soft AI-yang ditakrifkan sebagai sistem AI yang direka untuk melaksanakan tugas-tugas tertentu yang sempit menggunakan penalaran, pengiktirafan corak, dan pengambilan keputusan yang fleksibel-bertujuan untuk meniru pemikiran seperti manusia dengan merangkul kekaburan. Tetapi apa maksudnya untuk busine

Rangka kerja keselamatan yang berkembang untuk sempadan AIApr 15, 2025 am 11:34 AM

Jawapannya jelas-seperti pengkomputeran awan memerlukan peralihan ke arah alat keselamatan awan asli, AI menuntut satu penyelesaian keselamatan baru yang direka khusus untuk keperluan unik AI. Kebangkitan pengkomputeran awan dan pelajaran keselamatan dipelajari Dalam th

3 cara AI Generatif menguatkan usahawan: berhati -hati dengan purata!Apr 15, 2025 am 11:33 AM

Usahawan dan menggunakan AI dan Generatif AI untuk menjadikan perniagaan mereka lebih baik. Pada masa yang sama, adalah penting untuk mengingati AI generatif, seperti semua teknologi, adalah penguat - menjadikan yang hebat dan yang biasa -biasa saja, lebih buruk. Kajian 2024 yang ketat o

Kursus Pendek Baru mengenai Model Embedding oleh Andrew NgApr 15, 2025 am 11:32 AM

Buka kunci kekuatan model embedding: menyelam jauh ke kursus baru Andrew Ng Bayangkan masa depan di mana mesin memahami dan menjawab soalan anda dengan ketepatan yang sempurna. Ini bukan fiksyen sains; Terima kasih kepada kemajuan dalam AI, ia menjadi R

Adakah halusinasi dalam model bahasa besar (LLMS) tidak dapat dielakkan?Apr 15, 2025 am 11:31 AM

Model bahasa besar (LLM) dan masalah halusinasi yang tidak dapat dielakkan Anda mungkin menggunakan model AI seperti ChatGPT, Claude, dan Gemini. Ini semua contoh model bahasa besar (LLM), sistem AI yang kuat yang dilatih dalam dataset teks besar -besaran ke

Masalah 60% - Bagaimana carian AI mengalir trafik andaApr 15, 2025 am 11:28 AM

Penyelidikan baru-baru ini telah menunjukkan bahawa gambaran AI boleh menyebabkan penurunan 15-64% dalam trafik organik, berdasarkan jenis industri dan carian. Perubahan radikal ini menyebabkan pemasar untuk menimbang semula keseluruhan strategi mereka mengenai penglihatan digital. Yang baru

Makmal Media MIT untuk meletakkan manusia berkembang di tengah -tengah AI R & DApr 15, 2025 am 11:26 AM

Laporan baru -baru ini dari Elon University Imagining the Digital Future Centre meninjau hampir 300 pakar teknologi global. Laporan yang dihasilkan, 'Menjadi Manusia pada tahun 2035', menyimpulkan bahawa kebanyakannya bimbang bahawa penggunaan sistem AI yang mendalam lebih daripada t

See all articles