Rumah >Peranti teknologi >AI >Kejayaan model 3D Vincent! MVDream akan datang, menjana model 3D ultra-realistik dalam satu ayat
Ini luar biasa!
Kini anda boleh mencipta model 3D yang cantik dan berkualiti tinggi dengan hanya beberapa perkataan?
Tidak, blog asing membuka Internet dan meletakkan sesuatu yang dipanggil MVDream di hadapan kami.
Pengguna boleh mencipta model 3D seperti hidup dengan hanya beberapa perkataan.
Dan apa yang berbeza dari sebelum ini ialah MVDream nampaknya benar-benar "faham" fizik.
Mari kita lihat betapa hebatnya MVDream ini~
Adik lelaki itu berkata bahawa dalam era model besar, kita telah melihat terlalu banyak model penjanaan teks dan model penjanaan imej. Dan prestasi model-model ini semakin berkuasa.
Kami kemudian menyaksikan kelahiran model video Vincent dengan mata kepala kami sendiri, dan sudah tentu model 3D yang akan kami sebutkan hari ini
Bayangkan hanya dengan menaip ayat, anda boleh menjana objek yang kelihatan seperti wujud di dunia nyata Model itu malah mengandungi semua butiran yang diperlukan, betapa hebatnya pemandangan seperti itu
Dan ini pastinya bukan satu tugas yang mudah, terutamanya apabila pengguna perlu menjana model dengan perincian yang cukup realistik.
Mari kita lihat kesannya dahulu~
Di bawah gesaan yang sama, apa yang ditunjukkan di hujung kanan ialah produk siap MVDream
model boleh dilihat dengan mata kasar. Beberapa model pertama benar-benar melanggar fakta objektif dan hanya betul apabila dilihat dari sudut tertentu.
Sebagai contoh, dalam empat gambar pertama, model yang dihasilkan sebenarnya mempunyai lebih daripada dua telinga. Walaupun gambar keempat kelihatan lebih terperinci, apabila diputar ke sudut tertentu, kita dapati wajah watak itu cekung, dengan telinga terlekat padanya.
Siapa yang tahu?
Ini adalah situasi yang ditunjukkan kepada anda dari beberapa sudut, tetapi ia tidak boleh dilihat dari sudut lain, ia akan mengancam nyawa
Model MVDream yang dihasilkan di hujung kanan adalah jelas tidak sama. Tidak kira bagaimana model 3D diputar, anda tidak akan merasakan apa-apa yang tidak konvensional.
Ini yang disebut sebelum ini, MVDream tahu ilmu fizik dengan baik dan tidak akan mencipta beberapa perkara yang pelik untuk memastikan setiap pandangan mempunyai dua telinga
Adik lelaki itu menunjukkan bahawa menilai model 3D Kunci kejayaan adalah untuk memerhati sama ada perspektif yang berbeza adalah realistik dan berkualiti tinggi
, dan juga memastikan model itu koheren dari segi ruang, bukan seperti model dengan berbilang telinga di atas.
Salah satu kaedah utama menjana model 3D ialah mensimulasikan perspektif kamera dan kemudian menjana apa yang boleh dilihat dari perspektif tertentu.
Dalam erti kata lain, ini dipanggil 2D lifting. Ini bermakna menggabungkan perspektif berbeza bersama-sama untuk membentuk model 3D terakhir.
Situasi berbilang telinga di atas berlaku kerana model generatif tidak memahami sepenuhnya maklumat bentuk keseluruhan objek dalam ruang tiga dimensi. Dan MVDream hanyalah satu langkah besar ke hadapan dalam hal ini.
Model baharu ini menyelesaikan masalah konsistensi sebelumnya dalam perspektif 3D
Kaedah ini dipanggil pensampelan penyulingan skor dan dibangunkan oleh DreamFusion🜎 pegun teknik pensampelan, kita perlu terlebih dahulu memahami seni bina yang diguna pakai oleh kaedah ini
Dalam erti kata lain, ini sebenarnya hanyalah satu lagi model resapan imej dua dimensi, serupa dengan model DALLE, MidJourney dan Stable Diffusion
Secara lebih khusus, segala-galanya bermula daripada model DreamBooth yang telah dilatih sebelumnya ialah model sumber terbuka berdasarkan graf mentah Stable Diffusion.
Perubahan akan datang, bermakna keadaan telah berubah
#🎜 🎜🎜#Apa yang dilakukan oleh pasukan penyelidik seterusnya ialah memberikan set imej berbilang paparan dan bukannya satu imej sahaja. Langkah ini memerlukan set data tiga dimensi pelbagai objek untuk diselesaikan.Di sini, penyelidik mengambil berbilang paparan objek 3D daripada set data, menggunakannya untuk melatih model dan kemudian menggunakannya untuk menjana pandangan ini ke belakang.
Kaedah khusus ialah menukar blok perhatian diri biru dalam gambar di bawah kepada blok perhatian diri tiga dimensi iaitu penyelidik sahaja perlu menambah satu dimensi untuk membina semula berbilang imej, bukan satu imej.
Dalam gambar di bawah, kita dapat melihat bahawa kamera dan langkah masa dimasukkan ke dalam model untuk setiap paparan untuk membantu model memahami imej mana yang akan digunakan Di mana, dan pandangan mana yang perlu dijana
Kini, semua imej disambungkan bersama dan penjanaan dilakukan bersama-sama juga. Jadi mereka boleh berkongsi maklumat dan lebih memahami gambaran besarnya.
Pertama, teks dimasukkan ke dalam model, dan kemudian model dilatih untuk membina semula objek dengan tepat daripada set data
Dan di sinilah pasukan penyelidik menggunakan proses pensampelan penyulingan pecahan berbilang pandangan. Kini, dengan model resapan berbilang paparan, pasukan boleh menjana berbilang paparan objek.
Seterusnya, kita perlu menggunakan pandangan ini untuk membina semula model 3D yang konsisten dengan dunia sebenar, bukan hanya pandangan
#🎜 🎜#
Perlu menggunakan NeRF (medan sinaran saraf, medan sinaran saraf) untuk mencapai ini, sama seperti DreamFusion yang disebutkan di atas. Dalam langkah ini, matlamat kami adalah untuk membekukan model resapan berbilang paparan yang telah dilatih sebelum ini. Dalam erti kata lain, kami hanya menggunakan gambar dari setiap perspektif di atas dalam langkah ini dan tidak lagi melatihDi bawah bimbingan rendering awal, penyelidik mula menggunakan berbilang Model resapan perspektif menghasilkan beberapa versi bising bagi imej awal
Untuk model memahami bahawa versi imej yang berbeza perlu dihasilkan, penyelidik menambah bunyi sementara masih mampu Selepas menerima maklumat latar belakang
Seterusnya, model ini boleh digunakan untuk menjana lagi imej yang lebih berkualiti
#🎜🎜 #
Tambahkan imej yang digunakan untuk menjana imej ini dan keluarkan bunyi yang kami tambahkan secara manual supaya kami boleh menggunakan hasilnya untuk membimbing dan menambah baik model NeRF dalam langkah seterusnya.Untuk menjana hasil yang lebih baik dalam langkah seterusnya, tujuan langkah ini adalah untuk lebih memahami bahagian imej yang mana model NeRF harus fokus pada
# 🎜 🎜# Ulangi proses ini sehingga model 3D yang memuaskan dijana
#🎜 🎜🎜#
Bagi penilaian kualiti penjanaan imej model resapan berbilang pandangan dan pertimbangan bagaimana reka bentuk berbeza akan mempengaruhi prestasinya, beginilah cara pasukan beroperasi.Pertama, mereka membandingkan pilihan modul perhatian untuk membina model ketekalan pandangan silang.
Pilihan ini termasuk:
(1) Penyegerakan automatik masa satu dimensi digunakan secara meluas dalam video model penyebaran Perhatian;
(3) Gunakan semula modul perhatian diri 2D sedia ada untuk perhatian 3D.
Untuk menunjukkan perbezaan antara modul ini dengan tepat, dalam eksperimen ini, penyelidik menggunakan 8 bingkai perubahan perspektif 90 darjah untuk melatih model agar lebih sepadan dengan tetapan video# 🎜🎜#
Dalam eksperimen, pasukan penyelidik juga mengekalkan resolusi imej yang lebih tinggi, iaitu 512×512 sebagai model SD asal. Seperti yang ditunjukkan dalam rajah di bawah, penyelidik mendapati bahawa walaupun dengan perubahan perspektif yang terhad dalam adegan statik, perhatian diri sementara masih dipengaruhi oleh perubahan kandungan dan tidak dapat mengekalkan konsistensi perspektif# Pasukan membuat hipotesis bahawa ini adalah kerana perhatian sementara hanya boleh bertukar maklumat antara piksel yang sama dalam bingkai yang berbeza, manakala piksel yang sepadan mungkin berjauhan apabila sudut pandangan berubah.
Sebaliknya, menambah perhatian 3D baharu tanpa konsistensi pembelajaran boleh membawa kepada kemerosotan kualiti yang teruk.
Para penyelidik percaya bahawa ini adalah kerana mempelajari parameter baharu dari awal akan menggunakan lebih banyak data latihan dan masa, yang tidak berlaku apabila model tiga dimensi adalah terhad. Berkenaan. Mereka mencadangkan strategi untuk menggunakan semula mekanisme perhatian kendiri 2D untuk mencapai konsistensi optimum tanpa mengurangkan kualiti penjanaan dan bilangan paparan kepada 4, perbezaan antara modul ini akan menjadi lebih kecil. Walau bagaimanapun, untuk mencapai konsistensi yang terbaik, penyelidik membuat pilihan mereka berdasarkan pemerhatian awal dalam eksperimen berikut.
Selain itu, penyelidik melaksanakan pensampelan penyulingan pecahan berbilang pandangan dalam perpustakaan threestudio (thr) dan memperkenalkan Provides panduan untuk penyebaran pelbagai perspektif. Perpustakaan ini melaksanakan kaedah penjanaan model teks-ke-3D yang terkini di bawah rangka kerja bersatu
Para penyelidik menggunakan volum tersirat dalam threestudio Sebagai pelaksanaan perwakilan tiga dimensi, termasuk grid cincang berbilang resolusi
Apabila mengkaji paparan kamera, penyelidik menggunakan pemaparan dengan Set data tiga dimensi telah diambil sampel oleh dua kamera dengan cara yang sama. Pengoptimum AdamW telah digunakan dan kadar pembelajaran ditetapkan kepada 0.01 Diturunkan kepada 0.5 langkah dan 0.02 langkah #
Berikut adalah lebih banyak kes: #🎜 🎜#
Pasukan penyelidik menggunakan teks 2D pada model imej, melakukan sintesis berbilang paparan dan melalui proses berulang, mencipta kaedah model teks kepada 3D
Kaedah baru ini pada masa ini mempunyai beberapa batasan, Masalah utama ialah resolusi imej yang dihasilkan hanya 256x256 piksel, yang boleh dikatakan sangat rendah pastinya akan mengehadkan keluasan kaedah ini sedikit sebanyak, kerana jika set data terlalu kecil, ia tidak akan dapat mencerminkan dunia kita yang kompleks secara lebih realistik.
Atas ialah kandungan terperinci Kejayaan model 3D Vincent! MVDream akan datang, menjana model 3D ultra-realistik dalam satu ayat. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!