


Kejayaan model 3D Vincent! MVDream akan datang, menjana model 3D ultra-realistik dalam satu ayat
Ini luar biasa!
Kini anda boleh mencipta model 3D yang cantik dan berkualiti tinggi dengan hanya beberapa perkataan?
Tidak, blog asing membuka Internet dan meletakkan sesuatu yang dipanggil MVDream di hadapan kami.
Pengguna boleh mencipta model 3D seperti hidup dengan hanya beberapa perkataan.
Dan apa yang berbeza dari sebelum ini ialah MVDream nampaknya benar-benar "faham" fizik.
Mari kita lihat betapa hebatnya MVDream ini~
MVDream
Adik lelaki itu berkata bahawa dalam era model besar, kita telah melihat terlalu banyak model penjanaan teks dan model penjanaan imej. Dan prestasi model-model ini semakin berkuasa.
Kami kemudian menyaksikan kelahiran model video Vincent dengan mata kepala kami sendiri, dan sudah tentu model 3D yang akan kami sebutkan hari ini
Bayangkan hanya dengan menaip ayat, anda boleh menjana objek yang kelihatan seperti wujud di dunia nyata Model itu malah mengandungi semua butiran yang diperlukan, betapa hebatnya pemandangan seperti itu
Dan ini pastinya bukan satu tugas yang mudah, terutamanya apabila pengguna perlu menjana model dengan perincian yang cukup realistik.
Mari kita lihat kesannya dahulu~
Di bawah gesaan yang sama, apa yang ditunjukkan di hujung kanan ialah produk siap MVDream
model boleh dilihat dengan mata kasar. Beberapa model pertama benar-benar melanggar fakta objektif dan hanya betul apabila dilihat dari sudut tertentu.
Sebagai contoh, dalam empat gambar pertama, model yang dihasilkan sebenarnya mempunyai lebih daripada dua telinga. Walaupun gambar keempat kelihatan lebih terperinci, apabila diputar ke sudut tertentu, kita dapati wajah watak itu cekung, dengan telinga terlekat padanya.
Siapa yang tahu?
Ini adalah situasi yang ditunjukkan kepada anda dari beberapa sudut, tetapi ia tidak boleh dilihat dari sudut lain, ia akan mengancam nyawa
Model MVDream yang dihasilkan di hujung kanan adalah jelas tidak sama. Tidak kira bagaimana model 3D diputar, anda tidak akan merasakan apa-apa yang tidak konvensional.
Ini yang disebut sebelum ini, MVDream tahu ilmu fizik dengan baik dan tidak akan mencipta beberapa perkara yang pelik untuk memastikan setiap pandangan mempunyai dua telinga
Adik lelaki itu menunjukkan bahawa menilai model 3D Kunci kejayaan adalah untuk memerhati sama ada perspektif yang berbeza adalah realistik dan berkualiti tinggi
, dan juga memastikan model itu koheren dari segi ruang, bukan seperti model dengan berbilang telinga di atas.
Salah satu kaedah utama menjana model 3D ialah mensimulasikan perspektif kamera dan kemudian menjana apa yang boleh dilihat dari perspektif tertentu.
Dalam erti kata lain, ini dipanggil 2D lifting. Ini bermakna menggabungkan perspektif berbeza bersama-sama untuk membentuk model 3D terakhir.
Situasi berbilang telinga di atas berlaku kerana model generatif tidak memahami sepenuhnya maklumat bentuk keseluruhan objek dalam ruang tiga dimensi. Dan MVDream hanyalah satu langkah besar ke hadapan dalam hal ini.
Model baharu ini menyelesaikan masalah konsistensi sebelumnya dalam perspektif 3D
Pensampelan penyulingan pecahan
Kaedah ini dipanggil pensampelan penyulingan skor dan dibangunkan oleh DreamFusion🜎 pegun teknik pensampelan, kita perlu terlebih dahulu memahami seni bina yang diguna pakai oleh kaedah ini
Dalam erti kata lain, ini sebenarnya hanyalah satu lagi model resapan imej dua dimensi, serupa dengan model DALLE, MidJourney dan Stable Diffusion
Secara lebih khusus, segala-galanya bermula daripada model DreamBooth yang telah dilatih sebelumnya ialah model sumber terbuka berdasarkan graf mentah Stable Diffusion.
Perubahan akan datang, bermakna keadaan telah berubah
#🎜 🎜🎜#Apa yang dilakukan oleh pasukan penyelidik seterusnya ialah memberikan set imej berbilang paparan dan bukannya satu imej sahaja. Langkah ini memerlukan set data tiga dimensi pelbagai objek untuk diselesaikan.Di sini, penyelidik mengambil berbilang paparan objek 3D daripada set data, menggunakannya untuk melatih model dan kemudian menggunakannya untuk menjana pandangan ini ke belakang.
Kaedah khusus ialah menukar blok perhatian diri biru dalam gambar di bawah kepada blok perhatian diri tiga dimensi iaitu penyelidik sahaja perlu menambah satu dimensi untuk membina semula berbilang imej, bukan satu imej.
Dalam gambar di bawah, kita dapat melihat bahawa kamera dan langkah masa dimasukkan ke dalam model untuk setiap paparan untuk membantu model memahami imej mana yang akan digunakan Di mana, dan pandangan mana yang perlu dijana
Kini, semua imej disambungkan bersama dan penjanaan dilakukan bersama-sama juga. Jadi mereka boleh berkongsi maklumat dan lebih memahami gambaran besarnya.
Pertama, teks dimasukkan ke dalam model, dan kemudian model dilatih untuk membina semula objek dengan tepat daripada set data
Dan di sinilah pasukan penyelidik menggunakan proses pensampelan penyulingan pecahan berbilang pandangan. Kini, dengan model resapan berbilang paparan, pasukan boleh menjana berbilang paparan objek.
Seterusnya, kita perlu menggunakan pandangan ini untuk membina semula model 3D yang konsisten dengan dunia sebenar, bukan hanya pandangan
#🎜 🎜#
Di bawah bimbingan rendering awal, penyelidik mula menggunakan berbilang Model resapan perspektif menghasilkan beberapa versi bising bagi imej awal
Untuk model memahami bahawa versi imej yang berbeza perlu dihasilkan, penyelidik menambah bunyi sementara masih mampu Selepas menerima maklumat latar belakang
Seterusnya, model ini boleh digunakan untuk menjana lagi imej yang lebih berkualiti
#🎜🎜 #
Untuk menjana hasil yang lebih baik dalam langkah seterusnya, tujuan langkah ini adalah untuk lebih memahami bahagian imej yang mana model NeRF harus fokus pada
# 🎜 🎜# Ulangi proses ini sehingga model 3D yang memuaskan dijana
#🎜 🎜🎜#
Bagi penilaian kualiti penjanaan imej model resapan berbilang pandangan dan pertimbangan bagaimana reka bentuk berbeza akan mempengaruhi prestasinya, beginilah cara pasukan beroperasi.Pertama, mereka membandingkan pilihan modul perhatian untuk membina model ketekalan pandangan silang.
Pilihan ini termasuk:
(1) Penyegerakan automatik masa satu dimensi digunakan secara meluas dalam video model penyebaran Perhatian;
(3) Gunakan semula modul perhatian diri 2D sedia ada untuk perhatian 3D.
Untuk menunjukkan perbezaan antara modul ini dengan tepat, dalam eksperimen ini, penyelidik menggunakan 8 bingkai perubahan perspektif 90 darjah untuk melatih model agar lebih sepadan dengan tetapan video# 🎜🎜#
Dalam eksperimen, pasukan penyelidik juga mengekalkan resolusi imej yang lebih tinggi, iaitu 512×512 sebagai model SD asal. Seperti yang ditunjukkan dalam rajah di bawah, penyelidik mendapati bahawa walaupun dengan perubahan perspektif yang terhad dalam adegan statik, perhatian diri sementara masih dipengaruhi oleh perubahan kandungan dan tidak dapat mengekalkan konsistensi perspektif# Pasukan membuat hipotesis bahawa ini adalah kerana perhatian sementara hanya boleh bertukar maklumat antara piksel yang sama dalam bingkai yang berbeza, manakala piksel yang sepadan mungkin berjauhan apabila sudut pandangan berubah.
Sebaliknya, menambah perhatian 3D baharu tanpa konsistensi pembelajaran boleh membawa kepada kemerosotan kualiti yang teruk.
Para penyelidik percaya bahawa ini adalah kerana mempelajari parameter baharu dari awal akan menggunakan lebih banyak data latihan dan masa, yang tidak berlaku apabila model tiga dimensi adalah terhad. Berkenaan. Mereka mencadangkan strategi untuk menggunakan semula mekanisme perhatian kendiri 2D untuk mencapai konsistensi optimum tanpa mengurangkan kualiti penjanaan dan bilangan paparan kepada 4, perbezaan antara modul ini akan menjadi lebih kecil. Walau bagaimanapun, untuk mencapai konsistensi yang terbaik, penyelidik membuat pilihan mereka berdasarkan pemerhatian awal dalam eksperimen berikut.
Selain itu, penyelidik melaksanakan pensampelan penyulingan pecahan berbilang pandangan dalam perpustakaan threestudio (thr) dan memperkenalkan Provides panduan untuk penyebaran pelbagai perspektif. Perpustakaan ini melaksanakan kaedah penjanaan model teks-ke-3D yang terkini di bawah rangka kerja bersatu
Para penyelidik menggunakan volum tersirat dalam threestudio Sebagai pelaksanaan perwakilan tiga dimensi, termasuk grid cincang berbilang resolusi
Apabila mengkaji paparan kamera, penyelidik menggunakan pemaparan dengan Set data tiga dimensi telah diambil sampel oleh dua kamera dengan cara yang sama. Pengoptimum AdamW telah digunakan dan kadar pembelajaran ditetapkan kepada 0.01 Diturunkan kepada 0.5 langkah dan 0.02 langkah #
Berikut adalah lebih banyak kes: #🎜 🎜#
Pasukan penyelidik menggunakan teks 2D pada model imej, melakukan sintesis berbilang paparan dan melalui proses berulang, mencipta kaedah model teks kepada 3D
Kaedah baru ini pada masa ini mempunyai beberapa batasan, Masalah utama ialah resolusi imej yang dihasilkan hanya 256x256 piksel, yang boleh dikatakan sangat rendah pastinya akan mengehadkan keluasan kaedah ini sedikit sebanyak, kerana jika set data terlalu kecil, ia tidak akan dapat mencerminkan dunia kita yang kompleks secara lebih realistik.
Atas ialah kandungan terperinci Kejayaan model 3D Vincent! MVDream akan datang, menjana model 3D ultra-realistik dalam satu ayat. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Memanfaatkan kuasa AI di peranti: Membina CLI Chatbot Peribadi Pada masa lalu, konsep pembantu AI peribadi kelihatan seperti fiksyen sains. Bayangkan Alex, seorang peminat teknologi, bermimpi seorang sahabat AI yang pintar, yang tidak bergantung

Pelancaran AI4MH mereka berlaku pada 15 April, 2025, dan Luminary Dr. Tom Insel, M.D., pakar psikiatri yang terkenal dan pakar neurosains, berkhidmat sebagai penceramah kick-off. Dr. Insel terkenal dengan kerja cemerlangnya dalam penyelidikan kesihatan mental dan techno

"Kami mahu memastikan bahawa WNBA kekal sebagai ruang di mana semua orang, pemain, peminat dan rakan kongsi korporat, berasa selamat, dihargai dan diberi kuasa," kata Engelbert, menangani apa yang telah menjadi salah satu cabaran sukan wanita yang paling merosakkan. Anno

Pengenalan Python cemerlang sebagai bahasa pengaturcaraan, terutamanya dalam sains data dan AI generatif. Manipulasi data yang cekap (penyimpanan, pengurusan, dan akses) adalah penting apabila berurusan dengan dataset yang besar. Kami pernah meliputi nombor dan st

Sebelum menyelam, kaveat penting: Prestasi AI adalah spesifik yang tidak ditentukan dan sangat digunakan. Dalam istilah yang lebih mudah, perbatuan anda mungkin berbeza -beza. Jangan ambil artikel ini (atau lain -lain) sebagai perkataan akhir -sebaliknya, uji model ini pada senario anda sendiri

Membina portfolio AI/ML yang menonjol: Panduan untuk Pemula dan Profesional Mewujudkan portfolio yang menarik adalah penting untuk mendapatkan peranan dalam kecerdasan buatan (AI) dan pembelajaran mesin (ML). Panduan ini memberi nasihat untuk membina portfolio

Hasilnya? Pembakaran, ketidakcekapan, dan jurang yang melebar antara pengesanan dan tindakan. Tak satu pun dari ini harus datang sebagai kejutan kepada sesiapa yang bekerja dalam keselamatan siber. Janji Agentic AI telah muncul sebagai titik perubahan yang berpotensi. Kelas baru ini

Impak segera berbanding perkongsian jangka panjang? Dua minggu yang lalu Openai melangkah ke hadapan dengan tawaran jangka pendek yang kuat, memberikan akses kepada pelajar A.S. dan Kanada.


Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

MinGW - GNU Minimalis untuk Windows
Projek ini dalam proses untuk dipindahkan ke osdn.net/projects/mingw, anda boleh terus mengikuti kami di sana. MinGW: Port Windows asli bagi GNU Compiler Collection (GCC), perpustakaan import yang boleh diedarkan secara bebas dan fail pengepala untuk membina aplikasi Windows asli termasuk sambungan kepada masa jalan MSVC untuk menyokong fungsi C99. Semua perisian MinGW boleh dijalankan pada platform Windows 64-bit.

DVWA
Damn Vulnerable Web App (DVWA) ialah aplikasi web PHP/MySQL yang sangat terdedah. Matlamat utamanya adalah untuk menjadi bantuan bagi profesional keselamatan untuk menguji kemahiran dan alatan mereka dalam persekitaran undang-undang, untuk membantu pembangun web lebih memahami proses mengamankan aplikasi web, dan untuk membantu guru/pelajar mengajar/belajar dalam persekitaran bilik darjah Aplikasi web keselamatan. Matlamat DVWA adalah untuk mempraktikkan beberapa kelemahan web yang paling biasa melalui antara muka yang mudah dan mudah, dengan pelbagai tahap kesukaran. Sila ambil perhatian bahawa perisian ini

SecLists
SecLists ialah rakan penguji keselamatan muktamad. Ia ialah koleksi pelbagai jenis senarai yang kerap digunakan semasa penilaian keselamatan, semuanya di satu tempat. SecLists membantu menjadikan ujian keselamatan lebih cekap dan produktif dengan menyediakan semua senarai yang mungkin diperlukan oleh penguji keselamatan dengan mudah. Jenis senarai termasuk nama pengguna, kata laluan, URL, muatan kabur, corak data sensitif, cangkerang web dan banyak lagi. Penguji hanya boleh menarik repositori ini ke mesin ujian baharu dan dia akan mempunyai akses kepada setiap jenis senarai yang dia perlukan.

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma