Rumah >Peranti teknologi >AI >Menerobos dinding dimensi, X-Dreamer membawa teks berkualiti tinggi kepada penjanaan 3D, menyepadukan bidang penjanaan 2D dan 3D.

Menerobos dinding dimensi, X-Dreamer membawa teks berkualiti tinggi kepada penjanaan 3D, menyepadukan bidang penjanaan 2D dan 3D.

PHPzke hadapan: 2023-12-15 13:54:33595semak imbas

Dalam beberapa tahun kebelakangan ini, kemajuan ketara telah dicapai dalam menukar teks secara automatik kepada kandungan 3D, didorong oleh pembangunan model resapan terlatih [1, 2, 3]. Antaranya, DreamFusion[4] memperkenalkan kaedah berkesan yang menggunakan model penyebaran 2D terlatih[5] untuk menjana aset 3D secara automatik daripada teks tanpa memerlukan set data aset 3D khusus

Diperkenalkan oleh DreamFusion Inovasi utama ialah algoritma Pensampelan Penyulingan Pecahan (SDS). Algoritma menilai perwakilan 3D tunggal menggunakan model resapan 2D terlatih, seperti NeRF [6], mengoptimumkannya untuk memastikan imej yang diberikan daripada mana-mana perspektif kamera mengekalkan konsistensi yang tinggi dengan teks yang diberikan. Diilhamkan oleh algoritma SDS mani, beberapa karya [7, 8, 9, 10, 11] telah muncul untuk memajukan tugas penjanaan teks-ke-3D dengan menggunakan model penyebaran 2D yang telah terlatih.

Walaupun kemajuan ketara telah dicapai dalam penjanaan teks-ke-3D dengan memanfaatkan model resapan teks-ke-2D yang telah terlatih, masih terdapat jurang medan yang besar antara imej 2D dan aset 3D. Perbezaan ini jelas ditunjukkan dalam Rajah 1.

Pertama, model teks-ke-2D menghasilkan hasil penjanaan agnostik kamera, memfokuskan pada penjanaan imej berkualiti tinggi dari sudut tertentu sambil mengabaikan sudut lain. Sebaliknya, penciptaan kandungan 3D terikat dengan parameter kamera seperti kedudukan, sudut penangkapan dan medan pandangan. Oleh itu, model teks-ke-3D mesti menghasilkan hasil yang berkualiti tinggi ke atas semua parameter kamera yang mungkin.

Selain itu, model generatif teks-ke-2D perlu menjana elemen latar depan dan latar belakang secara serentak untuk mengekalkan keselarasan keseluruhan imej. Sebaliknya, model generatif teks-ke-3D hanya perlu menumpukan pada mencipta objek latar depan. Perbezaan ini membolehkan model teks-ke-3D memperuntukkan lebih banyak sumber dan perhatian untuk mewakili dan menjana objek latar depan dengan tepat. Oleh itu, apabila menggunakan model penyebaran 2D terlatih secara langsung untuk penciptaan aset 3D, perbezaan domain antara penjanaan teks-ke-2D dan teks-ke-3D menjadi halangan prestasi yang jelas

Menerobos dinding dimensi, X-Dreamer membawa teks berkualiti tinggi kepada penjanaan 3D, menyepadukan bidang penjanaan 2D dan 3D.

Rajah 1 Output teks bagi model terjana -ke-2D (kiri) dan model terjana teks-ke-3D (kanan) di bawah gesaan teks yang sama, iaitu "Patung kepala Leonardo DiCaprio."

Untuk menyelesaikan masalah ini, kertas kerja mencadangkan X-Dreamer, kaedah baru untuk penciptaan kandungan teks-ke-3D berkualiti tinggi yang boleh merapatkan jurang teks-ke-2D dan teks-ke-3D antara generasi dengan berkesan.

Komponen utama X-Dreamer ialah dua reka bentuk yang inovatif: Penyesuaian Peringkat Rendah Berpandukan Kamera (CG-LoRA) dan kehilangan Penjajaran Topeng Perhatian (AMA).

Pertama, kaedah sedia ada [7, 8, 9, 10] biasanya menggunakan model resapan pra-latihan 2D [5, 12] untuk penjanaan teks-ke-3D, yang tidak mempunyai sambungan yang wujud dengan parameter kamera. Untuk menangani had ini dan memastikan X-Dreamer menghasilkan hasil yang dipengaruhi secara langsung oleh parameter kamera, makalah ini memperkenalkan CG-LoRA untuk melaraskan model resapan 2D yang telah terlatih. Terutamanya, parameter CG-LoRA dijana secara dinamik berdasarkan maklumat kamera semasa setiap lelaran, dengan itu mewujudkan hubungan yang teguh antara model teks-ke-3D dan parameter kamera.

Kedua, model resapan teks-ke-2D pra-terlatih memperuntukkan perhatian kepada penjanaan latar depan dan latar belakang, manakala penciptaan aset 3D memerlukan lebih perhatian kepada penjanaan objek latar depan yang tepat. Untuk menangani isu ini, makalah itu mencadangkan kehilangan AMA, yang menggunakan topeng binari objek 3D untuk membimbing peta perhatian model penyebaran terlatih untuk mengutamakan penciptaan objek latar depan. Dengan menggabungkan modul ini, X-Dreamer mengutamakan penjanaan objek latar depan, dengan ketara meningkatkan kualiti keseluruhan kandungan 3D yang dijana.

Menerobos dinding dimensi, X-Dreamer membawa teks berkualiti tinggi kepada penjanaan 3D, menyepadukan bidang penjanaan 2D dan 3D.

Laman utama projek:

https://xmu-xiaoma666.github.io/Projects/X-Dreamer/

halaman utama Githubia /X-Dreamer

PerbincanganArtikelAlamat: https://arxiv.org/abs/2312.00085

X-Dreamer telah membuat sumbangan teks-ke-3 bidang berikut:

Makalah ini mencadangkan pendekatan baru, X-Dreamer, untuk penciptaan kandungan teks-ke-3D yang berkualiti tinggi, dengan berkesan merapatkan jurang utama antara penjanaan teks-ke-2D dan teks-ke-3D .
Untuk meningkatkan penjajaran antara hasil yang dijana dan perspektif kamera, kertas kerja mencadangkan CG-LoRA, yang menggunakan maklumat kamera untuk menjana parameter khusus model resapan 2D secara dinamik.
Untuk mengutamakan penciptaan objek latar depan dalam model teks-ke-3D, makalah ini memperkenalkan kehilangan AMA, yang menggunakan topeng binari objek 3D latar depan untuk membimbing peta perhatian model penyebaran 2D.

Kaedah

X-Dreamer mengandungi dua peringkat utama: pembelajaran geometri dan pembelajaran rupa. Untuk pembelajaran geometri, kajian ini menggunakan DMTET sebagai perwakilan 3D dan menggunakan ellipsoid 3D untuk memulakannya. Apabila dimulakan, fungsi kerugian menggunakan kerugian ralat kuasa dua (MSE). Seterusnya, DMTET dan CG-LoRA dioptimumkan menggunakan kehilangan Pensampelan Penyulingan Pecahan (SDS) dan kehilangan AMA yang dicadangkan dalam kajian ini untuk memastikan penjajaran antara perwakilan 3D dan isyarat teks input

Untuk pembelajaran penampilan, kertas kerja menggunakan dua arah. Pemodelan fungsi pengedaran pantulan (BRDF). Secara khusus, kertas itu menggunakan MLP dengan parameter yang boleh dilatih untuk meramalkan bahan permukaan. Sama seperti peringkat pembelajaran geometri, kertas ini menggunakan kehilangan SDS dan kehilangan AMA untuk mengoptimumkan parameter boleh dilatih MLP dan CG-LoRA untuk mencapai penjajaran antara perwakilan 3D dan isyarat teks. Rajah 2 menunjukkan komposisi terperinci X-Dreamer.

Menerobos dinding dimensi, X-Dreamer membawa teks berkualiti tinggi kepada penjanaan 3D, menyepadukan bidang penjanaan 2D dan 3D.

Rajah 2 Gambaran Keseluruhan X-Dreamer, termasuk pembelajaran geometri dan pembelajaran rupa.

Pembelajaran Geometri(Pembelajaran Geometri)

Dalam modul ini, X-Dreamer menggunakan rangkaian MLP Menerobos dinding dimensi, X-Dreamer membawa teks berkualiti tinggi kepada penjanaan 3D, menyepadukan bidang penjanaan 2D dan 3D. untuk membuat parameter DMTET menjadi 3DMTET. Untuk meningkatkan kestabilan pemodelan geometri, artikel ini menggunakan ellipsoid 3D sebagai konfigurasi awal DMTET . Untuk setiap bucu Menerobos dinding dimensi, X-Dreamer membawa teks berkualiti tinggi kepada penjanaan 3D, menyepadukan bidang penjanaan 2D dan 3D. kepunyaan jejaring tetrahedral , kami melatih untuk meramalkan dua kuantiti penting: nilai SDF dan ubah bentuk mengimbangi . Untuk memulakan sebagai ellipsoid, artikel ini mengambil sampel N titik yang diagihkan sama rata dalam ellipsoid dan mengira nilai SDF yang sepadan Menerobos dinding dimensi, X-Dreamer membawa teks berkualiti tinggi kepada penjanaan 3D, menyepadukan bidang penjanaan 2D dan 3D. . Selepas itu, kehilangan min kuasa dua ralat (MSE) digunakan untuk mengoptimumkan . Proses pengoptimuman ini memastikan bahawa DMTET dimulakan dengan berkesan untuk menyerupai ellipsoid 3D. Formula untuk kehilangan MSE adalah seperti berikut: Menerobos dinding dimensi, X-Dreamer membawa teks berkualiti tinggi kepada penjanaan 3D, menyepadukan bidang penjanaan 2D dan 3D.

Menerobos dinding dimensi, X-Dreamer membawa teks berkualiti tinggi kepada penjanaan 3D, menyepadukan bidang penjanaan 2D dan 3D.

Selepas memulakan geometri, selaraskan geometri DMTET dengan gesaan teks input. Ini dilakukan dengan menggunakan teknik pemaparan pembezaan untuk menjana peta biasa n dan topeng m objek daripada DMTET yang dimulakan Menerobos dinding dimensi, X-Dreamer membawa teks berkualiti tinggi kepada penjanaan 3D, menyepadukan bidang penjanaan 2D dan 3D. diberi pose kamera sampel rawak c. Selepas itu, peta biasa n dimasukkan ke dalam model Resapan Stabil (SD) beku dengan pembenaman CG-LoRA yang boleh dilatih, dan parameter dalam Menerobos dinding dimensi, X-Dreamer membawa teks berkualiti tinggi kepada penjanaan 3D, menyepadukan bidang penjanaan 2D dan 3D. dikemas kini menggunakan kehilangan SDS, ditakrifkan seperti berikut:

Menerobos dinding dimensi, X-Dreamer membawa teks berkualiti tinggi kepada penjanaan 3D, menyepadukan bidang penjanaan 2D dan 3D.

di mana, Menerobos dinding dimensi, X-Dreamer membawa teks berkualiti tinggi kepada penjanaan 3D, menyepadukan bidang penjanaan 2D dan 3D. mewakili parameter SD dan ialah ramalan hingar SD di bawah tahap hingar tertentu t dan pembenaman teks y. Tambahan pula, , dengan mewakili bunyi yang diambil sampel daripada taburan normal. Pelaksanaan Menerobos dinding dimensi, X-Dreamer membawa teks berkualiti tinggi kepada penjanaan 3D, menyepadukan bidang penjanaan 2D dan 3D. , dan adalah berdasarkan DreamFusion [4].

Tambahan pula, untuk memfokuskan SD pada penjanaan objek latar depan, X-Dreamer memperkenalkan kehilangan AMA tambahan untuk menyelaraskan topeng objek dengan peta perhatian SD seperti berikut:

Menerobos dinding dimensi, X-Dreamer membawa teks berkualiti tinggi kepada penjanaan 3D, menyepadukan bidang penjanaan 2D dan 3D.

mewakili bilangan lapisan perhatian, ialah peta perhatian lapisan perhatian ke-i. Fungsi

🎜🎜 digunakan untuk melaraskan saiz topeng objek 3D yang diberikan untuk memastikan saiznya sejajar dengan saiz peta perhatian. 🎜🎜🎜🎜🎜Pembelajaran Penampilan🎜(🎜Pembelajaran Penampilan🎜)🎜🎜

Selepas memperoleh geometri objek 3D, matlamat artikel ini adalah untuk mengira rupa objek 3D menggunakan model bahan Rendering Berasaskan Fizikal (PBR). Model material termasuk istilah resapan Menerobos dinding dimensi, X-Dreamer membawa teks berkualiti tinggi kepada penjanaan 3D, menyepadukan bidang penjanaan 2D dan 3D. , istilah kekasaran dan metalliciti , dan istilah perubahan biasa . Untuk sebarang titik

pada permukaan geometri, multilayer perceptron (MLP) yang diparameterkan oleh Menerobos dinding dimensi, X-Dreamer membawa teks berkualiti tinggi kepada penjanaan 3D, menyepadukan bidang penjanaan 2D dan 3D. digunakan untuk mendapatkan tiga sebutan material, yang boleh dinyatakan seperti berikut:

Menerobos dinding dimensi, X-Dreamer membawa teks berkualiti tinggi kepada penjanaan 3D, menyepadukan bidang penjanaan 2D dan 3D.

di mana, Menerobos dinding dimensi, X-Dreamer membawa teks berkualiti tinggi kepada penjanaan 3D, menyepadukan bidang penjanaan 2D dan 3D. Mewakili pengekodan kedudukan menggunakan teknologi grid cincang. Selepas itu, setiap piksel imej yang diberikan boleh dikira menggunakan formula berikut:

Menerobos dinding dimensi, X-Dreamer membawa teks berkualiti tinggi kepada penjanaan 3D, menyepadukan bidang penjanaan 2D dan 3D.

Antaranya, Menerobos dinding dimensi, X-Dreamer membawa teks berkualiti tinggi kepada penjanaan 3D, menyepadukan bidang penjanaan 2D dan 3D. mewakili nilai piksel titik pada permukaan objek 3D yang diberikan dari arah . mewakili hemisfera yang ditakrifkan oleh set arah kejadian yang memenuhi syarat , di mana Menerobos dinding dimensi, X-Dreamer membawa teks berkualiti tinggi kepada penjanaan 3D, menyepadukan bidang penjanaan 2D dan 3D. mewakili arah kejadian dan mewakili permukaan normal pada titik . sepadan dengan cahaya kejadian dari peta persekitaran yang sudah siap dan ialah Fungsi Pengedaran Pantulan Dwi Arah (BRDF) yang berkaitan dengan sifat bahan (iaitu Menerobos dinding dimensi, X-Dreamer membawa teks berkualiti tinggi kepada penjanaan 3D, menyepadukan bidang penjanaan 2D dan 3D. ). Dengan mengagregatkan semua warna piksel yang diberikan, imej yang diberikan diperoleh. Sama seperti peringkat pembelajaran geometri, imej yang dihasilkan dimasukkan ke dalam SD dan dioptimumkan Menerobos dinding dimensi, X-Dreamer membawa teks berkualiti tinggi kepada penjanaan 3D, menyepadukan bidang penjanaan 2D dan 3D. menggunakan kehilangan SDS dan kehilangan AMA.

Camera-Guided Low-Rank Adaptation (CG-LoRA)

Untuk menyelesaikan masalah penjanaan hasil 3D sub-optimum yang disebabkan oleh jurang domain 2, D dan penjanaan teks 3 - Dreamer mencadangkan kaedah penyesuaian peringkat rendah berdasarkan panduan kamera

Seperti yang ditunjukkan dalam Rajah 3, parameter kamera dan teks peka arah digunakan untuk membimbing penjanaan parameter dalam CG-LoRA, supaya X-Dreamer boleh berkesan melihat kedudukan kamera dan maklumat arah.

Menerobos dinding dimensi, X-Dreamer membawa teks berkualiti tinggi kepada penjanaan 3D, menyepadukan bidang penjanaan 2D dan 3D.

Rajah 3 Ilustrasi CG-LoRA berpandukan kamera.

Secara khusus, diberikan gesaan teks Menerobos dinding dimensi, X-Dreamer membawa teks berkualiti tinggi kepada penjanaan 3D, menyepadukan bidang penjanaan 2D dan 3D. dan parameter kamera , mula-mula gunakan pengekod CLIP teks pra-latihan dan MLP yang boleh dilatih untuk menayangkan input ini ke dalam ruang ciri:

Menerobos dinding dimensi, X-Dreamer membawa teks berkualiti tinggi kepada penjanaan 3D, menyepadukan bidang penjanaan 2D dan 3D.

Antaranya,

dan Menerobos dinding dimensi, X-Dreamer membawa teks berkualiti tinggi kepada penjanaan 3D, menyepadukan bidang penjanaan 2D dan 3D. masing-masing ialah ciri teks dan kamera. Selepas itu, dua matriks peringkat rendah digunakan untuk projek dan ke dalam matriks pengurangan dimensi yang boleh dilatih di CG-LORA: Menerobos dinding dimensi, X-Dreamer membawa teks berkualiti tinggi kepada penjanaan 3D, menyepadukan bidang penjanaan 2D dan 3D.

Menerobos dinding dimensi, X-Dreamer membawa teks berkualiti tinggi kepada penjanaan 3D, menyepadukan bidang penjanaan 2D dan 3D.

di mana,

dan Menerobos dinding dimensi, X-Dreamer membawa teks berkualiti tinggi kepada penjanaan 3D, menyepadukan bidang penjanaan 2D dan 3D. adalah CG-LORA daripada matriks pengurangan dua dimensi. Fungsi

digunakan untuk mengubah bentuk tensor daripada

kepada . Menerobos dinding dimensi, X-Dreamer membawa teks berkualiti tinggi kepada penjanaan 3D, menyepadukan bidang penjanaan 2D dan 3D.

Menerobos dinding dimensi, X-Dreamer membawa teks berkualiti tinggi kepada penjanaan 3D, menyepadukan bidang penjanaan 2D dan 3D. dan ialah dua matriks peringkat rendah. Oleh itu, ia boleh diuraikan menjadi hasil darab dua matriks untuk mengurangkan parameter yang boleh dilatih dalam pelaksanaan, iaitu Menerobos dinding dimensi, X-Dreamer membawa teks berkualiti tinggi kepada penjanaan 3D, menyepadukan bidang penjanaan 2D dan 3D. ; ialah nombor kecil (cth: 4). Mengikut komposisi LoRA, matriks pengembangan dimensi dimulakan kepada sifar untuk memastikan model memulakan latihan dengan parameter pra-latihan SD. Oleh itu, formula proses suapan CG-LoRA adalah seperti berikut: Menerobos dinding dimensi, X-Dreamer membawa teks berkualiti tinggi kepada penjanaan 3D, menyepadukan bidang penjanaan 2D dan 3D. di mana, mewakili parameter beku model SD pra-latihan, dan ialah operasi lata. Dalam pelaksanaan kaedah ini, CG-LoRA disepadukan ke dalam lapisan pembenaman linear modul perhatian dalam SD untuk menangkap maklumat orientasi dan kamera dengan berkesan. Menerobos dinding dimensi, X-Dreamer membawa teks berkualiti tinggi kepada penjanaan 3D, menyepadukan bidang penjanaan 2D dan 3D. Apa yang perlu dinyatakan semula ialah: Kehilangan Penjajaran Topeng Perhatian (Kehilangan AMA)

Menerobos dinding dimensi, X-Dreamer membawa teks berkualiti tinggi kepada penjanaan 3D, menyepadukan bidang penjanaan 2D dan 3D.

SD dilatih terlebih dahulu untuk menjana imej 2D dengan mengambil kira elemen latar depan dan latar belakang. Walau bagaimanapun, penjanaan teks-ke-3D memerlukan lebih perhatian kepada penjanaan objek latar depan. Memandangkan keperluan ini, X-Dreamer mencadangkan Kehilangan Penjajaran Topeng Perhatian (Kehilangan AMA) untuk menjajarkan peta perhatian SD dengan imej topeng yang diberikan bagi objek 3D. Khususnya, untuk setiap lapisan perhatian dalam SD pra-latihan, kaedah ini menggunakan ciri imej pertanyaan

Menerobos dinding dimensi, X-Dreamer membawa teks berkualiti tinggi kepada penjanaan 3D, menyepadukan bidang penjanaan 2D dan 3D. dan ciri label CLS utama untuk mengira peta perhatian. Formula pengiraan adalah seperti berikut:

Antaranya, mewakili bilangan kepala dalam mekanisme perhatian berbilang kepala, mewakili peta perhatian, dan kemudian peta perhatian keseluruhan dikira dengan purata nilai perhatian peta perhatian dalam semua kepala perhatian. Memandangkan fungsi softmax digunakan untuk menormalkan nilai peta perhatian, nilai pengaktifan dalam peta perhatian mungkin menjadi sangat kecil apabila resolusi ciri imej adalah tinggi. Walau bagaimanapun, menjajarkan terus peta perhatian dengan topeng objek 3D yang diberikan adalah tidak optimum, memandangkan setiap elemen dalam topeng objek 3D yang diberikan ialah nilai binari 0 atau 1. Untuk menyelesaikan masalah ini, kertas kerja mencadangkan teknik normalisasi yang memetakan nilai dalam peta perhatian kepada antara (0, 1). Formula untuk proses normalisasi ini adalah seperti berikut:

di mana
mewakili nilai pemalar yang kecil (seperti
) untuk mengelakkan 0 daripada muncul dalam penyebut. Akhir sekali, kehilangan AMA digunakan untuk menyelaraskan peta perhatian semua lapisan perhatian kepada topeng yang diberikan objek 3D. Hasil eksperimen

Kertas ini menggunakan empat GPU Nvidia RTX 3090 dan perpustakaan PyTorch untuk menjalankan eksperimen. Untuk mengira kehilangan SDS, model Stable Diffusion yang dilaksanakan melalui Hugging Face Diffusers telah digunakan. Untuk pengekod DMTET dan bahan, ia dilaksanakan sebagai MLP dua lapisan dan MLP satu lapisan masing-masing, dengan dimensi lapisan tersembunyi 32.

Mulakan dari ellipsoid untuk menjana teks-ke-3D
Kertas menunjukkan hasil penjanaan teks-ke-3D X-Dreamer menggunakan bentuk elips, seperti yang ditunjukkan dalam bentuk geometri awal Rajah 4 ditunjukkan. Hasilnya menunjukkan keupayaan X-Dreamer untuk menjana objek 3D yang berkualiti tinggi dan fotorealistik yang sepadan dengan tepat dengan gesaan teks input.

Rajah 4 Menggunakan ellipsoid sebagai titik permulaan untuk penjanaan teks-ke-3D

Bermula dari grid berbutir kasar untuk penjanaan teks-ke-3D Walaupun Sebilangan besar jejaring berbutir kasar boleh dimuat turun dari Internet, tetapi menggunakan jejaring ini secara langsung untuk mencipta kandungan 3D selalunya mengakibatkan prestasi yang lemah kerana kekurangan perincian geometri. Walau bagaimanapun, jerat ini boleh memberikan X-Dreamer dengan maklumat terdahulu bentuk 3D yang lebih baik daripada ellipsoid 3D.
Oleh itu, anda juga boleh menggunakan grid panduan berbutir kasar untuk memulakan DMTET dan bukannya menggunakan ellipsoid. Seperti yang ditunjukkan dalam Rajah 5, X-Dreamer boleh menjana aset 3D dengan perincian geometri yang tepat berdasarkan teks yang diberikan, walaupun mesh berbutir kasar yang disediakan tidak mempunyai butiran.

Rajah 5 Penjanaan Teks-ke-3D bermula daripada jaringan berbutir kasar.

Apa yang perlu ditulis semula ialah: Perbandingan Kualitatif.

Untuk menilai keberkesanan X-Dreamer, kertas kerja ini membandingkannya dengan empat kaedah lanjutan: DreamFusion [4], Magic3D [8] , Fantasia3D 7] dan ProlificDreamer [11], seperti yang ditunjukkan dalam Rajah 6

Jika dibandingkan dengan kaedah berasaskan SDS [4, 7, 8], X-Dreamer mengatasinya dalam menjana aset 3D yang berkualiti tinggi dan realistik. Tambahan pula, X-Dreamer menghasilkan kandungan 3D dengan kesan visual yang setanding atau lebih baik berbanding kaedah berasaskan VSD [11] sambil memerlukan masa pengoptimuman yang kurang ketara. Secara khusus, proses pembelajaran geometri dan penampilan hanya mengambil masa kira-kira 27 minit untuk X-Dreamer, berbanding lebih daripada 8 jam untuk ProlificDreamer.

Rajah 6 Perbandingan dengan kaedah terkini (SOTA).

Kandungan yang perlu ditulis semula ialah: Eksperimen ablasi

Modul ablasi

yang dijalankan untuk memahami dengan mendalam tentang kehilangan CG, ketepatan dan ketetapan CG. kajian ablasi, di mana setiap Modul ditambah secara individu untuk menilai kesannya. Seperti yang ditunjukkan dalam Rajah 7, keputusan ablasi menunjukkan bahawa apabila CG-LoRA dikecualikan daripada X-Dreamer, kualiti geometri dan rupa objek 3D yang dijana menurun dengan ketara.
Selain itu, kehilangan AMA X-Dreamer juga mempunyai kesan buruk pada geometri dan kesetiaan penampilan aset 3D yang dijana. Ini perlu ditulis semula: Eksperimen ablasi menyediakan penyiasatan berharga ke atas sumbangan individu kerugian CG-LoRA dan AMA dalam meningkatkan geometri, rupa dan kualiti keseluruhan objek 3D yang dijana.

Rajah 7 Kajian Ablasi X-Dreamer.

Perbandingan peta perhatian dengan dan tanpa kehilangan AMA

Tujuan memperkenalkan kehilangan AMA adalah untuk memfokuskan perhatian pada objek latar depan semasa proses denoising. Ini dicapai dengan menjajarkan peta perhatian SD dengan topeng pemaparan objek 3D. Untuk menilai keberkesanan kehilangan AMA dalam mencapai matlamat ini, kertas kerja ini membandingkan peta perhatian SD dengan dan tanpa kehilangan AMA dalam pembelajaran geometri dan peringkat pembelajaran rupa masing-masing
Seperti yang ditunjukkan dalam Rajah 8, ia boleh diperhatikan. bahawa menambah AMA Kehilangan bukan sahaja menambah baik geometri dan penampilan aset 3D yang dijana, ia juga membolehkan SD menumpukan perhatiannya secara khusus pada kawasan objek latar depan. Hasil visualisasi mengesahkan keberkesanan kehilangan AMA dalam membimbing perhatian SD, dengan itu meningkatkan kualiti geometri dan peringkat pembelajaran rupa dan pemfokusan objek latar depan

Apa yang perlu ditulis semula ialah: Rajah 8 menunjukkan perhatian Hasil visualisasi plot daya, render mask dan imej yang diberikan dengan dan tanpa kehilangan AMA
Penyelidikan ini memperkenalkan rangka kerja terobosan yang dipanggil X-Dreamer, yang bertujuan untuk menyelesaikan jurang teks-ke-2D dan teks-ke-Domain antara 3D penjanaan untuk meningkatkan penjanaan teks-ke-3D. Untuk mencapai matlamat ini, kertas kerja pertama kali mencadangkan CG-LoRA, sebuah modul yang menggabungkan maklumat tiga dimensi yang berkaitan (termasuk teks dan parameter kamera yang mengetahui arah) ke dalam model Resapan Stabil (SD) yang telah terlatih. Dengan berbuat demikian, makalah ini dapat menangkap maklumat yang berkaitan dengan domain tiga dimensi dengan berkesan. Tambahan pula, kertas kerja ini mereka bentuk kehilangan AMA untuk menyelaraskan peta perhatian yang dijana SD dengan topeng pemaparan objek 3D. Matlamat utama kehilangan AMA adalah untuk membimbing fokus teks kepada model 3D ke arah penjanaan objek latar depan. Melalui eksperimen yang meluas, kertas kerja ini menilai secara menyeluruh keberkesanan kaedah yang dicadangkan dan menunjukkan bahawa X-Dreamer mampu menjana kandungan 3D yang berkualiti tinggi dan realistik berdasarkan gesaan teks yang diberikan 🎜🎜

Atas ialah kandungan terperinci Menerobos dinding dimensi, X-Dreamer membawa teks berkualiti tinggi kepada penjanaan 3D, menyepadukan bidang penjanaan 2D dan 3D.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

对象 github 算法 pytorch stable diffusion DreamFusion https

Kenyataan：

Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel sebelumnya：Microsoft mengeluarkan dokumen: Prestasi model AI Phi-2 mengatasi Google Gemini Nano-2, dengan saiz parameter mencecah 2.7 bilionArtikel seterusnya：Microsoft mengeluarkan dokumen: Prestasi model AI Phi-2 mengatasi Google Gemini Nano-2, dengan saiz parameter mencecah 2.7 bilion

Artikel berkaitan

Lihat lagi