Rumah >Peranti teknologi >AI >Model Gaussian berbilang pandangan besar LGM: menghasilkan objek 3D berkualiti tinggi dalam 5 saat, tersedia untuk permainan percubaan

Model Gaussian berbilang pandangan besar LGM: menghasilkan objek 3D berkualiti tinggi dalam 5 saat, tersedia untuk permainan percubaan

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBke hadapan: 2024-02-20 15:10:19740semak imbas

Sebagai tindak balas kepada pertumbuhan berterusan dalam permintaan untuk alatan kreatif 3D dalam Metaverse, orang ramai baru-baru ini menunjukkan minat yang tinggi terhadap penjanaan kandungan tiga dimensi (3D AIGC). Pada masa yang sama, penciptaan kandungan 3D juga telah mencapai kemajuan yang ketara dalam kualiti dan kelajuan.

Walaupun model generatif suapan hadapan semasa boleh menjana objek 3D dalam beberapa saat, resolusinya dihadkan oleh pengiraan intensif yang diperlukan semasa latihan, menghasilkan penjanaan kandungan berkualiti rendah. Ini menimbulkan persoalan, bolehkah objek 3D beresolusi tinggi dan berkualiti tinggi dijana dalam masa 5 saat sahaja?

Dalam artikel ini, penyelidik dari Universiti Peking, Nanyang Technological University S-Lab dan Makmal Kepintaran Buatan Shanghai mencadangkan rangka kerja LGM baharu, iaitu Large Gaussian Model, yang merealisasikan transformasi imej pandangan tunggal Atau input teks untuk menjana resolusi tinggi, objek 3D berkualiti tinggi dalam masa 5 saat sahaja.

Pada masa ini, kedua-dua kod dan berat model adalah sumber terbuka. Para penyelidik juga menyediakan Demo dalam talian untuk semua orang mencuba. . : https://github.com/3DTopia/LGM

Model Gaussian berbilang pandangan besar LGM: menghasilkan objek 3D berkualiti tinggi dalam 5 saat, tersedia untuk permainan percubaan Kertas: https://arxiv.org/abs/2402.05054

Demo Dalam Talian: https://huggingface.co/spaces/ashawkey/LGM
Untuk mencapai matlamat sedemikian, penyelidik menghadapi dua cabaran berikut:
Perwakilan 3D yang cekap di bawah amaun pengiraan terhad

Rangkaian penjanaan tulang belakang 3D pada resolusi tinggi

: Kerja penjanaan 3D sedia ada menggunakan transformer padat sebagai rangkaian tulang belakang untuk memastikan jumlah parameter yang cukup padat untuk memodelkan objek universal, tetapi ini dikorbankan pada tahap tertentu Resolusi latihan menghasilkan kualiti objek tiga dimensi akhir yang rendah.

Untuk tujuan ini, kertas kerja ini mencadangkan kaedah baharu untuk mensintesis perwakilan tiga dimensi resolusi tinggi daripada imej empat paparan, dan kemudian gunakan teks sedia ada untuk imej berbilang paparan atau imej tunggal kepada model imej berbilang paparan . Menyokong tugasan Text-to-3D dan Image-to-3D yang berkualiti tinggi .
Secara teknikal, Modul teras LGM ialah Model Gaussian Berbilang Pandangan Besar. Diilhamkan oleh sputtering Gaussian, kaedah ini menggunakan U-Net asimetri yang cekap dan ringan sebagai rangkaian tulang belakang untuk secara langsung meramalkan primitif Gaussian resolusi tinggi daripada imej empat paparan, dan akhirnya menghasilkan imej dari mana-mana sudut pandangan.

Secara khusus, rangkaian tulang belakang U-Net menerima imej daripada empat perspektif dan koordinat Plucker yang sepadan, dan mengeluarkan bilangan tetap ciri Gaussian daripada pelbagai perspektif. Set ciri Gaussian ini dicantumkan terus ke dalam elemen Gaussian terakhir dan imej dari pelbagai sudut tontonan diperoleh melalui pemaparan boleh dibezakan. Dalam proses ini, mekanisme perhatian kendiri pandangan silang digunakan untuk melaksanakan pemodelan korelasi antara pandangan berbeza pada peta ciri resolusi rendah sambil mengekalkan overhed pengiraan yang rendah.

Model Gaussian berbilang pandangan besar LGM: menghasilkan objek 3D berkualiti tinggi dalam 5 saat, tersedia untuk permainan percubaan

Perlu diingat bahawa bukan mudah untuk melatih model sedemikian dengan cekap pada resolusi tinggi. Untuk mencapai latihan yang mantap, penyelidik masih menghadapi dua masalah berikut.

Pertama, imej berbilang paparan konsisten tiga dimensi yang dipaparkan dalam set data objaverse digunakan dalam fasa latihan, manakala dalam fasa inferens, model sedia ada digunakan secara langsung untuk mensintesis imej berbilang perspektif daripada teks atau imej. Memandangkan gambar berbilang paparan yang disintesis berdasarkan model sentiasa menghadapi masalah ketidakkonsistenan berbilang paparan, untuk merapatkan jurang dalam domain ini, artikel ini mencadangkan strategi peningkatan data berdasarkan herotan grid: menggunakan rawak pada gambar daripada tiga paparan dalam ruang imej Herotan untuk mensimulasikan ketidakkonsistenan berbilang paparan.

Kedua, kerana imej berbilang paparan yang dijana semasa peringkat inferens tidak menjamin konsistensi geometri tiga dimensi perspektif kamera, artikel ini juga secara rawak mengganggu pose kamera bagi tiga perspektif untuk mensimulasikan fenomena ini , supaya model boleh berprestasi lebih baik dalam penaakulan Peringkat lebih stabil .

Akhir sekali, primitif Gaussian yang dijanakan dijadikan imej yang sepadan melalui pemaparan boleh dibezakan, dan dipelajari secara langsung hujung ke hujung pada imej dua dimensi melalui pembelajaran diselia.

Selepas latihan selesai, LGM boleh mencapai tugasan Text-to-3D dan Image-to-3D yang berkualiti tinggi melalui model penyebaran imej-ke-multi-view atau teks-ke-multi-view yang sedia ada.

Model Gaussian berbilang pandangan besar LGM: menghasilkan objek 3D berkualiti tinggi dalam 5 saat, tersedia untuk permainan percubaan

Memandangkan teks atau imej input yang sama, kaedah ini boleh menjana pelbagai model 3D berkualiti tinggi.

Model Gaussian berbilang pandangan besar LGM: menghasilkan objek 3D berkualiti tinggi dalam 5 saat, tersedia untuk permainan percubaan

Untuk menyokong lagi tugas-tugas grafik hiliran, penyelidik juga mencadangkan kaedah yang cekap untuk menukar perwakilan Gaussian yang dijana kepada Mesh yang licin dan bertekstur:

Model Gaussian berbilang pandangan besar LGM: menghasilkan objek 3D berkualiti tinggi dalam 5 saat, tersedia untuk permainan percubaan

untuk butiran kertas asal Sila rujuk kepada butiran kertas asal kandungan.

Atas ialah kandungan terperinci Model Gaussian berbilang pandangan besar LGM: menghasilkan objek 3D berkualiti tinggi dalam 5 saat, tersedia untuk permainan percubaan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

for 对象 github 人工智能 transformer https AIGC

Kenyataan：

Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel sebelumnya：Bolehkah AI generatif dan kualiti data wujud bersama?Artikel seterusnya：Bolehkah AI generatif dan kualiti data wujud bersama?

Artikel berkaitan

Lihat lagi