Rumah  >  Artikel  >  Peranti teknologi  >  Menggabungkan model resapan dengan NeRF, Tsinghua Wensheng mencadangkan kaedah 3D baharu untuk mencapai SOTA

Menggabungkan model resapan dengan NeRF, Tsinghua Wensheng mencadangkan kaedah 3D baharu untuk mencapai SOTA

王林
王林ke hadapan
2024-01-02 16:52:351201semak imbas

Model AI yang menggunakan teks untuk mensintesis grafik 3D mempunyai SOTA baharu!

Baru-baru ini, kumpulan penyelidik Profesor Liu Yongjin dari Universiti Tsinghua mencadangkan kaedah baharu Wensheng 3D berdasarkan model resapan.

Kedua-dua ketekalan antara sudut tontonan yang berbeza dan padanan dengan kata-kata pantas telah dipertingkatkan dengan banyak berbanding sebelum ini.

Menggabungkan model resapan dengan NeRF, Tsinghua Wensheng mencadangkan kaedah 3D baharu untuk mencapai SOTAPictures

Vincent 3D ialah kandungan penyelidikan hangat AIGC 3D dan telah mendapat perhatian meluas daripada ahli akademik dan industri.

Model baharu yang dicadangkan oleh pasukan penyelidik Profesor Liu Yongjin dipanggil TICD (Text-Image Conditioned Diffusion), yang telah mencapai tahap SOTA pada set data T3Bench.

Kertas berkaitan telah diterbitkan dan kod tersebut akan menjadi sumber terbuka tidak lama lagi.

Hasil penilaian telah mencapai SOTA

Untuk menilai kesan kaedah TICD, pasukan penyelidik terlebih dahulu menjalankan eksperimen kualitatif dan membandingkan beberapa kaedah yang lebih baik sebelum ini.

Hasilnya menunjukkan bahawa grafik 3D yang dijana oleh kaedah TICD mempunyai kualiti yang lebih baik, grafik yang lebih jelas dan tahap pemadanan yang lebih tinggi dengan perkataan yang cepat.

Menggabungkan model resapan dengan NeRF, Tsinghua Wensheng mencadangkan kaedah 3D baharu untuk mencapai SOTAPictures

Untuk menilai lagi prestasi model ini, pasukan menguji TICD secara kuantitatif dengan kaedah ini pada set data T3Bench.

Hasilnya menunjukkan bahawa TICD mencapai hasil terbaik dalam tiga set pantas objek tunggal, objek tunggal dengan latar belakang dan berbilang objek, membuktikan kelebihan keseluruhannya dalam kualiti penjanaan dan penjajaran teks.

Menggabungkan model resapan dengan NeRF, Tsinghua Wensheng mencadangkan kaedah 3D baharu untuk mencapai SOTAPictures

Selain itu, untuk menilai lebih lanjut penjajaran teks model-model ini, pasukan penyelidik juga menguji persamaan kosinus CLIP antara gambar yang diberikan oleh objek 3D dan perkataan gesaan asal, dan hasilnya adalah masih prestasi TICD optimum.

Menggabungkan model resapan dengan NeRF, Tsinghua Wensheng mencadangkan kaedah 3D baharu untuk mencapai SOTA

Jadi, bagaimanakah kaedah TICD mencapai kesan sedemikian?

Menggabungkan ketekalan berbilang paparan sebelum pengawasan NeRF

Kaedah penjanaan teks 3D arus perdana kebanyakannya menggunakan model resapan 2D terlatih untuk menjana dengan mengoptimumkan Medan Sinaran Neural (NeRF) melalui Persampelan Penyulingan Skor (SDS) model 3D jenama baharu.

Walau bagaimanapun, penyeliaan yang disediakan oleh model resapan terlatih ini adalah terhad kepada teks input itu sendiri, dan tidak mengekang ketekalan antara berbilang paparan, dan boleh menyebabkan masalah seperti struktur geometri terjana yang lemah.

Untuk memperkenalkan ketekalan berbilang paparan dalam model penyebaran sebelum ini, beberapa kajian baru-baru ini memperhalusi model resapan 2D dengan menggunakan data berbilang paparan, tetapi masih kekurangan kesinambungan antara paparan yang terperinci.

Untuk menyelesaikan cabaran ini, kaedah TICD menggabungkan imej berbilang paparan berhawa teks dan imej berhawa dingin ke dalam isyarat penyeliaan yang dioptimumkan NeRF, masing-masing memastikan penjajaran maklumat 3D dan perkataan segera serta korelasi yang kukuh antara pandangan berbeza bagi Objek 3D dengan berkesan meningkatkan kualiti model 3D yang dihasilkan.

Menggabungkan model resapan dengan NeRF, Tsinghua Wensheng mencadangkan kaedah 3D baharu untuk mencapai SOTAPictures

Dalam aliran kerja, TICD mula-mula mengambil sampel beberapa set perspektif kamera rujukan ortogon, menggunakan NeRF untuk memberikan paparan rujukan yang sepadan, dan kemudian menggunakan model resapan bersyarat berasaskan teks pada paparan rujukan ini untuk mengekang kandungan dan konsistensi keseluruhan teks.

Atas dasar ini, pilih beberapa set perspektif kamera rujukan dan berikan pandangan daripada perspektif baharu tambahan untuk setiap perspektif. Kemudian, hubungan pose antara dua pandangan dan perspektif digunakan sebagai keadaan baharu, dan model resapan bersyarat berasaskan imej digunakan untuk mengekang ketekalan butiran antara perspektif yang berbeza.

Menggabungkan isyarat penyeliaan bagi dua model resapan, TICD boleh mengemas kini parameter rangkaian NeRF dan mengoptimumkan secara berulang sehingga model NeRF terakhir diperoleh, dan menghasilkan kandungan 3D yang berkualiti tinggi, jelas dari segi geometri dan teks konsisten.

Selain itu, kaedah TICD secara berkesan boleh menghapuskan masalah seperti kehilangan maklumat geometri, penjanaan maklumat geometri yang tidak betul yang berlebihan, dan kekeliruan warna yang mungkin berlaku apabila kaedah sedia ada menghadapi input teks tertentu.

Alamat kertas: https://www.php.cn/link/8553adf92deaf5279bcc6f9813c8fdcc


Atas ialah kandungan terperinci Menggabungkan model resapan dengan NeRF, Tsinghua Wensheng mencadangkan kaedah 3D baharu untuk mencapai SOTA. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam