Rumah >Peranti teknologi >AI >Pasukan NUS China mengeluarkan model terbaharu: pembinaan semula 3D paparan tunggal, pantas dan tepat!
Pembinaan semula 3D imej 2D sentiasa menjadi sorotan dalam bidang CV.
Model yang berbeza telah dibangunkan untuk cuba mengatasi masalah ini.
Hari ini, sarjana dari Universiti Nasional Singapura bersama-sama menerbitkan kertas kerja dan membangunkan rangka kerja baharu, Anything-3D, untuk menyelesaikan masalah yang telah lama wujud ini.
Alamat kertas: https://arxiv.org/pdf/2304.10261.pdf
Dengan bantuan model "bahagi segala-galanya" Meta, Anything-3D secara langsung menjadikan mana-mana objek yang dibahagikan menjadi hidup.
Selain itu, dengan menggunakan model Zero-1-to-3, anda boleh mendapatkan corgis pada sudut yang berbeza.
Anda juga boleh melakukan pembinaan semula aksara 3D.
Boleh dikatakan ini adalah satu kejayaan sebenar.
Dalam dunia nyata, pelbagai objek dan persekitaran adalah pelbagai dan kompleks. Oleh itu, tanpa sekatan, pembinaan semula 3D daripada imej RGB tunggal menghadapi banyak kesukaran.
Di sini, penyelidik dari Universiti Nasional Singapura menggabungkan satu siri model bahasa visual dan model segmentasi objek SAM (Segmen-Anything) untuk menjana sistem berbilang fungsi dan boleh dipercayai - —Anything -3D.
Tujuannya adalah untuk menyelesaikan tugas pembinaan semula 3D di bawah keadaan satu perspektif.
Mereka menggunakan model BLIP untuk menjana penerangan tekstur, menggunakan model SAM untuk mengekstrak objek dalam imej, dan kemudian menggunakan teks → model resapan imej Stable Diffusion untuk meletakkan objek ke dalam Nerf (medan sinaran saraf) .
Dalam eksperimen seterusnya, Anything-3D menunjukkan keupayaan pembinaan semula tiga dimensi yang berkuasa. Ia bukan sahaja tepat, tetapi ia mempunyai pelbagai kebolehgunaan.
Anything-3D mempunyai kesan yang jelas dalam menyelesaikan batasan kaedah sedia ada. Para penyelidik menunjukkan kelebihan rangka kerja baharu ini melalui ujian dan penilaian ke atas pelbagai set data.
Dalam gambar di atas, kita dapat lihat, "Corgi menjelirkan lidahnya dan berlari sejauh beribu-ribu batu", "Patung dewi bersayap perak komited dengan kereta mewah" , dan "Imej lembu coklat di padang memakai tali biru di kepalanya."
Ini ialah demonstrasi awal bahawa rangka kerja Anything-3D dengan mahir boleh memulihkan imej paparan tunggal yang diambil dalam mana-mana persekitaran ke dalam bentuk 3D dan menjana tekstur.
Rangka kerja baharu ini secara konsisten memberikan hasil yang sangat tepat walaupun terdapat perubahan besar dalam perspektif kamera dan sifat objek.
Anda mesti tahu bahawa membina semula objek 3D daripada imej 2D adalah teras subjek dalam bidang penglihatan komputer dan mempunyai implikasi yang besar untuk robotik, pemanduan autonomi, realiti tambahan, realiti maya , dan pencetakan tiga dimensi.
Walaupun beberapa kemajuan yang baik telah dicapai dalam beberapa tahun kebelakangan ini, tugas pembinaan semula objek imej tunggal dalam persekitaran yang tidak berstruktur masih merupakan masalah yang sangat menarik dan mendesak untuk diselesaikan.
Pada masa ini, penyelidik ditugaskan untuk menghasilkan perwakilan tiga dimensi bagi satu atau lebih objek daripada imej dua dimensi tunggal Kaedah perwakilan termasuk awan titik, jerat atau perwakilan volum.
Walau bagaimanapun, masalah ini pada asasnya tidak benar.
Disebabkan kekaburan wujud yang dicipta oleh unjuran dua dimensi, adalah mustahil untuk menentukan dengan jelas struktur tiga dimensi sesuatu objek.
Ditambah dengan perbezaan besar dalam bentuk, saiz, tekstur dan rupa, membina semula objek dalam persekitaran semula jadinya adalah sangat kompleks. Di samping itu, objek dalam imej dunia sebenar sering terhalang, yang menghalang pembinaan semula tepat bahagian tersumbat.
Pada masa yang sama, pembolehubah seperti pencahayaan dan bayang-bayang juga boleh sangat mempengaruhi penampilan objek, dan perbezaan sudut dan jarak juga boleh menyebabkan perubahan yang jelas dalam unjuran dua dimensi.
Cukup dengan kesukaran, Anything-3D sedia untuk dimainkan.
Dalam kertas kerja itu, para penyelidik memperkenalkan secara terperinci rangka kerja sistem terobosan ini, yang menyepadukan model bahasa visual dan model pembahagian objek untuk menukar objek 2D menjadi 3D dengan mudah.
Dengan cara ini, sistem dengan fungsi yang berkuasa dan kebolehsuaian yang kuat menjadi. Pembinaan semula pandangan tunggal? Mudah.
Menggabungkan kedua-dua model, kata penyelidik, adalah mungkin untuk mendapatkan semula dan menentukan tekstur tiga dimensi dan geometri imej yang diberikan.
Anything-3D menggunakan model BLIP (Bootstrapping language-image model) untuk melatih terlebih dahulu penerangan teks imej, dan kemudian menggunakan model SAM untuk mengenal pasti kawasan pengedaran objek tersebut.
Seterusnya, gunakan objek tersegmen dan penerangan teks untuk melaksanakan tugas pembinaan semula 3D.
Dalam erti kata lain, kertas kerja ini menggunakan teks 2D terlatih → model penyebaran imej untuk melaksanakan sintesis imej 3D. Di samping itu, penyelidik menggunakan penyulingan pecahan untuk melatih Nerf khusus untuk imej. Sudut kiri atas ialah imej asal 2D, mula-mula melalui SAM untuk membahagikan corgi, kemudian melalui BLIP untuk menjana penerangan teks, dan kemudian menggunakan penyulingan pecahan untuk mencipta Nerf.
Melalui eksperimen yang ketat pada set data yang berbeza, para penyelidik menunjukkan keberkesanan dan kebolehsuaian pendekatan ini, sambil mengatasi keupayaan ketepatan, keteguhan dan pengitlak kaedah sedia ada.
Para penyelidik juga menjalankan analisis komprehensif dan mendalam tentang cabaran sedia ada dalam pembinaan semula objek 3D dalam persekitaran semula jadi, dan meneroka cara rangka kerja baharu itu boleh menyelesaikan masalah sedemikian.
Akhirnya, dengan menyepadukan visi jarak sifar dan keupayaan pemahaman bahasa dalam model asas, rangka kerja baharu boleh membina semula objek daripada pelbagai imej dunia sebenar dan menjana tepat, kompleks dan meluas. perwakilan 3D yang berkenaan.
Boleh dikatakan Anything-3D ialah kejayaan besar dalam bidang pembinaan semula objek 3D.
Berikut adalah lebih banyak contoh:
Air mata zaman pudar meriam, anak babi comel Mini piggy bank, cinnabar merah empat- bangku tinggi berkaki
Rangka kerja baharu ini boleh mengenal pasti kawasan secara interaktif dalam imej paparan tunggal dan mewakili 2D dengan objek pembenaman teks yang dioptimumkan. Akhirnya, model penyulingan pecahan sedar 3D digunakan untuk menjana objek 3D berkualiti tinggi dengan cekap.Ringkasnya, Anything-3D menunjukkan potensi membina semula objek 3D semula jadi daripada imej paparan tunggal. Penyelidik berkata bahawa kualiti pembinaan semula 3D rangka kerja baharu boleh menjadi lebih sempurna dan penyelidik sentiasa berusaha keras untuk meningkatkan kualiti penjanaan. Selain itu, penyelidik menyatakan bahawa penilaian kuantitatif set data 3D seperti sintesis paparan baharu dan pembinaan semula ralat tidak disediakan pada masa ini, tetapi ini akan dimasukkan dalam lelaran kerja pada masa hadapan. Sementara itu, matlamat utama penyelidik adalah untuk mengembangkan rangka kerja ini untuk menampung lebih banyak situasi praktikal, termasuk pemulihan objek dalam pandangan yang jarang. Wang kini merupakan penolong profesor trek tenure di Jabatan ECE Universiti Nasional Singapura (NUS). Sebelum menyertai Universiti Nasional Singapura, beliau adalah Penolong Profesor di Jabatan CS Institut Teknologi Stevens. Sebelum menyertai Stevens, saya berkhidmat sebagai postdoc dalam kumpulan pembentukan imej Profesor Thomas Huang di Institut Beckman di Universiti Illinois di Urbana-Champaign. Wang menerima PhD dari Makmal Penglihatan Komputer Ecole Polytechnique Fédérale de Lausanne (EPFL), diselia oleh Profesor Pascal Fua, dan menerima Sarjana Muda Sains dengan Kepujian Kelas Pertama daripada Jabatan Sains Komputer Universiti Politeknik Hong Kong pada tahun 2010 Sarjana Muda Sains. Mengenai pengarang
Atas ialah kandungan terperinci Pasukan NUS China mengeluarkan model terbaharu: pembinaan semula 3D paparan tunggal, pantas dan tepat!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!