Rumah >Peranti teknologi >AI >Pembinaan semula 3D wajah Jimmy Lin boleh dicapai dengan dua A100 dan CNN 2D!
Teknologi pembinaan semula tiga dimensi (Pembinaan Semula 3D) sentiasa menjadi bidang penyelidikan utama dalam bidang grafik komputer dan penglihatan komputer.
Ringkasnya, pembinaan semula 3D adalah untuk memulihkan struktur pemandangan 3D berdasarkan imej 2D.
Dikatakan bahawa selepas Jimmy Lin mengalami kemalangan kereta, pelan pembinaan semula wajahnya menggunakan pembinaan semula tiga dimensi.
Malah, teknologi pembinaan semula 3D telah digunakan dalam permainan, filem, pemetaan , kedudukan, navigasi, Ia telah digunakan secara meluas dalam bidang pemanduan autonomi, VR/AR, pembuatan industri dan barangan pengguna.
Dengan pembangunan GPU dan pengkomputeran teragih, serta perkakasan, kamera kedalaman seperti Kinect Microsoft, XTion ASUS dan RealSense Intel telah beransur-ansur matang, dan kos pembinaan semula 3D telah meningkat Menunjukkan arah aliran menurun.
Dari segi operasi, proses pembinaan semula 3D boleh dibahagikan secara kasar kepada lima langkah.
Langkah pertama ialah pemerolehan imej.
Memandangkan pembinaan semula 3D ialah operasi songsang kamera, adalah perlu untuk menggunakan kamera terlebih dahulu untuk mendapatkan imej 2D objek 3D.
Langkah ini tidak boleh diabaikan, kerana keadaan pencahayaan, geometri kamera, dll. mempunyai kesan yang besar pada pemprosesan imej seterusnya.
Langkah kedua ialah penentukuran kamera.
Langkah ini adalah untuk menggunakan imej yang ditangkap oleh kamera untuk memulihkan objek dalam ruang.
Biasanya diandaikan bahawa terdapat hubungan linear antara imej yang ditangkap oleh kamera dan objek dalam ruang tiga dimensi Proses menyelesaikan parameter hubungan linear adalah dipanggil penentukuran kamera.
Langkah ketiga ialah pengekstrakan ciri.
Ciri terutamanya termasuk titik ciri, garis ciri dan wilayah.
Dalam kebanyakan kes, titik ciri digunakan sebagai primitif yang sepadan Bentuk titik ciri diekstrak adalah berkait rapat dengan strategi pemadanan yang digunakan.
Oleh itu, apabila mengekstrak titik ciri, anda perlu terlebih dahulu menentukan kaedah pemadanan yang hendak digunakan.
Langkah keempat ialah pemadanan stereo.
Padanan stereo merujuk kepada mewujudkan kesesuaian antara pasangan imej berdasarkan ciri yang diekstrak, iaitu titik pengimejan titik ruang fizikal yang sama dalam dua imej yang berbeza.
Langkah kelima ialah pembinaan semula tiga dimensi.
Dengan hasil padanan yang agak tepat, digabungkan dengan parameter dalaman dan luaran penentukuran kamera, maklumat pemandangan tiga dimensi boleh dipulihkan.
Lima langkah ini saling mengunci Hanya apabila setiap pautan dilakukan dengan ketepatan tinggi dan ralat kecil, sistem penglihatan stereo yang agak tepat boleh direka bentuk.
Dari segi algoritma, pembinaan semula 3D secara kasar boleh dibahagikan kepada dua kategori Satu ialah algoritma pembinaan semula 3D berdasarkan geometri berbilang pandangan tradisional.
Yang lain ialah algoritma pembinaan semula tiga dimensi berdasarkan pembelajaran mendalam.
Pada masa ini, disebabkan kelebihan besar CNN dalam padanan ciri imej, semakin ramai penyelidik mula mengalihkan perhatian mereka kepada pembinaan semula tiga dimensi berdasarkan pembelajaran mendalam.
Walau bagaimanapun, kaedah ini kebanyakannya merupakan kaedah pembelajaran yang diselia dan sangat bergantung kepada set data.
Pengumpulan dan pelabelan set data sentiasa menjadi punca masalah untuk pembelajaran terselia Oleh itu, pembinaan semula tiga dimensi berdasarkan pembelajaran mendalam kebanyakannya dikaji ke arah pembinaan semula yang lebih kecil. objek.
Selain itu, pembinaan semula 3D berdasarkan pembelajaran mendalam mempunyai kesetiaan yang tinggi dan mempunyai prestasi yang lebih baik dari segi ketepatan.
Tetapi melatih model memerlukan banyak masa, dan lapisan konvolusi 3D yang digunakan untuk pembinaan semula 3D adalah sangat mahal.
Oleh itu, beberapa penyelidik mula mengkaji semula kaedah pembinaan semula tiga dimensi tradisional.
Walaupun kaedah pembinaan semula tiga dimensi tradisional mempunyai kelemahan dalam prestasi, teknologi ini agak matang.
Kemudian, penyepaduan tertentu kedua-dua kaedah boleh membawa kepada hasil yang lebih baik.
Dari University of London, Oxford University, Google dan Niantic (spun out from Google Researchers from institutions such sebagai Syarikat Unicorn yang mengkaji AR) telah meneroka kaedah pembinaan semula 3D yang tidak memerlukan lilitan 3D.
Mereka mencadangkan penganggar kedalaman berbilang pandangan terkini yang mudah.
Penganggar kedalaman berbilang paparan ini mempunyai dua penemuan.
Yang pertama ialah CNN dua dimensi yang direka dengan teliti yang boleh menggunakan prior imej yang berkuasa dan memperoleh kuantiti ciri pengimbasan satah dan kehilangan geometri
Yang kedua ialah keupayaan untuk menyepadukan kerangka utama dan metadata geometri ke dalam volum kos, membolehkan pemarkahan satah kedalaman termaklum.
Menurut penyelidik, kaedah mereka mempunyai petunjuk yang jelas berbanding kaedah terkini dalam anggaran mendalam.
dan hampir atau lebih baik untuk pembinaan semula 3D pada ScanNet dan 7-Scenes, tetapi masih membenarkan pembinaan semula memori rendah masa nyata dalam talian.
Selain itu, kelajuan pembinaan semula sangat pantas, hanya mengambil masa kira-kira 73ms setiap bingkai.
Penyelidik percaya ini membolehkan pembinaan semula yang tepat melalui gabungan dalam yang pantas.
Menurut penyelidik, kaedah mereka adalah menggunakan pengekod imej untuk mengekstrak data daripada imej rujukan dan imej sumber Ekstrak ciri padanan, kemudian masukkannya ke dalam volum kos, dan kemudian gunakan rangkaian pengekod/penyahkod konvolusi 2D untuk memproses hasil output volum kos.
Penyelidikan ini dilaksanakan menggunakan PyTorch, dan menggunakan ResNet18 untuk pengekstrakan ciri yang sepadan. Ia juga menggunakan dua GPU 40GB A100. Ia mengambil masa 36 jam untuk menyelesaikan keseluruhan kerja.
Selain itu, walaupun model tidak menggunakan lapisan konvolusi 3D, ia mengatasi prestasi model garis dasar dalam penunjuk ramalan mendalam.
Ini menunjukkan bahawa rangkaian 2D yang direka bentuk dan terlatih adalah mencukupi untuk anggaran kedalaman berkualiti tinggi.
Pembaca yang berminat boleh membaca teks asal kertas itu:
https://nianticlabs.github.io/ simplerecon /resources/SimpleRecon.pdf
Walau bagaimanapun, perlu diingatkan bahawa terdapat ambang profesional untuk membaca kertas ini, dan beberapa butiran mungkin tidak mudah diperhatikan.
Kita juga boleh melihat apa yang netizen asing temui daripada kertas ini.
Seorang netizen bernama "stickshiftplease" berkata, "Walaupun masa inferens pada A100 adalah kira-kira 70 milisaat, ini boleh dipendekkan melalui pelbagai teknik, dan keperluan memori tidak perlu 40GB, dengan model terkecil menggunakan memori 2.6GB."
Seorang netizen bernama "IrreverentHippie" menegaskan, "Sila ambil perhatian bahawa penyelidikan ini masih berdasarkan persampelan sensor kedalaman LiDAR. Inilah sebabnya kaedah ini sangat baik. sebab kualiti dan ketepatan" .
Seorang lagi netizen bernama "nickthorpie" membuat komen yang lebih panjang Dia berkata, "Kebaikan dan keburukan kamera ToF didokumentasikan dengan baik. ToF menyelesaikan pelbagai masalah yang melanda pemprosesan imej mentah. Antaranya, dua Isu utama ialah. kebolehskalaan dan perincian. ToF sentiasa menghadapi masalah mengenal pasti butiran kecil seperti tepi meja atau bar nipis, yang penting untuk aplikasi autonomi atau separa autonomi >Selain itu, kerana ToF ialah penderia aktif, apabila berbilang penderia digunakan bersama, seperti dalam persimpangan yang sesak atau dalam gudang yang dibina sendiri, kualiti gambar akan merosot dengan cepat
Jelas sekali, lebih banyak data yang anda kumpulkan pada adegan, lebih tepat penerangan yang boleh anda buat penyelidik lebih suka mengkaji data imej mentah kerana ia lebih fleksibel."
Atas ialah kandungan terperinci Pembinaan semula 3D wajah Jimmy Lin boleh dicapai dengan dua A100 dan CNN 2D!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!