Rumah  >  Artikel  >  Peranti teknologi  >  Lihat melalui perwakilan 3D dan model generatif objek: Pasukan NUS mencadangkan X-Ray

Lihat melalui perwakilan 3D dan model generatif objek: Pasukan NUS mencadangkan X-Ray

王林
王林ke hadapan
2024-05-06 18:30:13991semak imbas

Lihat melalui perwakilan 3D dan model generatif objek: Pasukan NUS mencadangkan X-Ray

  • Laman utama projek: https://tau-yihouxiang.github.io/projects/X-Ray/X-Ray.html
  • Alamat kertas: https://arxiv.org/abs/ 2404.14329
  • Alamat kod: https://github.com/tau-yihouxiang/X-Ray
  • Dataset: https://huggingface.co/datasets/yihouxiang/X-Ray

Lihat melalui perwakilan 3D dan model generatif objek: Pasukan NUS mencadangkan X-Ray

Pada masa ini, kecerdasan buatan sedang berkembang pesat dalam bidang kecerdasan manusia. Dalam penglihatan komputer, teknologi penjanaan imej dan video telah menjadi semakin matang, dan model seperti Midjourney dan Stable Video Diffusion digunakan secara meluas. Walau bagaimanapun, model generatif dalam bidang penglihatan 3D masih menghadapi cabaran.

Teknologi penjanaan model 3D semasa biasanya berdasarkan penjanaan dan pembinaan semula video berbilang sudut, seperti model SV3D, yang secara beransur-ansur membina 3D dengan menjana video berbilang sudut dan menggabungkan medan sinaran saraf (NeRF) atau model licin Gaussian 3D ( 3D Gaussian Splatting technology) objek. Kaedah ini terhad terutamanya untuk menjana objek tiga dimensi yang mudah dan tidak tertutup sendiri, dan tidak dapat membentangkan struktur dalaman objek, menjadikan keseluruhan proses penjanaan kompleks dan tidak sempurna, menunjukkan kerumitan dan batasan teknologi ini.

Sebabnya pada masa ini terdapat kekurangan Perwakilan 3D yang fleksibel, cekap dan mudah untuk digeneralisasikan (perwakilan 3D). . Ia boleh menyatakan dengan tepat bentuk permukaan dan tekstur objek yang dilihat dari perspektif kamera Ia boleh menggunakan sepenuhnya fungsi penjanaan video untuk menjana kelebihan model untuk menjana objek 3D. Ia juga boleh menjana struktur 3D dalaman dan luaran objek pada masa yang sama.

Lihat melalui perwakilan 3D dan model generatif objek: Pasukan NUS mencadangkan X-Ray

Artikel ini akan menunjukkan secara terperinci prinsip, kelebihan dan prospek aplikasi luas teknologi X-Ray.

Rajah 2. Perbandingan dengan kaedah penjanaan model 3D berasaskan pemaparan.

Inovasi teknikal: perwakilan 3D bagi permukaan dalam dan luar objek

Lihat melalui perwakilan 3D dan model generatif objek: Pasukan NUS mencadangkan X-Ray

Dalam setiap arah sinar, L data atribut tiga dimensi termasuk kedalaman, vektor normal, warna, dll. direkodkan satu demi satu pada titik persilangan dengan permukaan objek, dan kemudian data ini disusun dalam bentuk L×H×W untuk merealisasikan penciptaan mana-mana model 3D perwakilan Tensor, ini adalah kaedah perwakilan X-Ray yang dicadangkan oleh pasukan.

Perlu diperhatikan bahawa perwakilan adalah sama dengan format video, jadi model generatif video boleh digunakan untuk membuat model generatif 3D. Proses khusus adalah seperti berikut.

Rajah 3. Sampel sampel X-Ray dengan lapisan berbeza.

1. Proses pengekodan: Tukar model 3D kepada ) untuk merekodkan sifat Lihat melalui perwakilan 3D dan model generatif objek: Pasukan NUS mencadangkan X-Ray

semua permukaan yang setiap sinar kamera bersilang dengan objek, termasuk kedalaman

, vektor biasa

, dsb. permukaan Untuk kemudahan penunjuk, ini diwakili oleh

Sama ada permukaan wujud di lokasi. Lihat melalui perwakilan 3D dan model generatif objek: Pasukan NUS mencadangkan X-RayLihat melalui perwakilan 3D dan model generatif objek: Pasukan NUS mencadangkan X-RayKemudian, dengan mendapatkan semua sinar kamera dan titik permukaan persimpangan lain, ekspresi 3D X-Ray yang lengkap boleh diperolehi, seperti yang ditunjukkan dalam ungkapan berikut dan Rajah 3. Lihat melalui perwakilan 3D dan model generatif objek: Pasukan NUS mencadangkan X-Ray

Tukar model 3D sewenang-wenangnya kepada X-Ray melalui proses pengekodan Ia sama dengan format video dan mempunyai bilangan bingkai yang berbeza Biasanya, bilangan bingkai L=8 sudah cukup untuk mewakili objek 3D.

2. Proses penyahkodan: X-Ray kepada model 3D

Memandangkan X-Ray, ia juga boleh ditukar kembali kepada model 3D melalui proses penyahkodan, supaya 3D boleh dijana hanya dengan menghasilkan Model X-Ray. Proses khusus merangkumi dua proses: proses penjanaan awan titik dan proses pembinaan semula permukaan awan titik.

  • X-Ray ke awan titik: X-Ray mudah ditukar menjadi awan titik Selain koordinat kedudukan titik 3D, setiap titik dalam awan titik juga mempunyai warna dan vektor normal maklumat.

Lihat melalui perwakilan 3D dan model generatif objek: Pasukan NUS mencadangkan X-Ray

di mana r_0 dan r_d masing-masing adalah titik permulaan dan arah normal sinar kamera Dengan memproses setiap sinar kamera, awan titik yang lengkap boleh diperolehi.

  • Point Cloud ke Mesh Tiga Dimensi: Langkah seterusnya ialah proses menukar awan titik ke dalam mesh tiga dimensi. awan mempunyai vektor biasa, jadi algoritma Screened Poisson digunakan untuk menukar awan titik secara terus kepada model mesh tiga dimensi, yang merupakan model 3D terakhir.

Penjanaan model 3D berdasarkan perwakilan X-Ray

Untuk menjana model X-Ray 3D pelbagai resolusi tinggi, pasukan menggunakan seni bina model resapan video yang serupa dengan format video. Seni bina ini boleh memproses maklumat 3D yang berterusan dan meningkatkan kualiti X-Ray melalui modul upsampling untuk menjana output 3D berketepatan tinggi. Model resapan bertanggungjawab untuk menjana imej 3D terperinci secara beransur-ansur daripada data bising, manakala modul pensampelan naik meningkatkan resolusi dan butiran imej untuk memenuhi standard kualiti tinggi. Struktur khusus ditunjukkan dalam Rajah 4.

Model penjanaan resapan X-Ray

Model resapan menggunakan ruang terpendam dalam penjanaan X-Ray dan biasanya memerlukan pembangunan tersuai autoenkoder kuantisasi-variasi vektor (VQ-VAE) [3] untuk pemampatan data , Proses ini kekurangan model siap menambah beban latihan.

Untuk melatih penjana resolusi tinggi dengan berkesan, pasukan itu menggunakan strategi sintesis lata untuk melatih secara beransur-ansur daripada resolusi rendah ke tinggi melalui teknologi seperti Imagen dan Stable Cascaded untuk menyesuaikan diri dengan sumber pengkomputeran terhad dan meningkatkan Kualiti Imej X-Ray.

Secara khusus, gunakan seni bina U-Net 3D dalam Stable Video Diffusion sebagai model resapan untuk menjana X-Ray resolusi rendah, dan mengekstrak ciri daripada bingkai 2D dan siri masa 1D melalui mekanisme perhatian spatiotemporal, meningkatkan pemprosesan dan Menjelaskan Keupayaan X-Ray, yang penting untuk hasil yang berkualiti tinggi.

Model pensampelan X-Ray

Model resapan pada peringkat sebelumnya hanya boleh menjana imej X-Ray resolusi rendah daripada teks atau imej lain. Dalam peringkat seterusnya, tumpuan adalah untuk menaik taraf X-Ray resolusi rendah ini kepada resolusi yang lebih tinggi.

Pasukan meneroka dua kaedah utama: pensampelan awan titik dan pensampelan video.

Memandangkan gambaran kasar bentuk dan rupa sudah diperoleh, pengekodan data ini ke dalam awan titik dengan warna dan normal adalah proses yang mudah.

Walau bagaimanapun, struktur perwakilan awan titik terlalu longgar dan tidak sesuai untuk ramalan padat Teknik pensampelan awan titik tradisional biasanya hanya meningkatkan bilangan mata, yang mungkin tidak cukup berkesan untuk memperbaik atribut seperti tekstur dan warna. Untuk memudahkan proses dan memastikan konsistensi sepanjang perancangan, kami memilih untuk menggunakan model pensampelan video.

Model ini diadaptasi daripada penyahkod VAE spatiotemporal bagi Stable Video Diffusion (SVD) dan dilatih khas dari awal hingga upsample bingkai X-Ray yang disintesis dengan faktor 4x sambil mengekalkan bilangan lapisan asal. Penyahkod mampu melakukan operasi perhatian secara bebas pada tahap bingkai dan tahap hierarki. Mekanisme perhatian dwi-lapisan ini bukan sahaja meningkatkan resolusi, tetapi juga meningkatkan kualiti keseluruhan imej dengan ketara. Ciri-ciri ini menjadikan model pensampelan video sebagai penyelesaian yang lebih terkoordinasi dan cekap dalam penjanaan X-Ray resolusi tinggi.

Lihat melalui perwakilan 3D dan model generatif objek: Pasukan NUS mencadangkan X-Ray

Rajah 4: Rangka kerja penjanaan model 3D berdasarkan perwakilan X-Ray, termasuk model penyebaran X-Ray dan model upsampling X-Ray. .

Subset ini mengandungi lebih 60,000 objek 3D. Untuk setiap objek, 4 paparan kamera dipilih secara rawak, meliputi sudut azimut dari -180 hingga 180 darjah dan sudut ketinggian dari -45 hingga 45 darjah, dan jarak dari kamera ke tengah objek ditetapkan kepada 1.5.

Kemudian gunakan perisian Blender untuk pemaparan, dan hasilkan X-Ray yang sepadan melalui algoritma tuangan sinar yang disediakan oleh perpustakaan trimesh. Melalui proses ini, lebih 240,000 pasang imej dan set data X-Ray boleh dibuat untuk melatih model generatif.

2. Butiran pelaksanaan:

Model penyebaran X-Ray adalah berdasarkan seni bina UNet spatiotemporal yang digunakan dalam Stable Video Diffusion (SVD), dengan sedikit pelarasan: model dikonfigurasikan untuk mensintesis 8 saluran: 1 saluran hit, 1 saluran mendalam dan 6 saluran biasa, Berbanding kepada 4 saluran rangkaian asal.

Memandangkan perbezaan ketara antara pengimejan X-Ray dan video tradisional, model ini dilatih dari awal untuk merapatkan jurang yang besar antara medan X-Ray dan video. Latihan berlangsung selama seminggu pada 8 pelayan GPU NVIDIA A100. Dalam tempoh ini, kadar pembelajaran dikekalkan pada 0.0001, menggunakan pengoptimum AdamW.

Memandangkan X-Ray yang berbeza mempunyai bilangan lapisan, pad atau pangkas yang berbeza kepada 8 lapisan yang sama untuk pemprosesan dan latihan kelompok yang lebih baik, saiz bingkai setiap lapisan ialah 64×64. Untuk model pensampelan tinggi, output lapisan L masih 8, tetapi resolusi setiap bingkai ditingkatkan kepada 256 × 256, yang meningkatkan perincian dan kejelasan X-Ray yang diperbesarkan Hasilnya ditunjukkan dalam Rajah 5 dan 6 .

Lihat melalui perwakilan 3D dan model generatif objek: Pasukan NUS mencadangkan X-Ray

Figure 5: imej ke x-ray dan ke generasi model 3D figure 6: teks ke x-ray dan ke generasi model 3D Outlook: Band perwakilan baru Kemungkinannya tidak berkesudahan

Lihat melalui perwakilan 3D dan model generatif objek: Pasukan NUS mencadangkan X-RayDengan kemajuan berterusan pembelajaran mesin dan teknologi pemprosesan imej, prospek aplikasi X-Ray sangat luas.

Pada masa hadapan, teknologi ini mungkin digabungkan dengan teknologi realiti tambahan (AR) dan realiti maya (VR) untuk mencipta pengalaman 3D yang mengasyikkan sepenuhnya untuk pengguna. Bidang pendidikan dan latihan juga boleh mendapat manfaat daripada ini, seperti menyediakan bahan pembelajaran yang lebih intuitif dan eksperimen simulasi melalui pembinaan semula 3D.

Selain itu, aplikasi teknologi X-Ray dalam bidang pengimejan perubatan dan bioteknologi mungkin mengubah pemahaman dan kaedah penyelidikan orang ramai tentang struktur biologi yang kompleks. Nantikan bagaimana ia mengubah cara anda berinteraksi dengan dunia tiga dimensi.

Atas ialah kandungan terperinci Lihat melalui perwakilan 3D dan model generatif objek: Pasukan NUS mencadangkan X-Ray. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam