Rumah  >  Artikel  >  Peranti teknologi  >  Pemahaman dunia terbuka tentang awan titik 3D, klasifikasi, perolehan semula, sari kata dan penjanaan imej

Pemahaman dunia terbuka tentang awan titik 3D, klasifikasi, perolehan semula, sari kata dan penjanaan imej

WBOY
WBOYke hadapan
2023-06-04 15:04:041393semak imbas

Masukkan bentuk tiga dimensi kerusi goyang dan kuda Apa yang anda boleh dapat?

Pemahaman dunia terbuka tentang awan titik 3D, klasifikasi, perolehan semula, sari kata dan penjanaan imej

Pemahaman dunia terbuka tentang awan titik 3D, klasifikasi, perolehan semula, sari kata dan penjanaan imej

Kereta kayu ditambah kuda? Dapatkan kereta dan kuda elektrik; Dapatkan perahu layar pisang ditambah dengan kerusi geladak? Dapatkan kerusi telur.

Pemahaman dunia terbuka tentang awan titik 3D, klasifikasi, perolehan semula, sari kata dan penjanaan imej

Penyelidik dari UCSD, Universiti Shanghai Jiao Tong dan pasukan Qualcomm telah mencadangkan model perwakilan tiga dimensi terkini OpenShape, membolehkan anda memahami dunia terbuka bentuk tiga dimensi.

  • Alamat kertas: https://arxiv.org/pdf/2305.10764.pdf
  • Laman utama projek: https://colin97.github.io/OpenShape/
  • Demo interaktif: https://huggingface.co/spaces/OpenShape/openshape-demo
  • Alamat kod:https://github.com/Colin97/OpenShape_code

Dengan mempelajari pengekod asli awan titik 3D pada data berbilang modal (awan titik - teks - imej), OpenShape membina ruang perwakilan bentuk 3D dan menjajarkannya dengan ruang teks dan imej CLIP. Terima kasih kepada pra-latihan 3D berskala besar dan pelbagai, OpenShape mencapai pemahaman dunia terbuka tentang bentuk 3D buat kali pertama, menyokong klasifikasi bentuk 3D tangkapan sifar, pengambilan bentuk 3D berbilang mod (input awan teks/imej/titik), dan sari kata awan titik 3D Tugas silang modal seperti penjanaan imej dan penjanaan imej berasaskan awan titik 3D.

Klasifikasi tangkapan sifar bentuk 3D

Pemahaman dunia terbuka tentang awan titik 3D, klasifikasi, perolehan semula, sari kata dan penjanaan imej

OpenShape menyokong klasifikasi bentuk 3D tangkapan sifar. Tanpa latihan tambahan atau penalaan halus, OpenShape mencapai ketepatan top1 sebanyak 85.3% pada penanda aras ModelNet40 yang biasa digunakan (termasuk 40 kategori biasa), mengatasi kaedah sifar pukulan sedia ada sebanyak 24 mata peratusan dan mencapai prestasi yang setanding dengan beberapa kaedah yang diselia sepenuhnya untuk kali pertama.

Ketepatan top3 dan top5 OpenShape pada ModelNet40 masing-masing mencapai 96.5% dan 98.0%.

Pemahaman dunia terbuka tentang awan titik 3D, klasifikasi, perolehan semula, sari kata dan penjanaan imej

Tidak seperti kaedah sedia ada yang terhad terutamanya kepada beberapa kategori objek biasa, OpenShape dapat mengklasifikasikan pelbagai kategori dunia terbuka. Pada penanda aras Objaverse-LVIS (mengandungi 1156 kategori objek), OpenShape mencapai ketepatan top1 sebanyak 46.8%, jauh melebihi ketepatan tertinggi hanya 6.2% daripada kaedah tangkapan sifar sedia ada. Keputusan ini menunjukkan bahawa OpenShape mempunyai keupayaan untuk mengenali bentuk 3D dengan berkesan di dunia terbuka.

Pendapatan semula bentuk 3D berbilang mod

Dengan perwakilan multimodal OpenShape, pengguna boleh melakukan pengambilan semula bentuk 3D pada imej, teks atau input awan titik. Kaji perolehan semula bentuk 3D daripada set data bersepadu dengan mengira persamaan kosinus antara perwakilan input dan perwakilan bentuk 3D dan mencari kNN.

Pemahaman dunia terbuka tentang awan titik 3D, klasifikasi, perolehan semula, sari kata dan penjanaan imej

Pendapatan semula bentuk tiga dimensi input imej

Imej di atas menunjukkan imej input dan dua bentuk 3D yang diambil semula.

Pemahaman dunia terbuka tentang awan titik 3D, klasifikasi, perolehan semula, sari kata dan penjanaan imej

Pendapatan semula bentuk 3D input teks

Imej di atas menunjukkan teks input dan bentuk 3D yang diambil. OpenShape mempelajari pelbagai konsep visual dan semantik, membolehkan subkategori halus (dua baris pertama) dan kawalan atribut (dua baris terakhir, seperti warna, bentuk, gaya dan gabungannya).

Pemahaman dunia terbuka tentang awan titik 3D, klasifikasi, perolehan semula, sari kata dan penjanaan imej

Pendapatan semula bentuk 3D input awan titik 3D

Imej di atas menunjukkan input awan titik 3D dan dua bentuk 3D yang diambil.


Pemahaman dunia terbuka tentang awan titik 3D, klasifikasi, perolehan semula, sari kata dan penjanaan imej

Input dua kali pengambilan bentuk tiga dimensi

Rajah di atas mengambil dua bentuk 3D sebagai input dan menggunakan perwakilan OpenShape mereka untuk mendapatkan semula bentuk 3D yang paling hampir dengan kedua-dua input pada masa yang sama. Bentuk yang diambil dengan bijak menggabungkan elemen semantik dan geometri daripada kedua-dua bentuk input.

Penjanaan teks dan imej berasaskan bentuk 3D

Memandangkan perwakilan bentuk 3D OpenShape diselaraskan dengan ruang perwakilan imej dan teks CLIP, ia boleh digunakan dengan banyak model Terbitan daripada CLIP digabungkan untuk menyokong pelbagai aplikasi rentas modal.

Pemahaman dunia terbuka tentang awan titik 3D, klasifikasi, perolehan semula, sari kata dan penjanaan imej

Penjanaan sari kata awan titik 3D

Dengan menggabungkan dengan model sari kata imej siap pakai (ClipCap), OpenShape melaksanakan penjanaan sari kata untuk awan titik 3D.

Pemahaman dunia terbuka tentang awan titik 3D, klasifikasi, perolehan semula, sari kata dan penjanaan imej

Penjanaan imej berdasarkan awan titik 3D

Dengan menggabungkan dengan model penyebaran teks-ke-imej siap sedia (Stable unCLIP), OpenShape melaksanakan penjanaan imej berdasarkan awan titik 3D (menyokong pembayang teks pilihan).


Pemahaman dunia terbuka tentang awan titik 3D, klasifikasi, perolehan semula, sari kata dan penjanaan imej

Lebih banyak contoh penjanaan imej berdasarkan awan titik 3D

Butiran latihan

Penjajaran perwakilan berbilang mod berdasarkan pembelajaran kontrastif: OpenShape melatih pengekod asli 3D yang akan Awan titik 3D digunakan sebagai input untuk mengekstrak perwakilan bentuk 3D. Berikutan kerja sebelumnya, kami mengeksploitasi pembelajaran kontrastif multimodal untuk diselaraskan dengan ruang perwakilan imej dan teks CLIP. Tidak seperti kerja sebelumnya, OpenShape bertujuan untuk mempelajari ruang perwakilan bersama yang lebih umum dan boleh skala. Fokus penyelidikan adalah terutamanya untuk mengembangkan skala pembelajaran perwakilan 3D dan menangani cabaran yang sepadan, supaya benar-benar merealisasikan pemahaman bentuk 3D dalam dunia terbuka.

Pemahaman dunia terbuka tentang awan titik 3D, klasifikasi, perolehan semula, sari kata dan penjanaan imej

Mengintegrasikan berbilang set data bentuk 3D: Memandangkan skala dan kepelbagaian data latihan memainkan peranan penting dalam mempelajari perwakilan bentuk 3D berskala besar, kajian itu menyepadukan empat Latihan pada yang terbesar pada masa ini yang tersedia untuk umum Set data 3D. Seperti yang ditunjukkan dalam rajah di bawah, data latihan yang dikaji mengandungi 876,000 bentuk latihan. Antara empat set data, ShapeNetCore, 3D-FUTURE dan ABO mengandungi bentuk 3D yang disahkan manusia berkualiti tinggi, tetapi hanya meliputi bilangan bentuk yang terhad dan berpuluh-puluh kategori. Set data Objaverse ialah set data 3D yang dikeluarkan baru-baru ini yang mengandungi lebih banyak bentuk 3D dan merangkumi kelas objek yang lebih pelbagai. Walau bagaimanapun, bentuk dalam Objaverse kebanyakannya dimuat naik oleh pengguna Internet dan belum disahkan secara manual Oleh itu, kualitinya tidak sekata dan pengedarannya sangat tidak sekata, memerlukan pemprosesan selanjutnya.

Pemahaman dunia terbuka tentang awan titik 3D, klasifikasi, perolehan semula, sari kata dan penjanaan imej

Penapisan dan pengayaan teks: Kajian ditemui hanya antara bentuk 3D dan imej 2D Mengaplikasikan pembelajaran kontrastif tidak mencukupi untuk memacu penjajaran bentuk 3D dan ruang teks, walaupun apabila dilatih pada set data berskala besar. Penyelidikan membuat spekulasi bahawa ini adalah disebabkan oleh jurang domain yang wujud dalam bahasa CLIP dan ruang perwakilan imej. Oleh itu, penyelidikan perlu menjajarkan bentuk 3D dengan teks secara eksplisit. Walau bagaimanapun, anotasi teks daripada set data 3D asal sering menghadapi masalah seperti kandungan hilang, salah atau kasar dan tunggal. Untuk tujuan ini, kertas kerja ini mencadangkan tiga strategi untuk menapis dan memperkayakan teks untuk meningkatkan kualiti anotasi teks: penapisan teks menggunakan GPT-4, penjanaan sari kata dan mendapatkan semula imej pemaparan 2D model 3D.


Pemahaman dunia terbuka tentang awan titik 3D, klasifikasi, perolehan semula, sari kata dan penjanaan imej

Kajian itu mencadangkan tiga strategi untuk Penapis secara automatik dan memperkayakan teks bising dalam set data mentah.

Pemahaman dunia terbuka tentang awan titik 3D, klasifikasi, perolehan semula, sari kata dan penjanaan imej

Contoh penapisan dan pengayaan teks

Dalam setiap contoh, bahagian kiri menunjukkan lakaran kecil, nama bentuk asal dan hasil yang ditapis GPT-4. Bahagian kanan atas menunjukkan kapsyen imej daripada dua model kapsyen, manakala bahagian kanan bawah menunjukkan imej yang diambil dan teks yang sepadan dengannya.

Kembangkan rangkaian tulang belakang tiga dimensi. Memandangkan kerja sebelumnya pada pembelajaran awan titik 3D menyasarkan set data 3D berskala kecil seperti ShapeNet, rangkaian tulang belakang ini mungkin tidak boleh digunakan secara langsung untuk latihan 3D berskala besar kami dan skala rangkaian tulang belakang perlu dikembangkan dengan sewajarnya. Kajian mendapati bahawa rangkaian tulang belakang 3D yang berbeza mempamerkan gelagat dan kebolehskalaan yang berbeza apabila dilatih pada set data dengan saiz yang berbeza. Antaranya, PointBERT berdasarkan Transformer dan SparseConv berdasarkan lilitan tiga dimensi menunjukkan prestasi dan kebolehskalaan yang lebih berkuasa, jadi mereka dipilih sebagai rangkaian tulang belakang tiga dimensi.

Pemahaman dunia terbuka tentang awan titik 3D, klasifikasi, perolehan semula, sari kata dan penjanaan imej

Apabila menskalakan saiz model tulang belakang 3D pada set data bersepadu, Prestasi dan perbandingan skalabiliti.

Contoh Perlombongan Negatif Sukar: Dataset ensemble kajian ini menunjukkan ketidakseimbangan kelas yang tinggi. Beberapa kategori biasa, seperti seni bina, mungkin merangkumi puluhan ribu bentuk, manakala banyak kategori lain, seperti walrus dan dompet, kurang diwakili dengan hanya beberapa dozen atau lebih sedikit bentuk. Oleh itu, apabila kelompok dibina secara rawak untuk pembelajaran kontrastif, bentuk daripada dua kategori yang mudah dikelirukan (cth., epal dan ceri) tidak mungkin muncul dalam kelompok yang sama untuk dikontraskan. Untuk tujuan ini, kertas kerja ini mencadangkan strategi perlombongan contoh negatif yang sukar di luar talian untuk meningkatkan kecekapan dan prestasi latihan.

Selamat mencuba demo interaktif di HuggingFace.

Atas ialah kandungan terperinci Pemahaman dunia terbuka tentang awan titik 3D, klasifikasi, perolehan semula, sari kata dan penjanaan imej. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam