Rumah >Peranti teknologi >AI >Pemahaman dunia terbuka tentang awan titik 3D, klasifikasi, perolehan semula, sari kata dan penjanaan imej
Masukkan bentuk tiga dimensi kerusi goyang dan kuda Apa yang anda boleh dapat?
Kereta kayu ditambah kuda? Dapatkan kereta dan kuda elektrik; Dapatkan perahu layar pisang ditambah dengan kerusi geladak? Dapatkan kerusi telur.
Penyelidik dari UCSD, Universiti Shanghai Jiao Tong dan pasukan Qualcomm telah mencadangkan model perwakilan tiga dimensi terkini OpenShape, membolehkan anda memahami dunia terbuka bentuk tiga dimensi.
Dengan mempelajari pengekod asli awan titik 3D pada data berbilang modal (awan titik - teks - imej), OpenShape membina ruang perwakilan bentuk 3D dan menjajarkannya dengan ruang teks dan imej CLIP. Terima kasih kepada pra-latihan 3D berskala besar dan pelbagai, OpenShape mencapai pemahaman dunia terbuka tentang bentuk 3D buat kali pertama, menyokong klasifikasi bentuk 3D tangkapan sifar, pengambilan bentuk 3D berbilang mod (input awan teks/imej/titik), dan sari kata awan titik 3D Tugas silang modal seperti penjanaan imej dan penjanaan imej berasaskan awan titik 3D.
OpenShape menyokong klasifikasi bentuk 3D tangkapan sifar. Tanpa latihan tambahan atau penalaan halus, OpenShape mencapai ketepatan top1 sebanyak 85.3% pada penanda aras ModelNet40 yang biasa digunakan (termasuk 40 kategori biasa), mengatasi kaedah sifar pukulan sedia ada sebanyak 24 mata peratusan dan mencapai prestasi yang setanding dengan beberapa kaedah yang diselia sepenuhnya untuk kali pertama.
Ketepatan top3 dan top5 OpenShape pada ModelNet40 masing-masing mencapai 96.5% dan 98.0%.
Tidak seperti kaedah sedia ada yang terhad terutamanya kepada beberapa kategori objek biasa, OpenShape dapat mengklasifikasikan pelbagai kategori dunia terbuka. Pada penanda aras Objaverse-LVIS (mengandungi 1156 kategori objek), OpenShape mencapai ketepatan top1 sebanyak 46.8%, jauh melebihi ketepatan tertinggi hanya 6.2% daripada kaedah tangkapan sifar sedia ada. Keputusan ini menunjukkan bahawa OpenShape mempunyai keupayaan untuk mengenali bentuk 3D dengan berkesan di dunia terbuka.
Dengan perwakilan multimodal OpenShape, pengguna boleh melakukan pengambilan semula bentuk 3D pada imej, teks atau input awan titik. Kaji perolehan semula bentuk 3D daripada set data bersepadu dengan mengira persamaan kosinus antara perwakilan input dan perwakilan bentuk 3D dan mencari kNN.
Pendapatan semula bentuk tiga dimensi input imej
Imej di atas menunjukkan imej input dan dua bentuk 3D yang diambil semula.
Pendapatan semula bentuk 3D input teks
Imej di atas menunjukkan teks input dan bentuk 3D yang diambil. OpenShape mempelajari pelbagai konsep visual dan semantik, membolehkan subkategori halus (dua baris pertama) dan kawalan atribut (dua baris terakhir, seperti warna, bentuk, gaya dan gabungannya).
Pendapatan semula bentuk 3D input awan titik 3D
Imej di atas menunjukkan input awan titik 3D dan dua bentuk 3D yang diambil.
Input dua kali pengambilan bentuk tiga dimensi
Rajah di atas mengambil dua bentuk 3D sebagai input dan menggunakan perwakilan OpenShape mereka untuk mendapatkan semula bentuk 3D yang paling hampir dengan kedua-dua input pada masa yang sama. Bentuk yang diambil dengan bijak menggabungkan elemen semantik dan geometri daripada kedua-dua bentuk input.
Memandangkan perwakilan bentuk 3D OpenShape diselaraskan dengan ruang perwakilan imej dan teks CLIP, ia boleh digunakan dengan banyak model Terbitan daripada CLIP digabungkan untuk menyokong pelbagai aplikasi rentas modal.
Penjanaan sari kata awan titik 3D
Dengan menggabungkan dengan model sari kata imej siap pakai (ClipCap), OpenShape melaksanakan penjanaan sari kata untuk awan titik 3D.
Penjanaan imej berdasarkan awan titik 3D
Dengan menggabungkan dengan model penyebaran teks-ke-imej siap sedia (Stable unCLIP), OpenShape melaksanakan penjanaan imej berdasarkan awan titik 3D (menyokong pembayang teks pilihan).
Lebih banyak contoh penjanaan imej berdasarkan awan titik 3D
Penjajaran perwakilan berbilang mod berdasarkan pembelajaran kontrastif: OpenShape melatih pengekod asli 3D yang akan Awan titik 3D digunakan sebagai input untuk mengekstrak perwakilan bentuk 3D. Berikutan kerja sebelumnya, kami mengeksploitasi pembelajaran kontrastif multimodal untuk diselaraskan dengan ruang perwakilan imej dan teks CLIP. Tidak seperti kerja sebelumnya, OpenShape bertujuan untuk mempelajari ruang perwakilan bersama yang lebih umum dan boleh skala. Fokus penyelidikan adalah terutamanya untuk mengembangkan skala pembelajaran perwakilan 3D dan menangani cabaran yang sepadan, supaya benar-benar merealisasikan pemahaman bentuk 3D dalam dunia terbuka.
Mengintegrasikan berbilang set data bentuk 3D: Memandangkan skala dan kepelbagaian data latihan memainkan peranan penting dalam mempelajari perwakilan bentuk 3D berskala besar, kajian itu menyepadukan empat Latihan pada yang terbesar pada masa ini yang tersedia untuk umum Set data 3D. Seperti yang ditunjukkan dalam rajah di bawah, data latihan yang dikaji mengandungi 876,000 bentuk latihan. Antara empat set data, ShapeNetCore, 3D-FUTURE dan ABO mengandungi bentuk 3D yang disahkan manusia berkualiti tinggi, tetapi hanya meliputi bilangan bentuk yang terhad dan berpuluh-puluh kategori. Set data Objaverse ialah set data 3D yang dikeluarkan baru-baru ini yang mengandungi lebih banyak bentuk 3D dan merangkumi kelas objek yang lebih pelbagai. Walau bagaimanapun, bentuk dalam Objaverse kebanyakannya dimuat naik oleh pengguna Internet dan belum disahkan secara manual Oleh itu, kualitinya tidak sekata dan pengedarannya sangat tidak sekata, memerlukan pemprosesan selanjutnya.
Penapisan dan pengayaan teks: Kajian ditemui hanya antara bentuk 3D dan imej 2D Mengaplikasikan pembelajaran kontrastif tidak mencukupi untuk memacu penjajaran bentuk 3D dan ruang teks, walaupun apabila dilatih pada set data berskala besar. Penyelidikan membuat spekulasi bahawa ini adalah disebabkan oleh jurang domain yang wujud dalam bahasa CLIP dan ruang perwakilan imej. Oleh itu, penyelidikan perlu menjajarkan bentuk 3D dengan teks secara eksplisit. Walau bagaimanapun, anotasi teks daripada set data 3D asal sering menghadapi masalah seperti kandungan hilang, salah atau kasar dan tunggal. Untuk tujuan ini, kertas kerja ini mencadangkan tiga strategi untuk menapis dan memperkayakan teks untuk meningkatkan kualiti anotasi teks: penapisan teks menggunakan GPT-4, penjanaan sari kata dan mendapatkan semula imej pemaparan 2D model 3D.
Kajian itu mencadangkan tiga strategi untuk Penapis secara automatik dan memperkayakan teks bising dalam set data mentah.
Contoh penapisan dan pengayaan teks
Dalam setiap contoh, bahagian kiri menunjukkan lakaran kecil, nama bentuk asal dan hasil yang ditapis GPT-4. Bahagian kanan atas menunjukkan kapsyen imej daripada dua model kapsyen, manakala bahagian kanan bawah menunjukkan imej yang diambil dan teks yang sepadan dengannya.
Kembangkan rangkaian tulang belakang tiga dimensi. Memandangkan kerja sebelumnya pada pembelajaran awan titik 3D menyasarkan set data 3D berskala kecil seperti ShapeNet, rangkaian tulang belakang ini mungkin tidak boleh digunakan secara langsung untuk latihan 3D berskala besar kami dan skala rangkaian tulang belakang perlu dikembangkan dengan sewajarnya. Kajian mendapati bahawa rangkaian tulang belakang 3D yang berbeza mempamerkan gelagat dan kebolehskalaan yang berbeza apabila dilatih pada set data dengan saiz yang berbeza. Antaranya, PointBERT berdasarkan Transformer dan SparseConv berdasarkan lilitan tiga dimensi menunjukkan prestasi dan kebolehskalaan yang lebih berkuasa, jadi mereka dipilih sebagai rangkaian tulang belakang tiga dimensi.
Apabila menskalakan saiz model tulang belakang 3D pada set data bersepadu, Prestasi dan perbandingan skalabiliti.
Contoh Perlombongan Negatif Sukar: Dataset ensemble kajian ini menunjukkan ketidakseimbangan kelas yang tinggi. Beberapa kategori biasa, seperti seni bina, mungkin merangkumi puluhan ribu bentuk, manakala banyak kategori lain, seperti walrus dan dompet, kurang diwakili dengan hanya beberapa dozen atau lebih sedikit bentuk. Oleh itu, apabila kelompok dibina secara rawak untuk pembelajaran kontrastif, bentuk daripada dua kategori yang mudah dikelirukan (cth., epal dan ceri) tidak mungkin muncul dalam kelompok yang sama untuk dikontraskan. Untuk tujuan ini, kertas kerja ini mencadangkan strategi perlombongan contoh negatif yang sukar di luar talian untuk meningkatkan kecekapan dan prestasi latihan.
Selamat mencuba demo interaktif di HuggingFace.
Atas ialah kandungan terperinci Pemahaman dunia terbuka tentang awan titik 3D, klasifikasi, perolehan semula, sari kata dan penjanaan imej. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!