Rumah >Peranti teknologi >AI >Hanya 10% daripada parameter diperlukan untuk mengatasi SOTA! Universiti Zhejiang, Byte dan Cina Hong Kong bersama-sama mencadangkan rangka kerja baharu untuk tugas 'anggaran pose peringkat kategori'
Memberi robot pemahaman 3D tentang objek harian ialah cabaran utama dalam aplikasi robotik.
Apabila meneroka dalam persekitaran yang tidak diketahui, kaedah anggaran pose objek sedia ada masih tidak memuaskan kerana kepelbagaian bentuk objek.
Baru-baru ini, penyelidik dari Zhejiang University, ByteDance Artificial Intelligence Laboratory dan Chinese University of Hong Kong bersama-sama mencadangkan rangka kerja baharu untuk bentuk objek peringkat Kategori dan membuat anggaran daripada imej RGB-D tunggal.
Alamat kertas: https://arxiv.org/abs/2210.01112
Pautan projek:https://zju3dv.github.io/gCasp
Untuk mengendalikan perubahan bentuk objek dalam kategori , penyelidik Mengguna pakai perwakilan primitif semantik untuk mengekod bentuk yang berbeza ke dalam ruang terpendam bersatu, perwakilan ini adalah kunci untuk mewujudkan surat-menyurat yang boleh dipercayai antara awan titik yang diperhatikan dan bentuk yang dianggarkan.
Kemudian melaluideskriptor bentuk yang direka bentuk iaitu invarian kepada transformasi persamaan badan tegar, anggaran bentuk dan pose objek dipisahkan, sekali gus menyokong sebarang pose yang tersirat pengoptimuman bentuk objek sasaran. Percubaan menunjukkan bahawa kaedah yang dicadangkan mencapai prestasi anggaran pose terkemuka dalam set data awam. Latar Belakang Penyelidikan
Dalam bidang persepsi dan operasi robot, menganggar bentuk dan pose objek harian adalah fungsi asas dan mempunyai pelbagai aplikasi, termasuk 3D pemahaman adegan, operasi robotik dan pergudangan autonomi.Kebanyakan kerja awal pada tugasan ini tertumpu pada anggaran pose peringkat contoh, yang terutamanya mendapatkan pose objek dengan menjajarkan objek yang diperhatikan dengan model CAD yang diberikan.
Walau bagaimanapun, persediaan sedemikian terhad dalam senario dunia sebenar kerana sukar untuk mendapatkan model tepat bagi mana-mana objek tertentu terlebih dahulu.
Untuk menyamaratakan kepada objek yang tidak kelihatan tetapi biasa dari segi semantik, anggaran pose objek peringkat kategori menarik perhatian penyelidikan yang semakin meningkat kerana ia berpotensi mengendalikan Pelbagai kejadian sebenar bagi kategori yang sama dalam tempat kejadian.
Kaedah anggaran pose peringkat kelas sedia ada biasanya cuba meramalkan koordinat ternormal aras piksel dalam kelas, atau menggunakan cacat Rujuk kepada model terdahulu untuk menganggarkan pose objek.
Walaupun karya ini telah mencapai kemajuan yang besar, kaedah ramalan satu pukulan ini masih menghadapi kesukaran apabila terdapat perbezaan bentuk yang besar dalam kategori yang sama.
Untuk mengendalikan kepelbagaian objek dalam kategori yang sama, sesetengah karya menggunakan perwakilan tersirat saraf untuk menyesuaikan diri dengan bentuk objek sasaran dengan mengoptimumkan secara berulang pose dan bentuk dalam tersirat ruang, dan Prestasi yang lebih baik diperolehi.
Terdapat dua cabaran utama dalam anggaran pose objek peringkat kategori Satu ialah perbezaan bentuk dalam kelas yang besar, dan satu lagi ialah kaedah sedia ada yang menggabungkan bentuk dan bergambar bersama boleh membawa kepada masalah pengoptimuman yang lebih kompleks.
Dalam kertas ini, penyelidik mengasingkan bentuk dan menganggarkan pose objek dengan mereka bentuk deskriptor bentuk yang tidak berubah kepada transformasi persamaan badan tegar, dengan itu menyokong pose sewenang-wenangnya Pengoptimuman bentuk tersirat objek sasaran. Akhirnya, skala dan pose objek diselesaikan berdasarkan perkaitan semantik antara bentuk anggaran dan pemerhatian.
Pengenalan algoritma
Algoritma terdiri daripada tiga modul,Pengestrakan primitif semantik, Anggaran bentuk generatif dan Anggaran pose objek.
Input algoritma ialah imej RGB-D tunggal Algoritma menggunakan Mask R-CNN yang telah dilatih untuk mendapatkan hasil segmentasi semantik imej RGB, dan kemudian memproyeksikan kembali awan titik bagi. setiap objek berdasarkan parameter intrinsik kamera. Kaedah ini terutamanya memproses awan titik dan akhirnya memperoleh skala dan pose 6DoF setiap objek.
DualSDF [1] mencadangkan kaedah perwakilan primitif semantik untuk objek yang serupa. Seperti yang ditunjukkan di sebelah kiri rajah di bawah, dalam jenis objek yang sama, setiap contoh dibahagikan kepada bilangan primitif semantik tertentu, dan label setiap primitif sepadan dengan bahagian tertentu bagi jenis objek tertentu.
Untuk mengekstrak primitif semantik objek daripada awan titik cerapan, penulis menggunakan rangkaian pembahagian awan titik untuk membahagikan awan titik cerapan kepada primitif semantik dengan label.
Model generatif 3D (cth. DeepSDF) kebanyakannya beroperasi dalam sistem koordinat ternormal.
Walau bagaimanapun, akan terdapat transformasi pose yang serupa (putaran, terjemahan dan skala) antara objek dalam pemerhatian dunia sebenar dan sistem koordinat ternormal.
Untuk menyelesaikan bentuk ternormal yang sepadan dengan pemerhatian semasa apabila pose tidak diketahui, penulis mencadangkan deskriptor bentuk yang tidak berubah kepada transformasi serupa berdasarkan perwakilan primitif semantik.
Penerangan ini ditunjukkan dalam rajah di bawah, yang menerangkan sudut antara vektor yang terdiri daripada primitif berbeza:
Pengarang menggunakan deskriptor ini untuk mengukur ralat antara cerapan semasa dan bentuk yang dianggarkan, dan menggunakan penurunan kecerunan untuk menjadikan bentuk anggaran lebih konsisten dengan pemerhatian Proses ditunjukkan dalam rajah di bawah.
Pengarang juga menunjukkan lebih banyak contoh pengoptimuman bentuk.
Akhir sekali, dengan memerhati awan titik dan menyelesaikan primitif semantik antara bentuk Berdasarkan korespondensi bahasa, penulis menggunakan algoritma Umeyama untuk menyelesaikan pose bentuk yang diperhatikan.
Pengarang menggunakan set data REAL275 (set data sebenar) dan CAMERA25 (set data sintetik) yang disediakan oleh NOCS Eksperimen perbandingan telah dijalankan untuk membandingkan ketepatan anggaran pose dengan kaedah lain Kaedah yang dicadangkan jauh melebihi kaedah lain dalam pelbagai penunjuk.
Pada masa yang sama, penulis juga membandingkan jumlah parameter yang perlu dilatih pada set latihan yang disediakan oleh NOCS Penulis memerlukan minimum 2.3M parameter untuk mencapai tahap terkini.
Atas ialah kandungan terperinci Hanya 10% daripada parameter diperlukan untuk mengatasi SOTA! Universiti Zhejiang, Byte dan Cina Hong Kong bersama-sama mencadangkan rangka kerja baharu untuk tugas 'anggaran pose peringkat kategori'. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!