Rumah > Artikel > Peranti teknologi > Sapu 99 sub-misi dengan KPM! Universiti Zhejiang dan lain-lain mencadangkan strategi robot am baharu GeRM
Pembelajaran robot berbilang tugas adalah sangat penting dalam menangani senario yang pelbagai dan kompleks. Walau bagaimanapun, kaedah semasa dihadkan oleh isu prestasi dan kesukaran dalam mengumpul set data latihan.
Kertas kerja ini mencadangkan GeRM (Model Robot Generik), di mana penyelidik memanfaatkan pembelajaran tetulang luar talian untuk mengoptimumkan strategi penggunaan data, belajar daripada demonstrasi dan data suboptimum, dengan itu mengatasi batasan demonstrasi manusia.
Pengarang: Song Wenxuan, Zhao Han, Ding Pengxiang, Cui Can, Lu Shangke, Fan Yaning, Wang Donglin
Pengarang: West Lake University, Zhejiang University
alamat: https//arxiv.org/abs/2403.13358
Alamat projek: https://songwxuan.github.io/GeRM/
Kemudian model berbilang bahasa-tindakan penglihatan berasaskan Transformer digunakan untuk memproses berbilang bahasa tindakan input dan output.
Dengan memperkenalkan struktur hibrid pakar, GeRM mencapai kelajuan inferens yang lebih pantas dan kapasiti model keseluruhan yang lebih tinggi, dengan itu menyelesaikan masalah volum parameter pembelajaran pengukuhan terhad, meningkatkan prestasi model dalam pembelajaran pelbagai tugas, dan pada masa yang sama mengawal untuk mengira kos.
Ia dibuktikan melalui satu siri eksperimen bahawa GeRM mengatasi kaedah lain dalam semua tugas, sambil mengesahkan kecekapannya dalam proses latihan dan inferens.
Selain itu, penyelidik juga menyediakan set data QUARD-Auto untuk menyokong latihan Pembinaan set data ini mengikut paradigma baharu pengumpulan data automasi yang dicadangkan dalam artikel ini dan menggalakkan pembelajaran pelbagai tugasan.
Sumbangan utama:
1. Mencadangkan buat pertama kalinya model pakar hibrid untuk pembelajaran tetulang berkaki empat, yang dilatih mengenai data berkualiti campuran dan berpotensi untuk mempelajari strategi optimum.
2 Berbanding dengan kaedah sedia ada, GeRM menunjukkan kadar kejayaan yang lebih tinggi apabila hanya mengaktifkan 1/2 daripada parameternya sendiri, mengaktifkan keupayaan kemunculan dan menunjukkan penggunaan data yang lebih baik semasa proses latihan.
3. Mencadangkan paradigma untuk pengumpulan set data robot automatik sepenuhnya, dan mengumpul set data sumber terbuka berskala besar.
KaedahStruktur rangkaian GeRM ditunjukkan dalam Rajah 1. Input visual-linguistik termasuk data demonstrasi dan data kegagalan dimasukkan ke dalam penyahkod struktur pakar hibrid 8 lapisan selepas melalui pengekod dan tokenizer masing-masing, dan menjana token tindakan , dan akhirnya ditukar kepada data tindakan robot diskret dan digunakan kepada robot melalui strategi asas Selain itu, kami menggunakan pembelajaran pengukuhan untuk latihan.
Rajah 1 Gambar rajah struktur rangkaian GeRM
Dekoder GeRM ialah model seni bina Penyahkod Transformer, di mana rangkaian suapan hadapan (FFN) dipilih daripada set 8 rangkaian pakar yang berbeza.
Di setiap lapisan, untuk setiap token, rangkaian berpagar memilih dua pakar untuk memproses token dan menggabungkan output mereka dengan cara yang wajar.
Pakar yang berbeza mahir dalam tugasan yang berbeza/dimensi tindakan yang berbeza untuk menyelesaikan masalah dalam senario yang berbeza, dengan itu mempelajari model biasa merentas pelbagai tugas. Seni bina ini mengembangkan jumlah parameter rangkaian sambil mengekalkan kos pengiraan pada dasarnya tidak berubah.
Rajah 2 Diagram struktur penyahkod
Kami mencadangkan paradigma automatik untuk mengumpul data berbilang modal daripada robot. Dengan cara ini, kami membina QUARD-Auto, set data robotik berskala besar yang mengandungi gabungan data demonstrasi dan suboptimum. Ia termasuk 5 tugasan dan 99 subtugas, dengan sejumlah 257k trajektori. Kami akan membuka sumber untuk mempromosikan pembangunan komuniti robotik.
Jadual 1 Pengenalan set data
Rajah 3 Statistik volum data
🎜Kami menjalankan satu siri percubaan yang komprehensif dan mantap meliputi kesemua 99 subtugasan, setiap satunya telah diuji dengan teliti pada 400 trajektori.
Seperti yang ditunjukkan dalam Jadual 1, GeRM mempunyai kadar kejayaan tertinggi antara semua tugasan. Berbanding dengan RT-1 dan varian lain GeRM, ia secara berkesan belajar daripada data berkualiti campuran, mengatasi kaedah lain dan mempamerkan keupayaan unggul dalam pelbagai tugas. Pada masa yang sama, modul KPM mengimbangi kos pengiraan dan prestasi dengan mengaktifkan beberapa parameter semasa inferens.
Jadual 2 Percubaan perbandingan pelbagai tugas
GeRM menunjukkan kecekapan latihan yang dipuji. Berbanding dengan kaedah lain, GeRM mencapai kerugian yang sangat rendah dan kadar kejayaan yang tinggi dengan hanya beberapa kelompok, menyerlahkan keupayaan GeRM untuk mengoptimumkan strategi penggunaan data.
Rajah 4 Kadar kejayaan/Keluk perubahan kerugian
GeRM telah menunjukkan keupayaan yang muncul dalam perancangan laluan adaptif dinamik. Seperti yang ditunjukkan dalam video, robot berkaki empat mempunyai medan pandangan yang terhad pada kedudukan awal, menjadikannya sukar untuk menentukan arah pergerakan. Untuk mengelakkan halangan, ia secara rawak memilih untuk membelok ke kiri.
Selepas itu, apabila menemui input visual yang salah, robot melakukan orientasi semula drastik untuk menjajarkan dengan sasaran yang betul di luar medan pandangan asal. Ia kemudiannya meneruskan ke destinasinya, akhirnya menyelesaikan misinya.
Perlu diperhatikan bahawa trajektori sedemikian tidak termasuk dalam pengedaran set data latihan kami. Ini menunjukkan keupayaan muncul GeRM untuk perancangan laluan adaptif dinamik dalam konteks adegan, iaitu, keupayaannya untuk membuat keputusan berdasarkan persepsi visual, merancang laluan masa depan dan mengubah langkah seterusnya mengikut keperluan.
Rajah 5 Keupayaan yang muncul
Atas ialah kandungan terperinci Sapu 99 sub-misi dengan KPM! Universiti Zhejiang dan lain-lain mencadangkan strategi robot am baharu GeRM. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!