Rumah > Artikel > Peranti teknologi > Model Google RT-1 meminta robot melakukan beberapa kerja, dengan kadar kejayaan 97% untuk 700 arahan
Banyak kemajuan terkini dalam berbilang subbidang penyelidikan pembelajaran mesin (ML), seperti penglihatan komputer dan pemprosesan bahasa semula jadi, dibina berdasarkan memanfaatkan set dan perwakilan data yang besar dan pelbagai yang boleh menyerap semua Model data dengan cekap.
Walau bagaimanapun, kaedah model berprestasi tinggi ini mempunyai aplikasi yang agak sedikit dalam bidang robotik.
Alasannya mudah, pertama, kekurangan data robot berskala besar dan pelbagai mengehadkan keupayaan model untuk menyerap pelbagai pengalaman robot.
Kedua, terdapat kekurangan model inferens masa nyata yang ekspresif, boleh skala dan cukup pantas yang boleh belajar daripada set data sedemikian dan digeneralisasikan dengan berkesan.
Kali ini, Transformer Robotik 1 Google (pendek kata RT-1) ialah model berbilang tugas yang boleh melabelkan tindakan input dan output robot (cth., imej kamera, arahan tugasan dan motor arahan) untuk membolehkan inferens yang cekap pada masa jalan dan membolehkan kawalan masa nyata.
RT-1 menyerap sejumlah besar data, membolehkan robot melakukan pelbagai tugas dalam persekitaran yang berbeza, dengan itu meningkatkan mesin prestasi dan generalisasi Keupayaan
Ringkasnya, ini bermakna membiarkan robot melakukan beberapa kerja pada masa yang sama.
Model ini telah dilatih pada set data robotik dunia sebenar yang besar sebanyak 130k episod yang meliputi lebih daripada 700 tugasan menggunakan 13 mesin daripada Everyday Robots (EDR) Robot-robot itu dikumpulkan dalam tempoh 17 bulan.
Hasilnya menunjukkan bahawa RT-1 boleh meningkatkan generalisasi sifar pukulan dengan ketara kepada tugasan, persekitaran dan objek baharu berbanding teknik sedia ada.
Editor telah meletakkan pautan Github dengan teliti di bawah Jika anda berminat, cepat semaknya.
https://github.com/google-research/robotics_transformer
RT-1 dibina pada seni bina Transformer Ia boleh mendapatkan sejarah imej daripada kamera robot dan menggunakan perihalan tugasan yang dinyatakan dalam bahasa semula jadi sebagai input, dan secara langsung output pada masa yang sama tindakan Tokenized.
Seni bina RT-1 adalah serupa dengan model jujukan penyahkod sahaja yang dilatih terhadap objektif rentas entropi kategori standard dengan penyekat sebab.
Model mengambil sebagai arahan teks input dan satu set imej, mengekodkannya menjadi token melalui model FiLM EfficientNet yang telah terlatih, Dan mampatkannya melalui TokenLearner, dan kemudian keluarkan tag tindakan melalui Transformer.
Fungsi utamanya termasuk: Tokenisasi Imej, Tokenisasi Tindakan dan Mampatan Token.
Kami menggunakan demonstrasi yang disediakan oleh manusia melalui operasi jauh, dengan penerangan teks mengenai robot yang melaksanakan arahan untuk setiap Anotasi satu episod.
Dan robot ini bergantung pada "lengan dengan 7 darjah kebebasan, pencengkam dua jari dan tapak mudah alih" untuk melaksanakan tugasnya.
Set kemahiran peringkat tinggi yang diwakili dalam set data termasuk memilih dan meletakkan item, membuka dan menutup laci, meletakkan item masuk dan keluar dari laci, memegang item panjang dan nipis tegak dan mengetuk objek berasingan dan tunggu operasi.
Untuk memajukan lagi RT-1, kami melatihnya menggunakan data yang dikumpul daripada robot lain untuk menguji model (1) sama ada prestasinya pada tugas asal dikekalkan apabila sumber data baharu dibentangkan, dan (2) sama ada model itu bertambah baik dalam generalisasi dengan data baharu dan berbeza.
Kami mengubah data yang dikumpul agar sepadan dengan spesifikasi tindakan dan sempadan set data asal yang kami kumpul menggunakan EDR dan melabel setiap set data dengan arahan tugas.
Data Kuka kemudian dicampur dengan data EDR dalam nisbah 1:2 dalam setiap kumpulan latihan untuk mengawal regresi kemahiran EDR asal.
Gambar menunjukkan kaedah latihan semasa mengumpul data daripada berbilang robot
Hasil kajian menunjukkan RT-1 mampu memperoleh kemahiran baharu melalui pengalaman memerhati robot lain.
Apabila RT-1 dilatih pada data pengambilan tong Kuka dan data EDR sedia ada dari bilik darjah robotik, terdapat lonjakan ketepatan 22% apabila dilatih menggunakan hanya data EDR "hampir dua kali ganda". kepada 39%.
Ketepatan semasa melatih RT-1 menggunakan data memilih daripada Kuka sahaja dan menilainya menggunakan data memilih daripada robot EDR ialah 0%.
Untuk lebih memahami keupayaan generalisasi RT-1, kami mengkaji prestasinya terhadap tiga garis dasar: Gato, BC-Z dan BC-Z XL ( iaitu BC-Z dengan bilangan parameter yang sama seperti RT-1).
dan membahagikannya kepada empat kategori:
Gambar menunjukkan persekitaran ujian Prestasi daripada RT-1 dan kumpulan kawalan
Keupayaan prestasi tinggi dan generalisasi RT- 1 boleh mencapai tugas operasi jarak jauh dan mudah alih melalui SayCan.
SayCan berfungsi dengan meletakkan model bahasa dalam kemampuan robot dan menggunakan sebilangan kecil gesaan untuk memecahkan tugas jangka panjang untuk menyatakan bahasa semula jadi kepada satu siri kemahiran peringkat rendah .
Kami menilai SayCan dalam dua dapur sebenar menggunakan RT-1 dan dua garis dasar lain (SayCan dengan Gato dan SayCan dengan BC-Z).
Di bawah, "Kitchen2" mengemukakan senario generalisasi yang lebih mencabar daripada "Kitchen1". Dapur simulasi yang digunakan untuk mengumpul kebanyakan data latihan telah dimodelkan selepas Kitchen1.
Dapat dilihat bahawa kadar kejayaan pelaksanaan SayCan dengan RT-1 dalam Kitchen1 ialah 67%, yang lebih baik daripada garis dasar lain.
Disebabkan kesukaran generalisasi yang dibawa oleh dapur halimunan baharu, prestasi SayCan dengan Gato dan SayCan dengan BCZ menurun, tetapi kadar kejayaan RT-1 tidak menurun dengan sewajarnya.
Atas ialah kandungan terperinci Model Google RT-1 meminta robot melakukan beberapa kerja, dengan kadar kejayaan 97% untuk 700 arahan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!