Rumah  >  Artikel  >  Peranti teknologi  >  Model Google RT-1 meminta robot melakukan beberapa kerja, dengan kadar kejayaan 97% untuk 700 arahan

Model Google RT-1 meminta robot melakukan beberapa kerja, dengan kadar kejayaan 97% untuk 700 arahan

WBOY
WBOYke hadapan
2023-04-11 11:34:031183semak imbas

Banyak kemajuan terkini dalam berbilang subbidang penyelidikan pembelajaran mesin (ML), seperti penglihatan komputer dan pemprosesan bahasa semula jadi, dibina berdasarkan memanfaatkan set dan perwakilan data yang besar dan pelbagai yang boleh menyerap semua Model data dengan cekap.

Walau bagaimanapun, kaedah model berprestasi tinggi ini mempunyai aplikasi yang agak sedikit dalam bidang robotik.

Alasannya mudah, pertama, kekurangan data robot berskala besar dan pelbagai mengehadkan keupayaan model untuk menyerap pelbagai pengalaman robot.

Kedua, terdapat kekurangan model inferens masa nyata yang ekspresif, boleh skala dan cukup pantas yang boleh belajar daripada set data sedemikian dan digeneralisasikan dengan berkesan.

Kali ini, Transformer Robotik 1 Google (pendek kata RT-1) ialah model berbilang tugas yang boleh melabelkan tindakan input dan output robot (cth., imej kamera, arahan tugasan dan motor arahan) untuk membolehkan inferens yang cekap pada masa jalan dan membolehkan kawalan masa nyata.

Model Google RT-1 meminta robot melakukan beberapa kerja, dengan kadar kejayaan 97% untuk 700 arahan

RT-1 menyerap sejumlah besar data, membolehkan robot melakukan pelbagai tugas dalam persekitaran yang berbeza, dengan itu meningkatkan mesin prestasi dan generalisasi Keupayaan

Ringkasnya, ini bermakna membiarkan robot melakukan beberapa kerja pada masa yang sama.

Model ini telah dilatih pada set data robotik dunia sebenar yang besar sebanyak 130k episod yang meliputi lebih daripada 700 tugasan menggunakan 13 mesin daripada Everyday Robots (EDR) Robot-robot itu dikumpulkan dalam tempoh 17 bulan.

Hasilnya menunjukkan bahawa RT-1 boleh meningkatkan generalisasi sifar pukulan dengan ketara kepada tugasan, persekitaran dan objek baharu berbanding teknik sedia ada.

Editor telah meletakkan pautan Github dengan teliti di bawah Jika anda berminat, cepat semaknya.

Model Google RT-1 meminta robot melakukan beberapa kerja, dengan kadar kejayaan 97% untuk 700 arahan

​https://github.com/google-research/robotics_transformer​

Prinsip khusus model RT-1

RT-1 dibina pada seni bina Transformer Ia boleh mendapatkan sejarah imej daripada kamera robot dan menggunakan perihalan tugasan yang dinyatakan dalam bahasa semula jadi sebagai input, dan secara langsung output pada masa yang sama tindakan Tokenized.

Seni bina RT-1 adalah serupa dengan model jujukan penyahkod sahaja yang dilatih terhadap objektif rentas entropi kategori standard dengan penyekat sebab.

Model Google RT-1 meminta robot melakukan beberapa kerja, dengan kadar kejayaan 97% untuk 700 arahan

Model mengambil sebagai arahan teks input dan satu set imej, mengekodkannya menjadi token melalui model FiLM EfficientNet yang telah terlatih, Dan mampatkannya melalui TokenLearner, dan kemudian keluarkan tag tindakan melalui Transformer.

Fungsi utamanya termasuk: Tokenisasi Imej, Tokenisasi Tindakan dan Mampatan Token.

  • Tokenisasi imej: Kami menghantar imej melalui model EfficientNet-B3 yang telah dilatih pada ImageNet, dan kemudian meratakan peta ciri spatial 9×9×512 yang terhasil kepada 81 token. Tokenizer imej dikondisikan pada arahan tugas bahasa semula jadi dan mengekstrak ciri imej berkaitan tugasan awal menggunakan lapisan FiLM yang dimulakan kepada identiti.
  • Tokenisasi tindakan: Dimensi tindakan robot ialah 7 pembolehubah pergerakan lengan (x, y, z, roll, pitch, yaw, clamp open ), 3 pembolehubah gerakan asas (x, y, yaw), dan pembolehubah diskret tambahan untuk bertukar antara tiga mod.
  • Mampatan token: Model secara adaptif memilih gabungan lembut token imej berdasarkan kesannya terhadap pembelajaran menggunakan modul perhatian elemen TokenLearner mampatan, menghasilkan lebih daripada 2.4 x lebih cepat inferens.

Model Google RT-1 meminta robot melakukan beberapa kerja, dengan kadar kejayaan 97% untuk 700 arahan

Kami menggunakan demonstrasi yang disediakan oleh manusia melalui operasi jauh, dengan penerangan teks mengenai robot yang melaksanakan arahan untuk setiap Anotasi satu episod.

Dan robot ini bergantung pada "lengan dengan 7 darjah kebebasan, pencengkam dua jari dan tapak mudah alih" untuk melaksanakan tugasnya.

Set kemahiran peringkat tinggi yang diwakili dalam set data termasuk memilih dan meletakkan item, membuka dan menutup laci, meletakkan item masuk dan keluar dari laci, memegang item panjang dan nipis tegak dan mengetuk objek berasingan dan tunggu operasi.

Mengintegrasikan sumber data heterogen

Untuk memajukan lagi RT-1, kami melatihnya menggunakan data yang dikumpul daripada robot lain untuk menguji model (1) sama ada prestasinya pada tugas asal dikekalkan apabila sumber data baharu dibentangkan, dan (2) sama ada model itu bertambah baik dalam generalisasi dengan data baharu dan berbeza.

Kami mengubah data yang dikumpul agar sepadan dengan spesifikasi tindakan dan sempadan set data asal yang kami kumpul menggunakan EDR dan melabel setiap set data dengan arahan tugas.

Data Kuka kemudian dicampur dengan data EDR dalam nisbah 1:2 dalam setiap kumpulan latihan untuk mengawal regresi kemahiran EDR asal.

Model Google RT-1 meminta robot melakukan beberapa kerja, dengan kadar kejayaan 97% untuk 700 arahan

Gambar menunjukkan kaedah latihan semasa mengumpul data daripada berbilang robot

Hasil kajian menunjukkan RT-1 mampu memperoleh kemahiran baharu melalui pengalaman memerhati robot lain.

Apabila RT-1 dilatih pada data pengambilan tong Kuka dan data EDR sedia ada dari bilik darjah robotik, terdapat lonjakan ketepatan 22% apabila dilatih menggunakan hanya data EDR "hampir dua kali ganda". kepada 39%.

Model Google RT-1 meminta robot melakukan beberapa kerja, dengan kadar kejayaan 97% untuk 700 arahan

Ketepatan semasa melatih RT-1 menggunakan data memilih daripada Kuka sahaja dan menilainya menggunakan data memilih daripada robot EDR ialah 0%.

Hasil Eksperimen

Untuk lebih memahami keupayaan generalisasi RT-1, kami mengkaji prestasinya terhadap tiga garis dasar: Gato, BC-Z dan BC-Z XL ( iaitu BC-Z dengan bilangan parameter yang sama seperti RT-1).

dan membahagikannya kepada empat kategori:

Model Google RT-1 meminta robot melakukan beberapa kerja, dengan kadar kejayaan 97% untuk 700 arahan

Gambar menunjukkan persekitaran ujian Prestasi daripada RT-1 dan kumpulan kawalan

  • Prestasi tugasan yang dilihat: prestasi tugasan diperhatikan semasa latihan
  • Prestasi tugasan yang tidak dilihat: diperhatikan semasa latihan Prestasi pada tugasan yang tidak kelihatan, di mana kemahiran dan objek dipisahkan dalam set latihan;
  • Keteguhan: semasa campur tangan pengalih Prestasi dan prestasi perubahan latar belakang (dapur baharu, pencahayaan, pemandangan latar belakang)
  • Senario ufuk panjang: Pelaksanaan arahan bahasa semula jadi seperti SayCan di dapur sebenar

Keupayaan prestasi tinggi dan generalisasi RT- 1 boleh mencapai tugas operasi jarak jauh dan mudah alih melalui SayCan.

SayCan berfungsi dengan meletakkan model bahasa dalam kemampuan robot dan menggunakan sebilangan kecil gesaan untuk memecahkan tugas jangka panjang untuk menyatakan bahasa semula jadi kepada satu siri kemahiran peringkat rendah .

Kami menilai SayCan dalam dua dapur sebenar menggunakan RT-1 dan dua garis dasar lain (SayCan dengan Gato dan SayCan dengan BC-Z).

Di bawah, "Kitchen2" mengemukakan senario generalisasi yang lebih mencabar daripada "Kitchen1". Dapur simulasi yang digunakan untuk mengumpul kebanyakan data latihan telah dimodelkan selepas Kitchen1.

Model Google RT-1 meminta robot melakukan beberapa kerja, dengan kadar kejayaan 97% untuk 700 arahan

Dapat dilihat bahawa kadar kejayaan pelaksanaan SayCan dengan RT-1 dalam Kitchen1 ialah 67%, yang lebih baik daripada garis dasar lain.

Disebabkan kesukaran generalisasi yang dibawa oleh dapur halimunan baharu, prestasi SayCan dengan Gato dan SayCan dengan BCZ menurun, tetapi kadar kejayaan RT-1 tidak menurun dengan sewajarnya.

Atas ialah kandungan terperinci Model Google RT-1 meminta robot melakukan beberapa kerja, dengan kadar kejayaan 97% untuk 700 arahan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam