Model Google RT-1 meminta robot melakukan beberapa kerja, dengan kadar kejayaan 97% untuk 700 arahan-AI-php.cn

Rumah

Peranti teknologi

Model Google RT-1 meminta robot melakukan beberapa kerja, dengan kadar kejayaan 97% untuk 700 arahan

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 11, 2023 am 11:34 AM

robotModel

Banyak kemajuan terkini dalam berbilang subbidang penyelidikan pembelajaran mesin (ML), seperti penglihatan komputer dan pemprosesan bahasa semula jadi, dibina berdasarkan memanfaatkan set dan perwakilan data yang besar dan pelbagai yang boleh menyerap semua Model data dengan cekap.

Walau bagaimanapun, kaedah model berprestasi tinggi ini mempunyai aplikasi yang agak sedikit dalam bidang robotik.

Alasannya mudah, pertama, kekurangan data robot berskala besar dan pelbagai mengehadkan keupayaan model untuk menyerap pelbagai pengalaman robot.

Kedua, terdapat kekurangan model inferens masa nyata yang ekspresif, boleh skala dan cukup pantas yang boleh belajar daripada set data sedemikian dan digeneralisasikan dengan berkesan.

Kali ini, Transformer Robotik 1 Google (pendek kata RT-1) ialah model berbilang tugas yang boleh melabelkan tindakan input dan output robot (cth., imej kamera, arahan tugasan dan motor arahan) untuk membolehkan inferens yang cekap pada masa jalan dan membolehkan kawalan masa nyata.

Model Google RT-1 meminta robot melakukan beberapa kerja, dengan kadar kejayaan 97% untuk 700 arahan

RT-1 menyerap sejumlah besar data, membolehkan robot melakukan pelbagai tugas dalam persekitaran yang berbeza, dengan itu meningkatkan mesin prestasi dan generalisasi Keupayaan

Ringkasnya, ini bermakna membiarkan robot melakukan beberapa kerja pada masa yang sama.

Model ini telah dilatih pada set data robotik dunia sebenar yang besar sebanyak 130k episod yang meliputi lebih daripada 700 tugasan menggunakan 13 mesin daripada Everyday Robots (EDR) Robot-robot itu dikumpulkan dalam tempoh 17 bulan.

Hasilnya menunjukkan bahawa RT-1 boleh meningkatkan generalisasi sifar pukulan dengan ketara kepada tugasan, persekitaran dan objek baharu berbanding teknik sedia ada.

Editor telah meletakkan pautan Github dengan teliti di bawah Jika anda berminat, cepat semaknya.

Model Google RT-1 meminta robot melakukan beberapa kerja, dengan kadar kejayaan 97% untuk 700 arahan

https://github.com/google-research/robotics_transformer

Prinsip khusus model RT-1

RT-1 dibina pada seni bina Transformer Ia boleh mendapatkan sejarah imej daripada kamera robot dan menggunakan perihalan tugasan yang dinyatakan dalam bahasa semula jadi sebagai input, dan secara langsung output pada masa yang sama tindakan Tokenized.

Seni bina RT-1 adalah serupa dengan model jujukan penyahkod sahaja yang dilatih terhadap objektif rentas entropi kategori standard dengan penyekat sebab.

Model Google RT-1 meminta robot melakukan beberapa kerja, dengan kadar kejayaan 97% untuk 700 arahan

Model mengambil sebagai arahan teks input dan satu set imej, mengekodkannya menjadi token melalui model FiLM EfficientNet yang telah terlatih, Dan mampatkannya melalui TokenLearner, dan kemudian keluarkan tag tindakan melalui Transformer.

Fungsi utamanya termasuk: Tokenisasi Imej, Tokenisasi Tindakan dan Mampatan Token.

Tokenisasi imej: Kami menghantar imej melalui model EfficientNet-B3 yang telah dilatih pada ImageNet, dan kemudian meratakan peta ciri spatial 9×9×512 yang terhasil kepada 81 token. Tokenizer imej dikondisikan pada arahan tugas bahasa semula jadi dan mengekstrak ciri imej berkaitan tugasan awal menggunakan lapisan FiLM yang dimulakan kepada identiti.
Tokenisasi tindakan: Dimensi tindakan robot ialah 7 pembolehubah pergerakan lengan (x, y, z, roll, pitch, yaw, clamp open ), 3 pembolehubah gerakan asas (x, y, yaw), dan pembolehubah diskret tambahan untuk bertukar antara tiga mod.
Mampatan token: Model secara adaptif memilih gabungan lembut token imej berdasarkan kesannya terhadap pembelajaran menggunakan modul perhatian elemen TokenLearner mampatan, menghasilkan lebih daripada 2.4 x lebih cepat inferens.

Model Google RT-1 meminta robot melakukan beberapa kerja, dengan kadar kejayaan 97% untuk 700 arahan

Kami menggunakan demonstrasi yang disediakan oleh manusia melalui operasi jauh, dengan penerangan teks mengenai robot yang melaksanakan arahan untuk setiap Anotasi satu episod.

Dan robot ini bergantung pada "lengan dengan 7 darjah kebebasan, pencengkam dua jari dan tapak mudah alih" untuk melaksanakan tugasnya.

Set kemahiran peringkat tinggi yang diwakili dalam set data termasuk memilih dan meletakkan item, membuka dan menutup laci, meletakkan item masuk dan keluar dari laci, memegang item panjang dan nipis tegak dan mengetuk objek berasingan dan tunggu operasi.

Mengintegrasikan sumber data heterogen

Untuk memajukan lagi RT-1, kami melatihnya menggunakan data yang dikumpul daripada robot lain untuk menguji model (1) sama ada prestasinya pada tugas asal dikekalkan apabila sumber data baharu dibentangkan, dan (2) sama ada model itu bertambah baik dalam generalisasi dengan data baharu dan berbeza.

Kami mengubah data yang dikumpul agar sepadan dengan spesifikasi tindakan dan sempadan set data asal yang kami kumpul menggunakan EDR dan melabel setiap set data dengan arahan tugas.

Data Kuka kemudian dicampur dengan data EDR dalam nisbah 1:2 dalam setiap kumpulan latihan untuk mengawal regresi kemahiran EDR asal.

Model Google RT-1 meminta robot melakukan beberapa kerja, dengan kadar kejayaan 97% untuk 700 arahan

Gambar menunjukkan kaedah latihan semasa mengumpul data daripada berbilang robot

Hasil kajian menunjukkan RT-1 mampu memperoleh kemahiran baharu melalui pengalaman memerhati robot lain.

Apabila RT-1 dilatih pada data pengambilan tong Kuka dan data EDR sedia ada dari bilik darjah robotik, terdapat lonjakan ketepatan 22% apabila dilatih menggunakan hanya data EDR "hampir dua kali ganda". kepada 39%.

Model Google RT-1 meminta robot melakukan beberapa kerja, dengan kadar kejayaan 97% untuk 700 arahan

Ketepatan semasa melatih RT-1 menggunakan data memilih daripada Kuka sahaja dan menilainya menggunakan data memilih daripada robot EDR ialah 0%.

Hasil Eksperimen

Untuk lebih memahami keupayaan generalisasi RT-1, kami mengkaji prestasinya terhadap tiga garis dasar: Gato, BC-Z dan BC-Z XL ( iaitu BC-Z dengan bilangan parameter yang sama seperti RT-1).

dan membahagikannya kepada empat kategori:

Model Google RT-1 meminta robot melakukan beberapa kerja, dengan kadar kejayaan 97% untuk 700 arahan

Gambar menunjukkan persekitaran ujian Prestasi daripada RT-1 dan kumpulan kawalan

Prestasi tugasan yang dilihat: prestasi tugasan diperhatikan semasa latihan
Prestasi tugasan yang tidak dilihat: diperhatikan semasa latihan Prestasi pada tugasan yang tidak kelihatan, di mana kemahiran dan objek dipisahkan dalam set latihan;
Keteguhan: semasa campur tangan pengalih Prestasi dan prestasi perubahan latar belakang (dapur baharu, pencahayaan, pemandangan latar belakang)
Senario ufuk panjang: Pelaksanaan arahan bahasa semula jadi seperti SayCan di dapur sebenar

Keupayaan prestasi tinggi dan generalisasi RT- 1 boleh mencapai tugas operasi jarak jauh dan mudah alih melalui SayCan.

SayCan berfungsi dengan meletakkan model bahasa dalam kemampuan robot dan menggunakan sebilangan kecil gesaan untuk memecahkan tugas jangka panjang untuk menyatakan bahasa semula jadi kepada satu siri kemahiran peringkat rendah .

Kami menilai SayCan dalam dua dapur sebenar menggunakan RT-1 dan dua garis dasar lain (SayCan dengan Gato dan SayCan dengan BC-Z).

Di bawah, "Kitchen2" mengemukakan senario generalisasi yang lebih mencabar daripada "Kitchen1". Dapur simulasi yang digunakan untuk mengumpul kebanyakan data latihan telah dimodelkan selepas Kitchen1.

Model Google RT-1 meminta robot melakukan beberapa kerja, dengan kadar kejayaan 97% untuk 700 arahan

Dapat dilihat bahawa kadar kejayaan pelaksanaan SayCan dengan RT-1 dalam Kitchen1 ialah 67%, yang lebih baik daripada garis dasar lain.

Disebabkan kesukaran generalisasi yang dibawa oleh dapur halimunan baharu, prestasi SayCan dengan Gato dan SayCan dengan BCZ menurun, tetapi kadar kejayaan RT-1 tidak menurun dengan sewajarnya.

Atas ialah kandungan terperinci Model Google RT-1 meminta robot melakukan beberapa kerja, dengan kadar kejayaan 97% untuk 700 arahan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Cara Membina Pembantu AI Peribadi Anda Dengan Huggingface SmollmApr 18, 2025 am 11:52 AM

Memanfaatkan kuasa AI di peranti: Membina CLI Chatbot Peribadi Pada masa lalu, konsep pembantu AI peribadi kelihatan seperti fiksyen sains. Bayangkan Alex, seorang peminat teknologi, bermimpi seorang sahabat AI yang pintar, yang tidak bergantung

AI untuk Kesihatan Mental dianalisis dengan penuh perhatian melalui inisiatif baru yang menarik di Stanford UniversityApr 18, 2025 am 11:49 AM

Pelancaran AI4MH mereka berlaku pada 15 April, 2025, dan Luminary Dr. Tom Insel, M.D., pakar psikiatri yang terkenal dan pakar neurosains, berkhidmat sebagai penceramah kick-off. Dr. Insel terkenal dengan kerja cemerlangnya dalam penyelidikan kesihatan mental dan techno

Kelas Draf WNBA 2025 memasuki liga yang semakin meningkat dan melawan gangguan dalam talianApr 18, 2025 am 11:44 AM

"Kami mahu memastikan bahawa WNBA kekal sebagai ruang di mana semua orang, pemain, peminat dan rakan kongsi korporat, berasa selamat, dihargai dan diberi kuasa," kata Engelbert, menangani apa yang telah menjadi salah satu cabaran sukan wanita yang paling merosakkan. Anno

Panduan Komprehensif untuk Struktur Data Terbina Python - Analytics VidhyaApr 18, 2025 am 11:43 AM

Pengenalan Python cemerlang sebagai bahasa pengaturcaraan, terutamanya dalam sains data dan AI generatif. Manipulasi data yang cekap (penyimpanan, pengurusan, dan akses) adalah penting apabila berurusan dengan dataset yang besar. Kami pernah meliputi nombor dan st

Tayangan pertama dari model baru Openai berbanding dengan alternatifApr 18, 2025 am 11:41 AM

Sebelum menyelam, kaveat penting: Prestasi AI adalah spesifik yang tidak ditentukan dan sangat digunakan. Dalam istilah yang lebih mudah, perbatuan anda mungkin berbeza -beza. Jangan ambil artikel ini (atau lain -lain) sebagai perkataan akhir -sebaliknya, uji model ini pada senario anda sendiri

AI Portfolio | Bagaimana untuk membina portfolio untuk kerjaya AI?Apr 18, 2025 am 11:40 AM

Membina portfolio AI/ML yang menonjol: Panduan untuk Pemula dan Profesional Mewujudkan portfolio yang menarik adalah penting untuk mendapatkan peranan dalam kecerdasan buatan (AI) dan pembelajaran mesin (ML). Panduan ini memberi nasihat untuk membina portfolio

AI AI apa yang boleh dimaksudkan untuk operasi keselamatanApr 18, 2025 am 11:36 AM

Hasilnya? Pembakaran, ketidakcekapan, dan jurang yang melebar antara pengesanan dan tindakan. Tak satu pun dari ini harus datang sebagai kejutan kepada sesiapa yang bekerja dalam keselamatan siber. Janji Agentic AI telah muncul sebagai titik perubahan yang berpotensi. Kelas baru ini

Google Versus Openai: AI berjuang untuk pelajarApr 18, 2025 am 11:31 AM

Impak segera berbanding perkongsian jangka panjang? Dua minggu yang lalu Openai melangkah ke hadapan dengan tawaran jangka pendek yang kuat, memberikan akses kepada pelajar A.S. dan Kanada.

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

3 minggu yang laluByDDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

2 minggu yang laluByDDD

Di mana untuk mencari kad kunci kawalan kren di atomfall

3 minggu yang laluByDDD

Penjimatan di R.E.P.O. Dijelaskan (dan simpan fail)

1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows - Cara Mencari Orang Panda

4 minggu yang laluByDDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SecLists

SecLists ialah rakan penguji keselamatan muktamad. Ia ialah koleksi pelbagai jenis senarai yang kerap digunakan semasa penilaian keselamatan, semuanya di satu tempat. SecLists membantu menjadikan ujian keselamatan lebih cekap dan produktif dengan menyediakan semua senarai yang mungkin diperlukan oleh penguji keselamatan dengan mudah. Jenis senarai termasuk nama pengguna, kata laluan, URL, muatan kabur, corak data sensitif, cangkerang web dan banyak lagi. Penguji hanya boleh menarik repositori ini ke mesin ujian baharu dan dia akan mempunyai akses kepada setiap jenis senarai yang dia perlukan.