


Model Google RT-1 meminta robot melakukan beberapa kerja, dengan kadar kejayaan 97% untuk 700 arahan
Banyak kemajuan terkini dalam berbilang subbidang penyelidikan pembelajaran mesin (ML), seperti penglihatan komputer dan pemprosesan bahasa semula jadi, dibina berdasarkan memanfaatkan set dan perwakilan data yang besar dan pelbagai yang boleh menyerap semua Model data dengan cekap.
Walau bagaimanapun, kaedah model berprestasi tinggi ini mempunyai aplikasi yang agak sedikit dalam bidang robotik.
Alasannya mudah, pertama, kekurangan data robot berskala besar dan pelbagai mengehadkan keupayaan model untuk menyerap pelbagai pengalaman robot.
Kedua, terdapat kekurangan model inferens masa nyata yang ekspresif, boleh skala dan cukup pantas yang boleh belajar daripada set data sedemikian dan digeneralisasikan dengan berkesan.
Kali ini, Transformer Robotik 1 Google (pendek kata RT-1) ialah model berbilang tugas yang boleh melabelkan tindakan input dan output robot (cth., imej kamera, arahan tugasan dan motor arahan) untuk membolehkan inferens yang cekap pada masa jalan dan membolehkan kawalan masa nyata.
RT-1 menyerap sejumlah besar data, membolehkan robot melakukan pelbagai tugas dalam persekitaran yang berbeza, dengan itu meningkatkan mesin prestasi dan generalisasi Keupayaan
Ringkasnya, ini bermakna membiarkan robot melakukan beberapa kerja pada masa yang sama.
Model ini telah dilatih pada set data robotik dunia sebenar yang besar sebanyak 130k episod yang meliputi lebih daripada 700 tugasan menggunakan 13 mesin daripada Everyday Robots (EDR) Robot-robot itu dikumpulkan dalam tempoh 17 bulan.
Hasilnya menunjukkan bahawa RT-1 boleh meningkatkan generalisasi sifar pukulan dengan ketara kepada tugasan, persekitaran dan objek baharu berbanding teknik sedia ada.
Editor telah meletakkan pautan Github dengan teliti di bawah Jika anda berminat, cepat semaknya.
https://github.com/google-research/robotics_transformer
Prinsip khusus model RT-1
RT-1 dibina pada seni bina Transformer Ia boleh mendapatkan sejarah imej daripada kamera robot dan menggunakan perihalan tugasan yang dinyatakan dalam bahasa semula jadi sebagai input, dan secara langsung output pada masa yang sama tindakan Tokenized.
Seni bina RT-1 adalah serupa dengan model jujukan penyahkod sahaja yang dilatih terhadap objektif rentas entropi kategori standard dengan penyekat sebab.
Model mengambil sebagai arahan teks input dan satu set imej, mengekodkannya menjadi token melalui model FiLM EfficientNet yang telah terlatih, Dan mampatkannya melalui TokenLearner, dan kemudian keluarkan tag tindakan melalui Transformer.
Fungsi utamanya termasuk: Tokenisasi Imej, Tokenisasi Tindakan dan Mampatan Token.
- Tokenisasi imej: Kami menghantar imej melalui model EfficientNet-B3 yang telah dilatih pada ImageNet, dan kemudian meratakan peta ciri spatial 9×9×512 yang terhasil kepada 81 token. Tokenizer imej dikondisikan pada arahan tugas bahasa semula jadi dan mengekstrak ciri imej berkaitan tugasan awal menggunakan lapisan FiLM yang dimulakan kepada identiti.
- Tokenisasi tindakan: Dimensi tindakan robot ialah 7 pembolehubah pergerakan lengan (x, y, z, roll, pitch, yaw, clamp open ), 3 pembolehubah gerakan asas (x, y, yaw), dan pembolehubah diskret tambahan untuk bertukar antara tiga mod.
- Mampatan token: Model secara adaptif memilih gabungan lembut token imej berdasarkan kesannya terhadap pembelajaran menggunakan modul perhatian elemen TokenLearner mampatan, menghasilkan lebih daripada 2.4 x lebih cepat inferens.
Kami menggunakan demonstrasi yang disediakan oleh manusia melalui operasi jauh, dengan penerangan teks mengenai robot yang melaksanakan arahan untuk setiap Anotasi satu episod.
Dan robot ini bergantung pada "lengan dengan 7 darjah kebebasan, pencengkam dua jari dan tapak mudah alih" untuk melaksanakan tugasnya.
Set kemahiran peringkat tinggi yang diwakili dalam set data termasuk memilih dan meletakkan item, membuka dan menutup laci, meletakkan item masuk dan keluar dari laci, memegang item panjang dan nipis tegak dan mengetuk objek berasingan dan tunggu operasi.
Mengintegrasikan sumber data heterogen
Untuk memajukan lagi RT-1, kami melatihnya menggunakan data yang dikumpul daripada robot lain untuk menguji model (1) sama ada prestasinya pada tugas asal dikekalkan apabila sumber data baharu dibentangkan, dan (2) sama ada model itu bertambah baik dalam generalisasi dengan data baharu dan berbeza.
Kami mengubah data yang dikumpul agar sepadan dengan spesifikasi tindakan dan sempadan set data asal yang kami kumpul menggunakan EDR dan melabel setiap set data dengan arahan tugas.
Data Kuka kemudian dicampur dengan data EDR dalam nisbah 1:2 dalam setiap kumpulan latihan untuk mengawal regresi kemahiran EDR asal.
Gambar menunjukkan kaedah latihan semasa mengumpul data daripada berbilang robot
Hasil kajian menunjukkan RT-1 mampu memperoleh kemahiran baharu melalui pengalaman memerhati robot lain.
Apabila RT-1 dilatih pada data pengambilan tong Kuka dan data EDR sedia ada dari bilik darjah robotik, terdapat lonjakan ketepatan 22% apabila dilatih menggunakan hanya data EDR "hampir dua kali ganda". kepada 39%.
Ketepatan semasa melatih RT-1 menggunakan data memilih daripada Kuka sahaja dan menilainya menggunakan data memilih daripada robot EDR ialah 0%.
Hasil Eksperimen
Untuk lebih memahami keupayaan generalisasi RT-1, kami mengkaji prestasinya terhadap tiga garis dasar: Gato, BC-Z dan BC-Z XL ( iaitu BC-Z dengan bilangan parameter yang sama seperti RT-1).
dan membahagikannya kepada empat kategori:
Gambar menunjukkan persekitaran ujian Prestasi daripada RT-1 dan kumpulan kawalan
- Prestasi tugasan yang dilihat: prestasi tugasan diperhatikan semasa latihan
-
Prestasi tugasan yang tidak dilihat: diperhatikan semasa latihan Prestasi pada tugasan yang tidak kelihatan, di mana kemahiran dan objek dipisahkan dalam set latihan;
- Keteguhan: semasa campur tangan pengalih Prestasi dan prestasi perubahan latar belakang (dapur baharu, pencahayaan, pemandangan latar belakang)
- Senario ufuk panjang: Pelaksanaan arahan bahasa semula jadi seperti SayCan di dapur sebenar
Keupayaan prestasi tinggi dan generalisasi RT- 1 boleh mencapai tugas operasi jarak jauh dan mudah alih melalui SayCan.
SayCan berfungsi dengan meletakkan model bahasa dalam kemampuan robot dan menggunakan sebilangan kecil gesaan untuk memecahkan tugas jangka panjang untuk menyatakan bahasa semula jadi kepada satu siri kemahiran peringkat rendah .
Kami menilai SayCan dalam dua dapur sebenar menggunakan RT-1 dan dua garis dasar lain (SayCan dengan Gato dan SayCan dengan BC-Z).
Di bawah, "Kitchen2" mengemukakan senario generalisasi yang lebih mencabar daripada "Kitchen1". Dapur simulasi yang digunakan untuk mengumpul kebanyakan data latihan telah dimodelkan selepas Kitchen1.
Dapat dilihat bahawa kadar kejayaan pelaksanaan SayCan dengan RT-1 dalam Kitchen1 ialah 67%, yang lebih baik daripada garis dasar lain.
Disebabkan kesukaran generalisasi yang dibawa oleh dapur halimunan baharu, prestasi SayCan dengan Gato dan SayCan dengan BCZ menurun, tetapi kadar kejayaan RT-1 tidak menurun dengan sewajarnya.
Atas ialah kandungan terperinci Model Google RT-1 meminta robot melakukan beberapa kerja, dengan kadar kejayaan 97% untuk 700 arahan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Memanfaatkan kuasa AI di peranti: Membina CLI Chatbot Peribadi Pada masa lalu, konsep pembantu AI peribadi kelihatan seperti fiksyen sains. Bayangkan Alex, seorang peminat teknologi, bermimpi seorang sahabat AI yang pintar, yang tidak bergantung

Pelancaran AI4MH mereka berlaku pada 15 April, 2025, dan Luminary Dr. Tom Insel, M.D., pakar psikiatri yang terkenal dan pakar neurosains, berkhidmat sebagai penceramah kick-off. Dr. Insel terkenal dengan kerja cemerlangnya dalam penyelidikan kesihatan mental dan techno

"Kami mahu memastikan bahawa WNBA kekal sebagai ruang di mana semua orang, pemain, peminat dan rakan kongsi korporat, berasa selamat, dihargai dan diberi kuasa," kata Engelbert, menangani apa yang telah menjadi salah satu cabaran sukan wanita yang paling merosakkan. Anno

Pengenalan Python cemerlang sebagai bahasa pengaturcaraan, terutamanya dalam sains data dan AI generatif. Manipulasi data yang cekap (penyimpanan, pengurusan, dan akses) adalah penting apabila berurusan dengan dataset yang besar. Kami pernah meliputi nombor dan st

Sebelum menyelam, kaveat penting: Prestasi AI adalah spesifik yang tidak ditentukan dan sangat digunakan. Dalam istilah yang lebih mudah, perbatuan anda mungkin berbeza -beza. Jangan ambil artikel ini (atau lain -lain) sebagai perkataan akhir -sebaliknya, uji model ini pada senario anda sendiri

Membina portfolio AI/ML yang menonjol: Panduan untuk Pemula dan Profesional Mewujudkan portfolio yang menarik adalah penting untuk mendapatkan peranan dalam kecerdasan buatan (AI) dan pembelajaran mesin (ML). Panduan ini memberi nasihat untuk membina portfolio

Hasilnya? Pembakaran, ketidakcekapan, dan jurang yang melebar antara pengesanan dan tindakan. Tak satu pun dari ini harus datang sebagai kejutan kepada sesiapa yang bekerja dalam keselamatan siber. Janji Agentic AI telah muncul sebagai titik perubahan yang berpotensi. Kelas baru ini

Impak segera berbanding perkongsian jangka panjang? Dua minggu yang lalu Openai melangkah ke hadapan dengan tawaran jangka pendek yang kuat, memberikan akses kepada pelajar A.S. dan Kanada.


Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SecLists
SecLists ialah rakan penguji keselamatan muktamad. Ia ialah koleksi pelbagai jenis senarai yang kerap digunakan semasa penilaian keselamatan, semuanya di satu tempat. SecLists membantu menjadikan ujian keselamatan lebih cekap dan produktif dengan menyediakan semua senarai yang mungkin diperlukan oleh penguji keselamatan dengan mudah. Jenis senarai termasuk nama pengguna, kata laluan, URL, muatan kabur, corak data sensitif, cangkerang web dan banyak lagi. Penguji hanya boleh menarik repositori ini ke mesin ujian baharu dan dia akan mempunyai akses kepada setiap jenis senarai yang dia perlukan.

PhpStorm versi Mac
Alat pembangunan bersepadu PHP profesional terkini (2018.2.1).

Muat turun versi mac editor Atom
Editor sumber terbuka yang paling popular

ZendStudio 13.5.1 Mac
Persekitaran pembangunan bersepadu PHP yang berkuasa