Rumah >Peranti teknologi >AI >Gemini 1.5 Pro dipasang ke dalam robot, dan ia boleh memberikan concierge dan bimbingan selepas melawat syarikat.

Gemini 1.5 Pro dipasang ke dalam robot, dan ia boleh memberikan concierge dan bimbingan selepas melawat syarikat.

王林asal: 2024-07-17 05:58:401165semak imbas

Model besar konteks panjang membantu robot memahami dunia.

Baru-baru ini, Google DeepMind tiba-tiba mula mempamerkan robotnya.

Gemini 1.5 Pro装进机器人，参观一遍公司就能礼宾、带路

Robot ini boleh mengikut arahan manusia dengan mudah, menjalankan navigasi visual dan menggunakan penaakulan akal untuk mencari laluan dalam ruang tiga dimensi.

Ia menggunakan Gemini 1.5 Pro, model besar yang dikeluarkan oleh Google baru-baru ini. Apabila menggunakan model AI tradisional, robot sering mengalami kesukaran mengingati butiran alam sekitar disebabkan oleh had panjang konteks, tetapi panjang konteks token peringkat juta Gemini 1.5 Pro menyediakan robot dengan keupayaan memori persekitaran yang berkuasa.

Dalam senario pejabat sebenar, jurutera membimbing robot melalui kawasan tertentu dan menandakan lokasi utama yang perlu dipanggil semula, seperti "meja Lewis" atau "kawasan meja sementara." Selepas melengkapkan bulatan, jika seseorang bertanya, robot boleh membawanya ke lokasi ini berdasarkan kenangan ini.

Walaupun anda tidak dapat memberitahu tempat tertentu yang anda ingin pergi, tetapi hanya menyatakan tujuan anda, robot boleh membawa anda ke lokasi yang sepadan. Ini adalah manifestasi khusus keupayaan penaakulan model besar dalam robot.

Semua ini tidak dapat dipisahkan daripada strategi navigasi yang dipanggil Mobility VLA.

Tajuk kertas: VLA Mobiliti: Navigasi Arahan Multimodal dengan VLM Konteks Panjang dan Graf Topologi
Pautan kertas: https://arxiv.org/pdf/2407
1.

DeepMind berkata kerja ini mewakili langkah seterusnya dalam interaksi manusia-komputer. Pada masa hadapan, pengguna akan dapat merakamkan lawatan alam sekitar mereka dengan telefon pintar mereka. Selepas menonton video itu, pembantu robot peribadi mereka dapat memahami dan mengemudi persekitaran.

Mobility VLA: Navigasi arahan berbilang mod menggunakan VLM konteks panjang dan peta topologi

Dengan pembangunan berterusan teknologi AI, navigasi robot telah mencapai kemajuan yang besar. Kerja awal bergantung pada pengguna yang menentukan koordinat fizikal dalam persekitaran yang telah dilukis. Navigasi Matlamat Objek (ObjNav) dan Navigasi Bahasa Visual (VLN) ialah lonjakan besar ke hadapan dalam kebolehgunaan robot kerana ia membenarkan pengguna menggunakan bahasa perbendaharaan kata terbuka untuk menentukan matlamat navigasi, seperti "Pergi ke sofa."

Untuk menjadikan robot benar-benar berguna dan ada di mana-mana dalam kehidupan seharian kita, penyelidik di Google DeepMind mencadangkan untuk menaik taraf ruang bahasa semula jadi ObjNav dan VLN kepada ruang berbilang mod, yang bermaksud robot boleh menerima bahasa semula jadi di perintah lisan dan/atau visual pada masa yang sama untuk mencapai satu lagi lonjakan ke hadapan. Contohnya, seseorang yang tidak biasa dengan bangunan boleh memegang kotak plastik dan bertanya, "Di manakah saya harus memulangkan ini dan robot akan membimbing pengguna untuk mengembalikan kotak itu ke rak berdasarkan konteks lisan dan visual. Mereka memanggil jenis tugas navigasi ini multimodal navigation navigation (MIN).

MIN ialah misi luas yang merangkumi penerokaan alam sekitar dan navigasi berpandukan arahan. Walau bagaimanapun, dalam banyak kes, seseorang boleh menerokai dengan memanfaatkan video lawatan demonstrasi. Lawatan demonstrasi mempunyai beberapa faedah: Gemini 1.5 Pro装进机器人，参观一遍公司就能礼宾、带路

Mudah untuk dikumpulkan: pengguna boleh mengawal robot dari jauh, atau merakam video dengan telefon pintar mereka sambil berjalan di sekitar persekitaran. Selain itu, terdapat algoritma penerokaan yang boleh digunakan untuk membuat lawatan.

Ia mematuhi tabiat pengguna: apabila pengguna mendapat robot rumah baharu, mereka secara semula jadi akan membawa robot itu mengelilingi rumah mereka dan mereka boleh memperkenalkan tempat menarik secara lisan semasa lawatan.
Dalam sesetengah kes, adalah wajar untuk mengehadkan aktiviti robot kepada kawasan yang telah ditetapkan untuk tujuan keselamatan dan privasi. Untuk tujuan ini, penulis memperkenalkan dan mengkaji jenis tugasan ini dalam kertas kerja ini, iaitu "Multimodal Instruction Tour Navigation (MINT)", yang menggunakan lawatan demonstrasi dan memfokuskan pada memenuhi arahan multimodal pengguna.

Baru-baru ini, model bahasa visual berskala besar (VLM) telah menunjukkan potensi besar dalam menyelesaikan masalah MINT, terima kasih kepada keupayaan mengagumkan mereka dalam pemahaman bahasa dan imej serta penaakulan akal, yang merupakan elemen Utama untuk melaksanakan PINA.Walau bagaimanapun, VLM sahaja sukar untuk menyelesaikan masalah MINT atas sebab-sebab berikut:

Disebabkan kekangan panjang konteks, banyak VLM mempunyai bilangan imej input yang sangat terhad, yang sangat mengehadkan kesetiaan pemahaman persekitaran secara besar-besaran. persekitaran.
Menyelesaikan masalah MINT memerlukan pengiraan tindakan robot. Pertanyaan yang meminta tindakan robot sedemikian selalunya tidak konsisten dengan perkara yang telah (pra)dilatih oleh VLM. Oleh itu, prestasi sifar sampel robot selalunya tidak memuaskan.

Untuk menyelesaikan masalah MINT, DeepMind mencadangkan Mobility VLA, strategi navigasi Vision-Language-Action (VLA) berlapis. Ia menggabungkan pemahaman alam sekitar dan keupayaan penaakulan akal bagi VLM konteks panjang dengan strategi navigasi peringkat rendah yang mantap berdasarkan graf topologi.

Secara khusus, VLM peringkat tinggi menggunakan video lawatan tunjuk cara dan arahan pengguna berbilang modal untuk mencari bingkai sasaran dalam video lawatan. Seterusnya, strategi peringkat rendah klasik menggunakan bingkai sasaran dan peta topologi (dibina di luar talian daripada bingkai lawatan) untuk menjana tindakan robot (titik jalan) pada setiap langkah masa. Penggunaan VLM konteks panjang menyelesaikan masalah kesetiaan pemahaman persekitaran, dan peta topologi merapatkan jurang antara pengedaran latihan VLM dan tindakan robot yang diperlukan untuk menyelesaikan MINT.

Pengarang menilai VLA mudah alih dalam persekitaran pejabat dunia sebenar (836 m2) dan seperti rumah. Mobiliti VLA mencapai 86% dan 90% pada tugas MINT yang tidak dapat dicapai sebelum ini yang melibatkan penaakulan yang kompleks (seperti "Saya ingin menyimpan sesuatu di luar pandangan umum, ke mana saya harus pergi?") dan kadar Kejayaan pengguna pelbagai mod (26% dan 60%. lebih tinggi daripada kaedah asas, masing-masing).

Pengarang juga menunjukkan peningkatan yang besar dalam kemudahan interaksi pengguna dengan robot Pengguna boleh menggunakan telefon pintar mereka untuk menjalankan lawatan video yang diceritakan dalam persekitaran rumah dan kemudian bertanya "Di mana coaster saya?"

Butiran teknikal

Mobilit VLA ialah strategi navigasi berlapis (ditunjukkan dalam Rajah 1), termasuk bahagian dalam talian dan luar talian.

Di peringkat luar talian, peta topologi G dijana berdasarkan lawatan demonstrasi (N, F). Dalam fasa dalam talian, strategi peringkat tinggi mencari indeks bingkai sasaran navigasi g melalui lawatan tunjuk cara dan arahan pengguna berbilang mod (d,I), yang merupakan integer sepadan dengan bingkai khusus lawatan. Dalam langkah seterusnya, strategi peringkat rendah menggunakan peta topologi, data pemerhatian kamera semasa (O) dan g untuk menjana tindakan titik laluan (a) pada setiap langkah masa untuk robot melaksanakan.

di mana h dan l masing-masing mewakili strategi peringkat tinggi dan rendah.

Lawatan demonstrasi dan penjanaan peta topologi luar talian

Mobility VLA menggunakan lawatan demonstrasi alam sekitar untuk menyelesaikan masalah MINT. Lawatan sedemikian boleh dijalankan dari jauh oleh pengguna manusia, atau video boleh dirakam dengan telefon pintar semasa berjalan di sekitar persekitaran.

Kemudian, Mobiliti VLA luar talian membina graf topologi G = (V, E), di mana setiap bucu v_i∈V sepadan dengan bingkai f_i dalam video lawatan tunjuk cara (F, N). Pengarang menggunakan COLMAP, saluran paip struktur-dari-gerakan di luar rak, untuk menentukan anggaran pose kamera 6-DOF untuk setiap bingkai dan menyimpannya dalam bucu. Seterusnya, jika bucu sasaran berada "di hadapan" bucu sumber (kurang daripada 90 darjah berbeza dalam sikap daripada bucu sumber) dan dalam jarak 2 meter, tepi terarah ditambahkan pada G.

Berbanding dengan saluran paip navigasi tradisional (seperti memetakan persekitaran, mengenal pasti kawasan yang boleh dilalui, dan kemudian membina PRM), pendekatan peta topologi adalah lebih mudah kerana ia menangkap ketersambungan umum persekitaran berdasarkan trajektori lawatan .

Pencarian sasaran Tahap Tinggi berdasarkan VLM pelbagai mod konteks panjang

Semasa pelaksanaan dalam talian, strategi peringkat tinggi menggunakan keupayaan penaakulan akal fikiran VLM untuk menentukan sasaran navigasi lawatan tunjuk cara , untuk memenuhi pelbagai arahan pengguna yang pelbagai mod, bahasa sehari-hari dan sering samar-samar. Untuk tujuan ini, pengkaji menyediakan P (F, N, d, I) segera yang terdiri daripada teks dan imej berjalin. Berikut ialah contoh khusus arahan pengguna berbilang mod, sepadan dengan soalan dalam Jadual 1 - "Di manakah saya harus mengembalikan ini?".

You are a robot operating in a building and your task is to respond to the user command about going to a specific location by finding the closest frame in the tour video to navigate to . These frames are from the tour of the building last year . [ Frame 1 Image f1] Frame 1. [ Frame narrative n1] ... [ Frame k Image fk ] Frame k . [ Frame narrative nk ] This image is what you see now . You may or may not see the user in this image . [ Image Instruction I] The user says : Where should I return this ? How would you respond ? Can you find the closest frame ?

VLM Mengembalikan indeks bingkai sasaran integer g.

Gunakan peta topologi untuk mencapai matlamat peringkat rendah

Setelah strategi peringkat tinggi menentukan indeks bingkai sasaran g, strategi peringkat rendah (Algoritma 1) mengambil alih dan melaksanakan tugasan pada setiap langkah masa Menghasilkan tindakan titik laluan (Formula 1).

Pada setiap langkah masa, pengarang menggunakan sistem penyetempatan visual hierarki masa nyata untuk menganggarkan pose robot T dan puncak permulaan yang terdekat v_s∈G menggunakan pemerhatian kamera semasa O (baris 5). Sistem penyetempatan mencari k bingkai calon terdekat dalam G melalui deskriptor global dan kemudian mengira T melalui PnP. Seterusnya, laluan terpendek S pada graf topologi antara v_s dan bucu sasaran v_g (bucu sepadan dengan g) ditentukan oleh algoritma Dijkstra (baris 9). Akhir sekali, dasar peringkat rendah mengembalikan tindakan titik laluan, iaitu Δx, Δy, Δθ bagi bucu seterusnya v_1 dalam S berbanding dengan T (baris 10).

Hasil eksperimen

Untuk menunjukkan prestasi Mobility VLA dan lebih memahami reka bentuk utama, pengarang mereka bentuk eksperimen untuk menjawab soalan kajian berikut:

dunia sebenar, adakah Mobility VLA berprestasi baik dalam MINT?
Soalan 2: Adakah Mobility VLA akan mengatasi alternatif berikutan penggunaan VLM konteks panjang?

Soalan 3: Adakah peta topologi perlu? Bolehkah VLM menjana tindakan secara langsung?

Mobility VLA mempunyai prestasi hujung ke hujung yang mantap dalam persekitaran kehidupan sebenar

1. Kadar kejayaan hujung ke hujung yang tinggi. Jadual 2 menunjukkan bahawa Mobility VLA mencapai kadar kejayaan navigasi hujung ke hujung yang tinggi merentas kebanyakan kategori arahan pengguna, termasuk arahan "keperluan penaakulan" dan "berbilang mod" yang sebelum ini tidak boleh dilaksanakan.

2. Matlamat tahap rendah yang mantap tercapai. Jadual 2 juga menunjukkan keteguhan dunia sebenar (100% kadar kejayaan) strategi pencapaian matlamat tahap rendah Mobility VLA. Lawatan demonstrasi yang disertakan telah direkodkan beberapa bulan sebelum eksperimen, apabila banyak objek, perabot dan keadaan pencahayaan berbeza.

Konteks panjang VLM mengatasi alternatif dalam pencarian sasaran lanjutan

1. Mobiliti VLA mengatasi alternatif. Jadual 3 menunjukkan bahawa kadar kejayaan mencari sasaran tahap tinggi bagi Mobiliti VLA adalah lebih tinggi dengan ketara berbanding kaedah perbandingan. Memandangkan kadar kejayaan peringkat rendah ialah 100%, kadar kejayaan carian sasaran peringkat tinggi ini mewakili kadar kejayaan hujung ke hujung.

2 Menggunakan konteks panjang VLM untuk memproses video lawatan kadar bingkai tinggi adalah kunci kejayaan. Memasukkan lawatan tunjuk cara lengkap persekitaran yang besar ke dalam VLM bukan konteks panjang adalah mencabar kerana setiap imej memerlukan belanjawan beratus-ratus token. Satu penyelesaian untuk mengurangkan bilangan token input ialah menurunkan kadar bingkai video lawatan, dengan kos kehilangan bingkai perantaraan. Jadual 4 menunjukkan bahawa apabila kadar bingkai lawatan menurun, kadar kejayaan carian sasaran peringkat tinggi juga berkurangan. Ini tidak menghairankan, kerana video lawatan dengan kadar bingkai yang lebih rendah kadangkala kehilangan bingkai sasaran navigasi. Tambahan pula, apabila membandingkan VLM tercanggih, hanya Gemini 1.5 Pro mempunyai kadar kejayaan yang memuaskan, berkat panjang konteksnya sehingga 1 juta token.

Peta topologi ialah kunci kejayaan

🎜🎜🎜🎜🎜Jadual 5 menunjukkan prestasi hujung ke hujung Mobility VLA dalam simulasi berbanding dengan operasi titik laluan keluaran langsung VLM yang segera. Kadar kejayaan hujung ke hujung 0% menunjukkan Gemini 1.5 Pro tidak dapat mencapai navigasi sifar tangkapan robot tanpa peta topologi. Berdasarkan eksperimen, penulis mendapati Gemini hampir selalu mengeluarkan tindakan titik jalan "bergerak ke hadapan" tanpa mengira pemerhatian kamera semasa. Selain itu, API Gemini 1.5 semasa memerlukan memuat naik semua 948 imej pelancongan pada setiap panggilan inferens, menghasilkan 26 saat masa jalan yang mahal untuk setiap 1 meter robot bergerak. Sebaliknya, VLM tahap tinggi Mobility VLA akan mengambil masa 10-30 saat untuk mencari indeks sasaran, dan kemudian robot akan menggunakan peta topologi peringkat rendah untuk menavigasi ke sasaran, menghasilkan yang sangat mantap dan cekap (0.19). saat setiap langkah) sistem untuk Menyelesaikan masalah MINT.

Sila rujuk kertas asal untuk butiran lanjut.

Atas ialah kandungan terperinci Gemini 1.5 Pro dipasang ke dalam robot, dan ia boleh memberikan concierge dan bimbingan selepas melawat syarikat.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Token this 算法 https

Kenyataan：

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel sebelumnya：ICLR2024 |. Harvard FairSeg: Set data segmentasi perubatan berskala besar yang pertama untuk mengkaji keadilan algoritma segmentasiArtikel seterusnya：ICLR2024 |. Harvard FairSeg: Set data segmentasi perubatan berskala besar yang pertama untuk mengkaji keadilan algoritma segmentasi

Artikel berkaitan

Lihat lagi