Rumah > Artikel > Peranti teknologi > Pasukan Li Feifei mencadangkan ReKep untuk memberi robot kecerdasan spatial dan mengintegrasikan GPT-4o
Penyepaduan mendalam penglihatan dan pembelajaran robot.
Apabila dua tangan robot bekerja bersama-sama dengan lancar untuk melipat pakaian, menuang teh, dan mengemas kasut, serta 1X robot humanoid NEO yang telah menjadi tajuk berita baru-baru ini, anda mungkin Ada perasaan bahawa kita mula memasuki zaman robot.
Malah, pergerakan sutera ini adalah hasil teknologi robotik termaju + reka bentuk bingkai yang indah + model besar berbilang modal.
Kami tahu bahawa robot yang berguna selalunya memerlukan interaksi yang kompleks dan indah dengan alam sekitar, dan persekitaran boleh dinyatakan sebagai kekangan dalam domain spatial dan temporal.
Contohnya, jika anda mahukan robot untuk menuang teh, robot terlebih dahulu perlu menggenggam pemegang teko dan memastikannya tegak tanpa menumpahkan teh, dan kemudian menggerakkannya dengan lancar sehingga mulut periuk berada. sejajar dengan mulut cawan Kemudian condongkan teko pada sudut. Di sini, kekangan termasuk bukan sahaja matlamat perantaraan (seperti menjajarkan mulut periuk dengan mulut cawan), tetapi juga keadaan peralihan (seperti memastikan teko tegak bersama-sama mereka menentukan keperluan gabungan ruang, temporal dan lain-lain); tindakan robot berbanding dengan persekitaran.
Walau bagaimanapun, dunia sebenar adalah kompleks dan cara membina kekangan ini merupakan masalah yang sangat mencabar.
Baru-baru ini, pasukan Li Feifei telah membuat satu kejayaan dalam hala tuju penyelidikan ini dan mencadangkan ReKep/Relational Keypoint Constraints. Ringkasnya, kaedah ini mewakili tugas sebagai urutan mata utama perhubungan. Selain itu, rangka kerja ini juga boleh disepadukan dengan baik dengan model berbilang modal besar seperti GPT-4o. Berdasarkan video demonstrasi, kaedah ini menunjukkan prestasi yang agak baik. Pasukan itu juga telah mengeluarkan kod yang berkaitan. Artikel ini ditulis oleh Wenlong Huang.
Tajuk kertas: ReKep: Penaakulan Spatio-Temporal Kekangan Titik Kunci Hubungan untuk Manipulasi Robot
Kertas Alamat: https://rekep-robot.github.io/rekep.pdf
Tapak web projek: https://rekep-robot.github.io
Alamat kod: https://github.com/huangwl18/ReKep
Li Feifei berkata bahawa kerja ini menunjukkan penyepaduan penglihatan dan pembelajaran robot yang lebih mendalam! Walaupun kertas itu tidak menyebut World Labs, sebuah syarikat AI yang memfokuskan pada kecerdasan spatial yang diasaskan oleh Li Feifei pada awal 5 tahun ini, ReKep jelas mempunyai potensi besar dalam kecerdasan spatial.
Kaedah
Kekangan Titik Utama Hubungan (ReKep)
Pertama, mari kita lihat contoh ReKep. Diandaikan di sini bahawa satu set titik utama K telah ditentukan. Khususnya, setiap titik kekunci k_i ∈ ℝ^3 ialah titik 3D pada permukaan pemandangan dengan koordinat Cartesan.
Contoh ReKep ialah fungsi seperti ini: ?: ℝ^{K×3}→ℝ; ia boleh memetakan satu set mata utama (ditandakan sebagai ?) ke dalam kos tidak terhad, Bila ?(?) ≤ 0, kekangan dipenuhi. Bagi pelaksanaan khusus, pasukan melaksanakan fungsi ? sebagai fungsi Python tanpa kewarganegaraan yang mengandungi operasi NumPy pada titik utama, yang mungkin bukan linear dan tidak cembung. Pada asasnya, contoh ReKep mengekodkan hubungan ruang yang dikehendaki antara titik utama.
Walau bagaimanapun, tugas operasi biasanya melibatkan berbilang perhubungan ruang dan mungkin mempunyai berbilang fasa berkaitan masa, yang setiap satunya memerlukan perhubungan spatial yang berbeza. Untuk tujuan ini, pendekatan pasukan adalah untuk menguraikan tugas kepada N peringkat dan menggunakan ReKep untuk menentukan dua jenis kekangan bagi setiap peringkat i ∈ {1, ..., N}:
Satu set kekangan submatlamat
Satu set kekangan laluan
di mana mengekod perhubungan mata utama yang perlu dicapai pada penghujung peringkat i, dan mengekod perhubungan titik utama untuk dipenuhi bagi setiap negeri dalam peringkat i. Ambil tugas menuang teh dalam Rajah 2 sebagai contoh, yang terdiri daripada tiga peringkat: merebut, menjajarkan dan menuang teh.
Kekangan submatlamat Fasa 1 adalah untuk mencapai pengesan akhir ke arah pemegang teko. Kekangan submatlamat peringkat 2 adalah untuk mengekalkan mulut teko di atas mulut cawan. Selain itu, kekangan laluan peringkat 2 adalah untuk memastikan teko tegak untuk mengelakkan teh tumpah. Kekangan submatlamat peringkat 3 terakhir adalah untuk mencapai sudut menuang teh yang ditentukan.
Gunakan ReKep untuk mentakrifkan tugas operasi sebagai masalah pengoptimuman terkekang
Gunakan ReKep untuk menukar tugas pengendalian robot kepada masalah pengoptimuman terkekang yang melibatkan submatlamat dan laluan. Pose efek akhir dilambangkan di sini sebagai ∈ SE (3). Untuk melaksanakan tugas operasi, matlamat di sini adalah untuk mendapatkan keseluruhan trajektori masa diskret?_{1:T}:
Iaitu, untuk setiap peringkat i , pengoptimuman Matlamat masalah ialah: diberikan set kekangan ReKep dan kos tambahan, cari pose kesan akhir sebagai submatlamat seterusnya (dan masa yang berkaitan), dan urutan pose yang mencapai submatlamat ini. Formula ini boleh dianggap sebagai penangkapan langsung dalam pengoptimuman trajektori.
Penguraian dan instantiasi algoritma
Untuk menyelesaikan formula 1 di atas dalam masa nyata, pasukan memilih untuk menguraikan masalah keseluruhan dan hanya menumpukan pada sub-sub seterusnya. matlamat dan mencapai laluan yang sepadan bagi sub-matlamat dioptimumkan. Algoritma 1 memberikan pseudokod proses ini.
Formula penyelesaian untuk masalah submatlamat ialah:
Formula penyelesaian untuk masalah laluan ialah:
Menjejak ke belakang
Persekitaran sebenar adalah kompleks dan boleh diubah Kadang-kadang semasa tugasan, kekangan submatlamat peringkat sebelumnya mungkin tidak lagi berlaku (untuk contoh, apabila cawan teh dituang) dibawa pergi), kali ini anda perlu merancang semula. Pendekatan pasukan adalah untuk memeriksa laluan untuk masalah. Jika masalah ditemui, kembali ke peringkat sebelumnya secara berulang.
Model hadapan mata utama
Untuk menyelesaikan persamaan 2 dan 3, pasukan menggunakan model hadapan h, yang boleh digunakan semasa pengoptimuman proses Anggaran Δ? Secara khusus, memandangkan perubahan dalam pose efek akhir Δ?, perubahan dalam kedudukan titik kunci dikira dengan menggunakan transformasi ketegaran relatif yang sama ?′[digenggam] = T_{Δ?}・?[digenggam], sambil mengandaikan kunci lain Intinya tetap diam.
Cadangan perkara utama dan penjanaan ReKep
Untuk membolehkan sistem melaksanakan pelbagai tugas secara bebas dalam situasi sebenar, pasukan juga menggunakan model besar! Secara khusus, mereka mereka bentuk proses saluran paip untuk cadangan titik kunci dan penjanaan ReKep menggunakan model visual yang besar dan model visual-linguistik.
Cadangan perkara utama
Memandangkan imej RGB, DINOv2 mula-mula digunakan untuk mengekstrak ciri peringkat tampalan F_patch. Interpolasi dwilinear kemudiannya dilakukan untuk upsample ciri kepada saiz imej asal, F_interp. Untuk memastikan bahawa cadangan meliputi semua objek yang berkaitan dalam adegan, mereka menggunakan Segmen Apa-apa (SAM) untuk mengekstrak semua topeng M = {m_1, m_2, ... , m_n} di tempat kejadian.
Untuk setiap topeng j, kumpulkan topeng mempunyai ciri F_interp[m_j] menggunakan k-means (k = 5) dan ukuran persamaan kosinus. Sentroid gugusan digunakan sebagai titik kunci calon, yang kemudiannya diunjurkan ke koordinat dunia ℝ^3 menggunakan kamera RGB-D yang ditentukur. Calon lain dalam lingkungan 8cm dari titik kunci calon akan ditapis keluar. Secara keseluruhan, pasukan mendapati bahawa proses ini boleh mengenal pasti sebilangan besar kawasan objek yang berbutir halus dan bermakna secara semantik.
Generasi ReKep
Setelah memperoleh mata kunci calon, ia kemudiannya ditumpangkan pada imej RGB asal dan dilabelkan dengan nombor. Digabungkan dengan arahan bahasa tugas khusus, GPT-4o kemudiannya disoal untuk menjana bilangan peringkat yang diperlukan dan kekangan submatlamat dan kekangan laluan yang sepadan dengan setiap peringkat i.
Eksperimen
Pasukan mengesahkan reka bentuk kekangan melalui eksperimen dan cuba menjawab tiga soalan berikut:
1 operasi binaan dan gubahan automatik berkelakuan?
2. Sejauh manakah sistem membuat generalisasi kepada objek baharu dan strategi manipulasi?
3. Bagaimanakah pelbagai komponen boleh menyumbang kepada kegagalan sistem?
Menggunakan ReKep untuk mengendalikan dua lengan robot
Mereka meneliti sistem melalui satu siri tugasan untuk senario berbilang peringkat (m), medan/praktikal (w), tingkah laku dua tangan (b) dan tindak balas (r). Tugas-tugas ini termasuk menuang teh (m, w, r), menyusun buku (w), mengitar semula tin (w), merakam kotak (w, r), melipat pakaian (b), membungkus kasut (b) dan melipat secara kolaboratif (b, r).
Keputusan ditunjukkan dalam Jadual 1, di mana data kadar kejayaan dilaporkan.
Secara keseluruhannya, sistem yang baru dicadangkan mampu membina kekangan yang betul dan melaksanakan dalam persekitaran tidak berstruktur walaupun jika data khusus tugasan atau model persekitaran tidak disediakan. Terutama, ReKep mengendalikan teka-teki teras setiap tugas dengan berkesan.
Berikut ialah beberapa animasi proses pelaksanaan sebenar:
Generalisasi strategi operasi
Pasukan meneroka prestasi generalisasi strategi baharu berdasarkan tugas melipat pakaian. Ringkasnya, ini mengenai melihat sama ada sistem boleh melipat jenis pakaian yang berbeza — yang memerlukan geometri dan penaakulan akal.
GPT-4o digunakan di sini dan gesaan hanya mengandungi arahan generik tanpa contoh kontekstual. "Kejayaan strategi" bermakna ReKep yang dijana adalah boleh dilaksanakan dan "kejayaan pelaksanaan" mengukur kadar kejayaan sistem bagi strategi boleh dilaksanakan yang diberikan untuk setiap jenis pakaian.
Hasilnya menarik. Dapat dilihat bahawa sistem ini menggunakan strategi yang berbeza untuk pakaian yang berbeza, dan beberapa kaedah melipat pakaian adalah sama seperti yang biasa digunakan oleh manusia.
Menganalisis ralat sistem
Reka bentuk rangka kerja adalah modular dan oleh itu mudah untuk Mudah untuk menganalisis ralat sistem. Pasukan itu memeriksa secara manual kes kegagalan yang dihadapi dalam eksperimen dalam Jadual 1 dan kemudian berdasarkan ini mengira kemungkinan bahawa modul menyebabkan ralat, dengan mengambil kira kebergantungan temporal mereka dalam proses saluran paip. Keputusan ditunjukkan dalam Rajah 5.
Dapat dilihat bahawa antara modul yang berbeza, penjejak titik utama menghasilkan paling banyak ralat kerana oklusi yang kerap dan terputus-putus menyukarkan sistem untuk mengesan dengan tepat.
Atas ialah kandungan terperinci Pasukan Li Feifei mencadangkan ReKep untuk memberi robot kecerdasan spatial dan mengintegrasikan GPT-4o. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!