Rumah  >  Artikel  >  Peranti teknologi  >  Dengan hanya satu arahan, anda boleh membuat kopi, menuang wain merah, dan memalu CoPa pintar Tsinghua kini tersedia.

Dengan hanya satu arahan, anda boleh membuat kopi, menuang wain merah, dan memalu CoPa pintar Tsinghua kini tersedia.

WBOY
WBOYke hadapan
2024-03-18 14:50:111038semak imbas

Baru-baru ini, banyak kemajuan telah dicapai ke arah kecerdasan yang terkandung. Daripada RT-H Google kepada Rajah 01 yang dicipta bersama oleh OpenAI dan Figure, robot menjadi lebih interaktif dan serba boleh.

Jika robot menjadi pembantu dalam kehidupan seharian manusia pada masa hadapan, apakah tugas yang anda harapkan dapat mereka selesaikan? Buat secawan kopi yang dibancuh tangan, mengemas desktop dan juga membantu anda mengatur tarikh romantis yang terkandung dalam rangka kerja perisikan "CoPa" Tsinghua boleh menyelesaikan tugasan ini dengan hanya satu arahan.

CoPa (Manipulasi Robotik Melalui Kekangan Ruang Bahagian) ialah rangka kerja pintar terkini yang dicadangkan oleh pasukan penyelidik robotik Universiti Tsinghua di bawah pimpinan Profesor Gao Yang. Rangka kerja ini mencapai buat kali pertama keupayaan generalisasi robot apabila menghadapi tugasan jarak jauh dan gelagat 3D yang kompleks dalam pelbagai senario.

Dengan hanya satu arahan, anda boleh membuat kopi, menuang wain merah, dan memalu CoPa pintar Tsinghua kini tersedia.

  • Alamat kertas: https://arxiv.org/abs/2403.08248

  • Laman utama projek: https://copa-2024.github.io/

    Dua keperluan besar

model bahasa visual Aplikasi unik (VLM), CoPa boleh digeneralisasikan dalam senario terbuka tanpa sebarang latihan khusus dan boleh mengendalikan arahan yang kompleks. Apa yang paling menarik tentang CoPa ialah keupayaannya untuk menunjukkan pemahaman yang mendalam tentang sifat fizikal objek di tempat kejadian, serta keupayaan perancangan dan manipulasi yang tepat.

Sebagai contoh, CoPa boleh membantu penyelidik membuat secawan kopi yang dibancuh tangan: Dengan hanya satu arahan, anda boleh membuat kopi, menuang wain merah, dan memalu CoPa pintar Tsinghua kini tersedia.

Dalam tugasan ini, CoPa bukan sahaja dapat memahami peranan setiap objek dalam paparan jadual yang kompleks, tetapi juga melengkapkan kawalan mereka melalui ketepatan pengendalian fizikal. Sebagai contoh, dalam tugas "menuangkan air dari cerek ke dalam corong", robot menggerakkan cerek ke atas corong dan memutarkannya dengan tepat ke sudut yang sesuai supaya air dapat mengalir dari mulut cerek ke dalam corong.

CoPa juga boleh mengatur tarikh romantis dengan teliti. Selepas memahami keperluan temu janji penyelidik, CoPa membantunya menyediakan meja makan Barat yang cantik. Dengan hanya satu arahan, anda boleh membuat kopi, menuang wain merah, dan memalu CoPa pintar Tsinghua kini tersedia.

Sambil memahami keperluan pengguna secara mendalam, CoPa juga menunjukkan keupayaan untuk memanipulasi objek dengan tepat. Sebagai contoh, dalam tugas "memasukkan bunga ke dalam pasu", robot mula-mula mengambil batang bunga, memutarkannya sehingga menghadap pasu, dan akhirnya memasukkannya. . Sebagai contoh, apabila membuka laci, kita perlu memegang pemegang laci terlebih dahulu, dan kemudian tarik laci keluar sepanjang garis lurus. Berdasarkan perkara ini, penyelidik mereka bentuk dua peringkat iaitu pertama melalui “Task-Oriented Grasping module (Task-Oriented Grasping)” untuk menjana pose robot menggenggam objek, dan kemudian melalui “Task-related motion planning modul (Task-Aware) Motion Planning)" menjana pose yang diperlukan untuk menyelesaikan tugasan selepas meraih. Pemindahan robot antara pose bersebelahan boleh dicapai melalui algoritma perancangan laluan tradisional.

Dengan hanya satu arahan, anda boleh membuat kopi, menuang wain merah, dan memalu CoPa pintar Tsinghua kini tersedia.

Modul Pengesanan Bahagian Penting

Penyelidik memerhatikan bahawa kebanyakan tugas manipulasi memerlukan "pemahaman peringkat separa" terperinci tentang objek di tempat kejadian. Sebagai contoh, apabila memotong sesuatu dengan pisau, kita memegang pemegang dan bukannya bilah apabila memakai cermin mata, kita memegang bingkai dan bukannya kanta. Berdasarkan pemerhatian ini, pasukan penyelidik mereka bentuk "modul pembumian bahagian kasar ke halus" untuk mencari bahagian tempat kejadian yang berkaitan dengan tugas. Khususnya, CoPa mula-mula mencari objek berkaitan tugasan di tempat kejadian melalui pengesanan objek berbutir kasar, dan kemudian mencari bahagian objek berkaitan tugasan ini melalui pengesanan bahagian berbutir halus.

Dalam "modul merebut berorientasikan tugas", CoPa mula-mula mencari kedudukan merebut (seperti pemegang alat) melalui modul pengesanan bahagian penting ini digunakan untuk menapis GraspNet (alat yang boleh hasilkan adegan) model semua pose menggenggam yang mungkin), dan kemudian dapatkan pose menggenggam terakhir.

Dengan hanya satu arahan, anda boleh membuat kopi, menuang wain merah, dan memalu CoPa pintar Tsinghua kini tersedia.

Modul perancangan gerakan berkaitan tugas

Untuk membolehkan model besar bahasa visual membantu robot melaksanakan tugas pengendalian, penyelidikan ini perlu mereka bentuk antara muka yang bukan sahaja membenarkan model besar membuat alasan dalam bahasa, tetapi juga memudahkan operasi robot. Pasukan penyelidik mendapati bahawa semasa pelaksanaan tugas, objek berkaitan tugas biasanya tertakluk kepada banyak kekangan geometri spatial. Contohnya, semasa mengecas telefon bimbit, kepala pengecas mesti menghadap ke port pengecasan apabila menutup botol, penutup mesti diletakkan tepat pada mulut botol. Berdasarkan ini, pasukan penyelidik mencadangkan menggunakan kekangan spatial sebagai jambatan antara model besar bahasa visual dan robot. Khususnya, CoPa mula-mula menggunakan model bahasa visual yang besar untuk menjana kekangan spatial yang perlu dipenuhi oleh objek berkaitan tugas apabila menyelesaikan tugasan, dan kemudian menggunakan modul penyelesaian untuk menyelesaikan pose robot berdasarkan kekangan ini.

Dengan hanya satu arahan, anda boleh membuat kopi, menuang wain merah, dan memalu CoPa pintar Tsinghua kini tersedia.

Hasil eksperimen

Penilaian keupayaan CoPa

CoPa telah menunjukkan keupayaan generalisasi yang kukuh dalam tugas operasi dunia sebenar. CoPa mempunyai pemahaman yang mendalam tentang sifat fizikal objek di tempat kejadian, berkat penggunaan pengetahuan akal yang tertanam dalam model besar bahasa visual.

Sebagai contoh, dalam tugasan "Hammer a Nail", CoPa mula-mula memegang pemegang tukul, kemudian memutarkan tukul sehingga kepala tukul menghadap paku, dan akhirnya dipalu ke bawah. Tugas itu memerlukan pengenalpastian tepat pemegang tukul, muka tukul dan muka paku, dan pemahaman penuh tentang hubungan ruang mereka, menunjukkan pemahaman mendalam CoPa tentang sifat fizikal objek di tempat kejadian.

Dengan hanya satu arahan, anda boleh membuat kopi, menuang wain merah, dan memalu CoPa pintar Tsinghua kini tersedia.

Dalam tugas "memasukkan pemadam ke dalam laci", CoPa mula-mula mencari lokasi pemadam, dan kemudian mendapati bahagian pemadam itu dibalut dengan kertas, jadi ia dengan bijak mengambil bahagian itu untuk memastikan bahawa pemadam tidak akan ternoda.

Dengan hanya satu arahan, anda boleh membuat kopi, menuang wain merah, dan memalu CoPa pintar Tsinghua kini tersedia.

Dalam tugas "masukkan sudu ke dalam cawan", CoPa mula-mula meraih pemegang sudu, diterjemahkan dan dipusingkan menghadap menegak ke bawah, menghadap cawan, dan akhirnya memasukkannya ke dalam cawan, membuktikan bahawa CoPa boleh dengan mudah Pemahaman yang baik tentang kekangan geometri spatial yang perlu dipenuhi oleh objek untuk menyelesaikan tugasan.

Dengan hanya satu arahan, anda boleh membuat kopi, menuang wain merah, dan memalu CoPa pintar Tsinghua kini tersedia.

Pasukan penyelidik menjalankan eksperimen kuantitatif yang mencukupi pada 10 tugas dunia sebenar. Seperti yang ditunjukkan dalam Jadual 1, CoPa dengan ketara mengatasi kaedah asas serta banyak variasi ablasi pada tugas yang kompleks ini.

Dengan hanya satu arahan, anda boleh membuat kopi, menuang wain merah, dan memalu CoPa pintar Tsinghua kini tersedia.

Eksperimen ablasi

Para penyelidik menunjukkan kepentingan tiga komponen berikut dalam rangka kerja CoPa melalui satu siri eksperimen ablasi: model asas, pengesanan bahagian kasar hingga halus dan penjanaan sekatan ruang. Keputusan eksperimen ditunjukkan dalam Jadual 1 di atas.

  • Model asas

Eksperimen ablasi asas CoPa tanpa asas dalam jadual mengalih keluar penggunaan model asas dalam CoPa dan sebaliknya menggunakan model pengesanan untuk mencari objek dan kaedah berasaskan peraturan untuk menjana kekangan ruang. Keputusan eksperimen menunjukkan bahawa kadar kejayaan varian ablasi ini adalah sangat rendah, membuktikan peranan penting pengetahuan akal budi yang kaya yang terkandung dalam model asas dalam CoPa. Sebagai contoh, dalam tugasan "Sweeping Nuts", varian ablasi tidak mengetahui alat mana dalam adegan yang sesuai untuk menyapu. . mencari objek. Varian ini merendahkan prestasi dengan ketara pada tugas yang agak sukar untuk mengesan bahagian penting objek. Contohnya, dalam tugasan "Hammer a Nail", kekurangan reka bentuk "kasar hingga halus" menyukarkan untuk mengenal pasti permukaan tukul.

  • Penjanaan kekangan ruang

Eksperimen ablasi kekangan CoPa tanpa kekangan dalam jadual mengalih keluar modul penjanaan kekangan spatial CoPa, dan sebaliknya membenarkan model besar bahasa visual untuk mengeluarkan nilai khusus robot secara langsung pose sasaran. Eksperimen menunjukkan bahawa sangat sukar untuk mengeluarkan secara langsung pose sasaran robot berdasarkan gambar adegan. Sebagai contoh, dalam tugas "tuang air", cerek perlu dicondongkan pada sudut tertentu, dan varian ini sama sekali tidak dapat menjana postur robot pada masa ini.

    Untuk maklumat lanjut, sila rujuk kertas asal.

Atas ialah kandungan terperinci Dengan hanya satu arahan, anda boleh membuat kopi, menuang wain merah, dan memalu CoPa pintar Tsinghua kini tersedia.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:jiqizhixin.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam