


Dengan hanya satu arahan, anda boleh membuat kopi, menuang wain merah, dan memalu CoPa pintar Tsinghua kini tersedia.
Baru-baru ini, banyak kemajuan telah dicapai ke arah kecerdasan yang terkandung. Daripada RT-H Google kepada Rajah 01 yang dicipta bersama oleh OpenAI dan Figure, robot menjadi lebih interaktif dan serba boleh.
Jika robot menjadi pembantu dalam kehidupan seharian manusia pada masa hadapan, apakah tugas yang anda harapkan dapat mereka selesaikan? Buat secawan kopi yang dibancuh tangan, mengemas desktop dan juga membantu anda mengatur tarikh romantis yang terkandung dalam rangka kerja perisikan "CoPa" Tsinghua boleh menyelesaikan tugasan ini dengan hanya satu arahan.
CoPa (Manipulasi Robotik Melalui Kekangan Ruang Bahagian) ialah rangka kerja pintar terkini yang dicadangkan oleh pasukan penyelidik robotik Universiti Tsinghua di bawah pimpinan Profesor Gao Yang. Rangka kerja ini mencapai buat kali pertama keupayaan generalisasi robot apabila menghadapi tugasan jarak jauh dan gelagat 3D yang kompleks dalam pelbagai senario.
Alamat kertas: https://arxiv.org/abs/2403.08248
-
Laman utama projek: https://copa-2024.github.io/
Dua keperluan besar
model bahasa visual Aplikasi unik (VLM), CoPa boleh digeneralisasikan dalam senario terbuka tanpa sebarang latihan khusus dan boleh mengendalikan arahan yang kompleks. Apa yang paling menarik tentang CoPa ialah keupayaannya untuk menunjukkan pemahaman yang mendalam tentang sifat fizikal objek di tempat kejadian, serta keupayaan perancangan dan manipulasi yang tepat.
Sebagai contoh, CoPa boleh membantu penyelidik membuat secawan kopi yang dibancuh tangan:
Dalam tugasan ini, CoPa bukan sahaja dapat memahami peranan setiap objek dalam paparan jadual yang kompleks, tetapi juga melengkapkan kawalan mereka melalui ketepatan pengendalian fizikal. Sebagai contoh, dalam tugas "menuangkan air dari cerek ke dalam corong", robot menggerakkan cerek ke atas corong dan memutarkannya dengan tepat ke sudut yang sesuai supaya air dapat mengalir dari mulut cerek ke dalam corong.
CoPa juga boleh mengatur tarikh romantis dengan teliti. Selepas memahami keperluan temu janji penyelidik, CoPa membantunya menyediakan meja makan Barat yang cantik.
Sambil memahami keperluan pengguna secara mendalam, CoPa juga menunjukkan keupayaan untuk memanipulasi objek dengan tepat. Sebagai contoh, dalam tugas "memasukkan bunga ke dalam pasu", robot mula-mula mengambil batang bunga, memutarkannya sehingga menghadap pasu, dan akhirnya memasukkannya. . Sebagai contoh, apabila membuka laci, kita perlu memegang pemegang laci terlebih dahulu, dan kemudian tarik laci keluar sepanjang garis lurus. Berdasarkan perkara ini, penyelidik mereka bentuk dua peringkat iaitu pertama melalui “Task-Oriented Grasping module (Task-Oriented Grasping)” untuk menjana pose robot menggenggam objek, dan kemudian melalui “Task-related motion planning modul (Task-Aware) Motion Planning)" menjana pose yang diperlukan untuk menyelesaikan tugasan selepas meraih. Pemindahan robot antara pose bersebelahan boleh dicapai melalui algoritma perancangan laluan tradisional.

Modul Pengesanan Bahagian Penting
Penyelidik memerhatikan bahawa kebanyakan tugas manipulasi memerlukan "pemahaman peringkat separa" terperinci tentang objek di tempat kejadian. Sebagai contoh, apabila memotong sesuatu dengan pisau, kita memegang pemegang dan bukannya bilah apabila memakai cermin mata, kita memegang bingkai dan bukannya kanta. Berdasarkan pemerhatian ini, pasukan penyelidik mereka bentuk "modul pembumian bahagian kasar ke halus" untuk mencari bahagian tempat kejadian yang berkaitan dengan tugas. Khususnya, CoPa mula-mula mencari objek berkaitan tugasan di tempat kejadian melalui pengesanan objek berbutir kasar, dan kemudian mencari bahagian objek berkaitan tugasan ini melalui pengesanan bahagian berbutir halus.
Dalam "modul merebut berorientasikan tugas", CoPa mula-mula mencari kedudukan merebut (seperti pemegang alat) melalui modul pengesanan bahagian penting ini digunakan untuk menapis GraspNet (alat yang boleh hasilkan adegan) model semua pose menggenggam yang mungkin), dan kemudian dapatkan pose menggenggam terakhir.Untuk membolehkan model besar bahasa visual membantu robot melaksanakan tugas pengendalian, penyelidikan ini perlu mereka bentuk antara muka yang bukan sahaja membenarkan model besar membuat alasan dalam bahasa, tetapi juga memudahkan operasi robot. Pasukan penyelidik mendapati bahawa semasa pelaksanaan tugas, objek berkaitan tugas biasanya tertakluk kepada banyak kekangan geometri spatial. Contohnya, semasa mengecas telefon bimbit, kepala pengecas mesti menghadap ke port pengecasan apabila menutup botol, penutup mesti diletakkan tepat pada mulut botol. Berdasarkan ini, pasukan penyelidik mencadangkan menggunakan kekangan spatial sebagai jambatan antara model besar bahasa visual dan robot. Khususnya, CoPa mula-mula menggunakan model bahasa visual yang besar untuk menjana kekangan spatial yang perlu dipenuhi oleh objek berkaitan tugas apabila menyelesaikan tugasan, dan kemudian menggunakan modul penyelesaian untuk menyelesaikan pose robot berdasarkan kekangan ini. Hasil eksperimen Penilaian keupayaan CoPa CoPa telah menunjukkan keupayaan generalisasi yang kukuh dalam tugas operasi dunia sebenar. CoPa mempunyai pemahaman yang mendalam tentang sifat fizikal objek di tempat kejadian, berkat penggunaan pengetahuan akal yang tertanam dalam model besar bahasa visual. Sebagai contoh, dalam tugasan "Hammer a Nail", CoPa mula-mula memegang pemegang tukul, kemudian memutarkan tukul sehingga kepala tukul menghadap paku, dan akhirnya dipalu ke bawah. Tugas itu memerlukan pengenalpastian tepat pemegang tukul, muka tukul dan muka paku, dan pemahaman penuh tentang hubungan ruang mereka, menunjukkan pemahaman mendalam CoPa tentang sifat fizikal objek di tempat kejadian. Dalam tugas "memasukkan pemadam ke dalam laci", CoPa mula-mula mencari lokasi pemadam, dan kemudian mendapati bahagian pemadam itu dibalut dengan kertas, jadi ia dengan bijak mengambil bahagian itu untuk memastikan bahawa pemadam tidak akan ternoda. Dalam tugas "masukkan sudu ke dalam cawan", CoPa mula-mula meraih pemegang sudu, diterjemahkan dan dipusingkan menghadap menegak ke bawah, menghadap cawan, dan akhirnya memasukkannya ke dalam cawan, membuktikan bahawa CoPa boleh dengan mudah Pemahaman yang baik tentang kekangan geometri spatial yang perlu dipenuhi oleh objek untuk menyelesaikan tugasan. Pasukan penyelidik menjalankan eksperimen kuantitatif yang mencukupi pada 10 tugas dunia sebenar. Seperti yang ditunjukkan dalam Jadual 1, CoPa dengan ketara mengatasi kaedah asas serta banyak variasi ablasi pada tugas yang kompleks ini. Eksperimen ablasi Para penyelidik menunjukkan kepentingan tiga komponen berikut dalam rangka kerja CoPa melalui satu siri eksperimen ablasi: model asas, pengesanan bahagian kasar hingga halus dan penjanaan sekatan ruang. Keputusan eksperimen ditunjukkan dalam Jadual 1 di atas. Model asas Eksperimen ablasi asas CoPa tanpa asas dalam jadual mengalih keluar penggunaan model asas dalam CoPa dan sebaliknya menggunakan model pengesanan untuk mencari objek dan kaedah berasaskan peraturan untuk menjana kekangan ruang. Keputusan eksperimen menunjukkan bahawa kadar kejayaan varian ablasi ini adalah sangat rendah, membuktikan peranan penting pengetahuan akal budi yang kaya yang terkandung dalam model asas dalam CoPa. Sebagai contoh, dalam tugasan "Sweeping Nuts", varian ablasi tidak mengetahui alat mana dalam adegan yang sesuai untuk menyapu. . mencari objek. Varian ini merendahkan prestasi dengan ketara pada tugas yang agak sukar untuk mengesan bahagian penting objek. Contohnya, dalam tugasan "Hammer a Nail", kekurangan reka bentuk "kasar hingga halus" menyukarkan untuk mengenal pasti permukaan tukul. Penjanaan kekangan ruang Eksperimen ablasi kekangan CoPa tanpa kekangan dalam jadual mengalih keluar modul penjanaan kekangan spatial CoPa, dan sebaliknya membenarkan model besar bahasa visual untuk mengeluarkan nilai khusus robot secara langsung pose sasaran. Eksperimen menunjukkan bahawa sangat sukar untuk mengeluarkan secara langsung pose sasaran robot berdasarkan gambar adegan. Sebagai contoh, dalam tugas "tuang air", cerek perlu dicondongkan pada sudut tertentu, dan varian ini sama sekali tidak dapat menjana postur robot pada masa ini. Untuk maklumat lanjut, sila rujuk kertas asal.
Atas ialah kandungan terperinci Dengan hanya satu arahan, anda boleh membuat kopi, menuang wain merah, dan memalu CoPa pintar Tsinghua kini tersedia.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Para saintis telah mengkaji secara meluas rangkaian saraf manusia dan mudah (seperti yang ada di C. elegans) untuk memahami fungsi mereka. Walau bagaimanapun, soalan penting timbul: Bagaimana kita menyesuaikan rangkaian saraf kita sendiri untuk berfungsi dengan berkesan bersama -sama dengan novel AI s

Gemini Google Advanced: Tahap Langganan Baru di Horizon Pada masa ini, mengakses Gemini Advanced memerlukan pelan premium AI $ 19.99/bulan. Walau bagaimanapun, laporan Pihak Berkuasa Android menunjukkan perubahan yang akan datang. Kod dalam google terkini p

Walaupun gembar -gembur di sekitar keupayaan AI maju, satu cabaran penting bersembunyi dalam perusahaan AI perusahaan: kesesakan pemprosesan data. Walaupun CEO merayakan kemajuan AI, jurutera bergelut dengan masa pertanyaan yang perlahan, saluran paip yang terlalu banyak, a

Dokumen pengendalian tidak lagi hanya mengenai pembukaan fail dalam projek AI anda, ia mengenai mengubah kekacauan menjadi kejelasan. Dokumen seperti PDF, PowerPoints, dan perkataan banjir aliran kerja kami dalam setiap bentuk dan saiz. Mengambil semula berstruktur

Memanfaatkan kuasa Kit Pembangunan Ejen Google (ADK) untuk membuat ejen pintar dengan keupayaan dunia sebenar! Tutorial ini membimbing anda melalui membina ejen perbualan menggunakan ADK, menyokong pelbagai model bahasa seperti Gemini dan GPT. W

Ringkasan: Model bahasa kecil (SLM) direka untuk kecekapan. Mereka lebih baik daripada model bahasa yang besar (LLM) dalam persekitaran yang kurang sensitif, masa nyata dan privasi. Terbaik untuk tugas-tugas berasaskan fokus, terutamanya di mana kekhususan domain, kawalan, dan tafsiran lebih penting daripada pengetahuan umum atau kreativiti. SLMs bukan pengganti LLM, tetapi mereka sesuai apabila ketepatan, kelajuan dan keberkesanan kos adalah kritikal. Teknologi membantu kita mencapai lebih banyak sumber. Ia sentiasa menjadi promoter, bukan pemandu. Dari era enjin stim ke era gelembung internet, kuasa teknologi terletak pada tahap yang membantu kita menyelesaikan masalah. Kecerdasan Buatan (AI) dan AI Generatif Baru -baru ini tidak terkecuali

Memanfaatkan kekuatan Google Gemini untuk Visi Komputer: Panduan Komprehensif Google Gemini, chatbot AI terkemuka, memanjangkan keupayaannya di luar perbualan untuk merangkumi fungsi penglihatan komputer yang kuat. Panduan ini memperincikan cara menggunakan

Landskap AI pada tahun 2025 adalah elektrik dengan kedatangan Flash Gemini 2.0 Google dan Openai's O4-mini. Model-model canggih ini, yang dilancarkan minggu-minggu, mempunyai ciri-ciri canggih yang setanding dan skor penanda aras yang mengagumkan. Perbandingan mendalam ini


Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

Pelayar Peperiksaan Selamat
Pelayar Peperiksaan Selamat ialah persekitaran pelayar selamat untuk mengambil peperiksaan dalam talian dengan selamat. Perisian ini menukar mana-mana komputer menjadi stesen kerja yang selamat. Ia mengawal akses kepada mana-mana utiliti dan menghalang pelajar daripada menggunakan sumber yang tidak dibenarkan.

VSCode Windows 64-bit Muat Turun
Editor IDE percuma dan berkuasa yang dilancarkan oleh Microsoft

Versi Mac WebStorm
Alat pembangunan JavaScript yang berguna

PhpStorm versi Mac
Alat pembangunan bersepadu PHP profesional terkini (2018.2.1).
