Dengan hanya satu arahan, anda boleh membuat kopi, menuang wain merah, dan memalu CoPa pintar Tsinghua kini tersedia.-AI-php.cn

Rumah

Peranti teknologi

Dengan hanya satu arahan, anda boleh membuat kopi, menuang wain merah, dan memalu CoPa pintar Tsinghua kini tersedia.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Mar 18, 2024 pm 02:50 PM

industrikecerdasan yang terkandungrobotikcopa

Baru-baru ini, banyak kemajuan telah dicapai ke arah kecerdasan yang terkandung. Daripada RT-H Google kepada Rajah 01 yang dicipta bersama oleh OpenAI dan Figure, robot menjadi lebih interaktif dan serba boleh.

Jika robot menjadi pembantu dalam kehidupan seharian manusia pada masa hadapan, apakah tugas yang anda harapkan dapat mereka selesaikan? Buat secawan kopi yang dibancuh tangan, mengemas desktop dan juga membantu anda mengatur tarikh romantis yang terkandung dalam rangka kerja perisikan "CoPa" Tsinghua boleh menyelesaikan tugasan ini dengan hanya satu arahan.

CoPa (Manipulasi Robotik Melalui Kekangan Ruang Bahagian) ialah rangka kerja pintar terkini yang dicadangkan oleh pasukan penyelidik robotik Universiti Tsinghua di bawah pimpinan Profesor Gao Yang. Rangka kerja ini mencapai buat kali pertama keupayaan generalisasi robot apabila menghadapi tugasan jarak jauh dan gelagat 3D yang kompleks dalam pelbagai senario.

Dengan hanya satu arahan, anda boleh membuat kopi, menuang wain merah, dan memalu CoPa pintar Tsinghua kini tersedia.

Alamat kertas: https://arxiv.org/abs/2403.08248
Laman utama projek: https://copa-2024.github.io/
Dua keperluan besar

model bahasa visual Aplikasi unik (VLM), CoPa boleh digeneralisasikan dalam senario terbuka tanpa sebarang latihan khusus dan boleh mengendalikan arahan yang kompleks. Apa yang paling menarik tentang CoPa ialah keupayaannya untuk menunjukkan pemahaman yang mendalam tentang sifat fizikal objek di tempat kejadian, serta keupayaan perancangan dan manipulasi yang tepat.

Sebagai contoh, CoPa boleh membantu penyelidik membuat secawan kopi yang dibancuh tangan:

Dalam tugasan ini, CoPa bukan sahaja dapat memahami peranan setiap objek dalam paparan jadual yang kompleks, tetapi juga melengkapkan kawalan mereka melalui ketepatan pengendalian fizikal. Sebagai contoh, dalam tugas "menuangkan air dari cerek ke dalam corong", robot menggerakkan cerek ke atas corong dan memutarkannya dengan tepat ke sudut yang sesuai supaya air dapat mengalir dari mulut cerek ke dalam corong.

CoPa juga boleh mengatur tarikh romantis dengan teliti. Selepas memahami keperluan temu janji penyelidik, CoPa membantunya menyediakan meja makan Barat yang cantik.

Sambil memahami keperluan pengguna secara mendalam, CoPa juga menunjukkan keupayaan untuk memanipulasi objek dengan tepat. Sebagai contoh, dalam tugas "memasukkan bunga ke dalam pasu", robot mula-mula mengambil batang bunga, memutarkannya sehingga menghadap pasu, dan akhirnya memasukkannya. . Sebagai contoh, apabila membuka laci, kita perlu memegang pemegang laci terlebih dahulu, dan kemudian tarik laci keluar sepanjang garis lurus. Berdasarkan perkara ini, penyelidik mereka bentuk dua peringkat iaitu pertama melalui “Task-Oriented Grasping module (Task-Oriented Grasping)” untuk menjana pose robot menggenggam objek, dan kemudian melalui “Task-related motion planning modul (Task-Aware) Motion Planning)" menjana pose yang diperlukan untuk menyelesaikan tugasan selepas meraih. Pemindahan robot antara pose bersebelahan boleh dicapai melalui algoritma perancangan laluan tradisional.

Dengan hanya satu arahan, anda boleh membuat kopi, menuang wain merah, dan memalu CoPa pintar Tsinghua kini tersedia.

Modul Pengesanan Bahagian Penting

Penyelidik memerhatikan bahawa kebanyakan tugas manipulasi memerlukan "pemahaman peringkat separa" terperinci tentang objek di tempat kejadian. Sebagai contoh, apabila memotong sesuatu dengan pisau, kita memegang pemegang dan bukannya bilah apabila memakai cermin mata, kita memegang bingkai dan bukannya kanta. Berdasarkan pemerhatian ini, pasukan penyelidik mereka bentuk "modul pembumian bahagian kasar ke halus" untuk mencari bahagian tempat kejadian yang berkaitan dengan tugas. Khususnya, CoPa mula-mula mencari objek berkaitan tugasan di tempat kejadian melalui pengesanan objek berbutir kasar, dan kemudian mencari bahagian objek berkaitan tugasan ini melalui pengesanan bahagian berbutir halus.

Dalam "modul merebut berorientasikan tugas", CoPa mula-mula mencari kedudukan merebut (seperti pemegang alat) melalui modul pengesanan bahagian penting ini digunakan untuk menapis GraspNet (alat yang boleh hasilkan adegan) model semua pose menggenggam yang mungkin), dan kemudian dapatkan pose menggenggam terakhir.

Dengan hanya satu arahan, anda boleh membuat kopi, menuang wain merah, dan memalu CoPa pintar Tsinghua kini tersedia.

Modul perancangan gerakan berkaitan tugas

Untuk membolehkan model besar bahasa visual membantu robot melaksanakan tugas pengendalian, penyelidikan ini perlu mereka bentuk antara muka yang bukan sahaja membenarkan model besar membuat alasan dalam bahasa, tetapi juga memudahkan operasi robot. Pasukan penyelidik mendapati bahawa semasa pelaksanaan tugas, objek berkaitan tugas biasanya tertakluk kepada banyak kekangan geometri spatial. Contohnya, semasa mengecas telefon bimbit, kepala pengecas mesti menghadap ke port pengecasan apabila menutup botol, penutup mesti diletakkan tepat pada mulut botol. Berdasarkan ini, pasukan penyelidik mencadangkan menggunakan kekangan spatial sebagai jambatan antara model besar bahasa visual dan robot. Khususnya, CoPa mula-mula menggunakan model bahasa visual yang besar untuk menjana kekangan spatial yang perlu dipenuhi oleh objek berkaitan tugas apabila menyelesaikan tugasan, dan kemudian menggunakan modul penyelesaian untuk menyelesaikan pose robot berdasarkan kekangan ini.

Hasil eksperimen

Penilaian keupayaan CoPa

CoPa telah menunjukkan keupayaan generalisasi yang kukuh dalam tugas operasi dunia sebenar. CoPa mempunyai pemahaman yang mendalam tentang sifat fizikal objek di tempat kejadian, berkat penggunaan pengetahuan akal yang tertanam dalam model besar bahasa visual.

Sebagai contoh, dalam tugasan "Hammer a Nail", CoPa mula-mula memegang pemegang tukul, kemudian memutarkan tukul sehingga kepala tukul menghadap paku, dan akhirnya dipalu ke bawah. Tugas itu memerlukan pengenalpastian tepat pemegang tukul, muka tukul dan muka paku, dan pemahaman penuh tentang hubungan ruang mereka, menunjukkan pemahaman mendalam CoPa tentang sifat fizikal objek di tempat kejadian.

Dalam tugas "memasukkan pemadam ke dalam laci", CoPa mula-mula mencari lokasi pemadam, dan kemudian mendapati bahagian pemadam itu dibalut dengan kertas, jadi ia dengan bijak mengambil bahagian itu untuk memastikan bahawa pemadam tidak akan ternoda.

Dalam tugas "masukkan sudu ke dalam cawan", CoPa mula-mula meraih pemegang sudu, diterjemahkan dan dipusingkan menghadap menegak ke bawah, menghadap cawan, dan akhirnya memasukkannya ke dalam cawan, membuktikan bahawa CoPa boleh dengan mudah Pemahaman yang baik tentang kekangan geometri spatial yang perlu dipenuhi oleh objek untuk menyelesaikan tugasan.

Pasukan penyelidik menjalankan eksperimen kuantitatif yang mencukupi pada 10 tugas dunia sebenar. Seperti yang ditunjukkan dalam Jadual 1, CoPa dengan ketara mengatasi kaedah asas serta banyak variasi ablasi pada tugas yang kompleks ini.

Eksperimen ablasi

Para penyelidik menunjukkan kepentingan tiga komponen berikut dalam rangka kerja CoPa melalui satu siri eksperimen ablasi: model asas, pengesanan bahagian kasar hingga halus dan penjanaan sekatan ruang. Keputusan eksperimen ditunjukkan dalam Jadual 1 di atas.

Model asas

Eksperimen ablasi asas CoPa tanpa asas dalam jadual mengalih keluar penggunaan model asas dalam CoPa dan sebaliknya menggunakan model pengesanan untuk mencari objek dan kaedah berasaskan peraturan untuk menjana kekangan ruang. Keputusan eksperimen menunjukkan bahawa kadar kejayaan varian ablasi ini adalah sangat rendah, membuktikan peranan penting pengetahuan akal budi yang kaya yang terkandung dalam model asas dalam CoPa. Sebagai contoh, dalam tugasan "Sweeping Nuts", varian ablasi tidak mengetahui alat mana dalam adegan yang sesuai untuk menyapu. . mencari objek. Varian ini merendahkan prestasi dengan ketara pada tugas yang agak sukar untuk mengesan bahagian penting objek. Contohnya, dalam tugasan "Hammer a Nail", kekurangan reka bentuk "kasar hingga halus" menyukarkan untuk mengenal pasti permukaan tukul.

Penjanaan kekangan ruang

Eksperimen ablasi kekangan CoPa tanpa kekangan dalam jadual mengalih keluar modul penjanaan kekangan spatial CoPa, dan sebaliknya membenarkan model besar bahasa visual untuk mengeluarkan nilai khusus robot secara langsung pose sasaran. Eksperimen menunjukkan bahawa sangat sukar untuk mengeluarkan secara langsung pose sasaran robot berdasarkan gambar adegan. Sebagai contoh, dalam tugas "tuang air", cerek perlu dicondongkan pada sudut tertentu, dan varian ini sama sekali tidak dapat menjana postur robot pada masa ini.

Untuk maklumat lanjut, sila rujuk kertas asal.

Atas ialah kandungan terperinci Dengan hanya satu arahan, anda boleh membuat kopi, menuang wain merah, dan memalu CoPa pintar Tsinghua kini tersedia.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:机器之心. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Let's Dance: Gerakan berstruktur untuk menyempurnakan jaring saraf manusia kitaApr 27, 2025 am 11:09 AM

Para saintis telah mengkaji secara meluas rangkaian saraf manusia dan mudah (seperti yang ada di C. elegans) untuk memahami fungsi mereka. Walau bagaimanapun, soalan penting timbul: Bagaimana kita menyesuaikan rangkaian saraf kita sendiri untuk berfungsi dengan berkesan bersama -sama dengan novel AI s

New Google Leak mendedahkan perubahan langganan untuk Gemini AIApr 27, 2025 am 11:08 AM

Gemini Google Advanced: Tahap Langganan Baru di Horizon Pada masa ini, mengakses Gemini Advanced memerlukan pelan premium AI $ 19.99/bulan. Walau bagaimanapun, laporan Pihak Berkuasa Android menunjukkan perubahan yang akan datang. Kod dalam google terkini p

Bagaimana Pecutan Analisis Data Menyelesaikan Bots Tersembunyi AIApr 27, 2025 am 11:07 AM

Walaupun gembar -gembur di sekitar keupayaan AI maju, satu cabaran penting bersembunyi dalam perusahaan AI perusahaan: kesesakan pemprosesan data. Walaupun CEO merayakan kemajuan AI, jurutera bergelut dengan masa pertanyaan yang perlahan, saluran paip yang terlalu banyak, a

Markitdown MCP boleh menukar mana -mana dokumen ke Markdowns!Apr 27, 2025 am 09:47 AM

Dokumen pengendalian tidak lagi hanya mengenai pembukaan fail dalam projek AI anda, ia mengenai mengubah kekacauan menjadi kejelasan. Dokumen seperti PDF, PowerPoints, dan perkataan banjir aliran kerja kami dalam setiap bentuk dan saiz. Mengambil semula berstruktur

Bagaimana cara menggunakan Google ADK untuk ejen bangunan? - Analytics VidhyaApr 27, 2025 am 09:42 AM

Memanfaatkan kuasa Kit Pembangunan Ejen Google (ADK) untuk membuat ejen pintar dengan keupayaan dunia sebenar! Tutorial ini membimbing anda melalui membina ejen perbualan menggunakan ADK, menyokong pelbagai model bahasa seperti Gemini dan GPT. W

Penggunaan SLM Over LLM untuk Penyelesaian Masalah Berkesan - Analisis VidhyaApr 27, 2025 am 09:27 AM

Ringkasan: Model bahasa kecil (SLM) direka untuk kecekapan. Mereka lebih baik daripada model bahasa yang besar (LLM) dalam persekitaran yang kurang sensitif, masa nyata dan privasi. Terbaik untuk tugas-tugas berasaskan fokus, terutamanya di mana kekhususan domain, kawalan, dan tafsiran lebih penting daripada pengetahuan umum atau kreativiti. SLMs bukan pengganti LLM, tetapi mereka sesuai apabila ketepatan, kelajuan dan keberkesanan kos adalah kritikal. Teknologi membantu kita mencapai lebih banyak sumber. Ia sentiasa menjadi promoter, bukan pemandu. Dari era enjin stim ke era gelembung internet, kuasa teknologi terletak pada tahap yang membantu kita menyelesaikan masalah. Kecerdasan Buatan (AI) dan AI Generatif Baru -baru ini tidak terkecuali

Bagaimana cara menggunakan model Google Gemini untuk tugas penglihatan komputer? - Analytics VidhyaApr 27, 2025 am 09:26 AM

Memanfaatkan kekuatan Google Gemini untuk Visi Komputer: Panduan Komprehensif Google Gemini, chatbot AI terkemuka, memanjangkan keupayaannya di luar perbualan untuk merangkumi fungsi penglihatan komputer yang kuat. Panduan ini memperincikan cara menggunakan

Gemini 2.0 Flash vs O4-Mini: Bolehkah Google lebih baik daripada Openai?Apr 27, 2025 am 09:20 AM

Landskap AI pada tahun 2025 adalah elektrik dengan kedatangan Flash Gemini 2.0 Google dan Openai's O4-mini. Model-model canggih ini, yang dilancarkan minggu-minggu, mempunyai ciri-ciri canggih yang setanding dan skor penanda aras yang mengagumkan. Perbandingan mendalam ini

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

1 bulan yang laluByDDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

3 minggu yang laluByDDD

Di mana untuk mencari kad kunci kawalan kren di atomfall

1 bulan yang laluByDDD

Bagaimana untuk memperbaiki KB5055523 gagal dipasang di Windows 11?

2 minggu yang laluByDDD

Inzoi: Cara Memohon ke Sekolah dan Universiti

3 minggu yang laluByDDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

Pelayar Peperiksaan Selamat

Pelayar Peperiksaan Selamat ialah persekitaran pelayar selamat untuk mengambil peperiksaan dalam talian dengan selamat. Perisian ini menukar mana-mana komputer menjadi stesen kerja yang selamat. Ia mengawal akses kepada mana-mana utiliti dan menghalang pelajar daripada menggunakan sumber yang tidak dibenarkan.