cari
RumahPeranti teknologiAIDengan hanya satu arahan, anda boleh membuat kopi, menuang wain merah, dan memalu CoPa pintar Tsinghua kini tersedia.

Baru-baru ini, banyak kemajuan telah dicapai ke arah kecerdasan yang terkandung. Daripada RT-H Google kepada Rajah 01 yang dicipta bersama oleh OpenAI dan Figure, robot menjadi lebih interaktif dan serba boleh.

Jika robot menjadi pembantu dalam kehidupan seharian manusia pada masa hadapan, apakah tugas yang anda harapkan dapat mereka selesaikan? Buat secawan kopi yang dibancuh tangan, mengemas desktop dan juga membantu anda mengatur tarikh romantis yang terkandung dalam rangka kerja perisikan "CoPa" Tsinghua boleh menyelesaikan tugasan ini dengan hanya satu arahan.

CoPa (Manipulasi Robotik Melalui Kekangan Ruang Bahagian) ialah rangka kerja pintar terkini yang dicadangkan oleh pasukan penyelidik robotik Universiti Tsinghua di bawah pimpinan Profesor Gao Yang. Rangka kerja ini mencapai buat kali pertama keupayaan generalisasi robot apabila menghadapi tugasan jarak jauh dan gelagat 3D yang kompleks dalam pelbagai senario.

Dengan hanya satu arahan, anda boleh membuat kopi, menuang wain merah, dan memalu CoPa pintar Tsinghua kini tersedia.

  • Alamat kertas: https://arxiv.org/abs/2403.08248

  • Laman utama projek: https://copa-2024.github.io/

    Dua keperluan besar

model bahasa visual Aplikasi unik (VLM), CoPa boleh digeneralisasikan dalam senario terbuka tanpa sebarang latihan khusus dan boleh mengendalikan arahan yang kompleks. Apa yang paling menarik tentang CoPa ialah keupayaannya untuk menunjukkan pemahaman yang mendalam tentang sifat fizikal objek di tempat kejadian, serta keupayaan perancangan dan manipulasi yang tepat.

Sebagai contoh, CoPa boleh membantu penyelidik membuat secawan kopi yang dibancuh tangan: Dengan hanya satu arahan, anda boleh membuat kopi, menuang wain merah, dan memalu CoPa pintar Tsinghua kini tersedia.

Dalam tugasan ini, CoPa bukan sahaja dapat memahami peranan setiap objek dalam paparan jadual yang kompleks, tetapi juga melengkapkan kawalan mereka melalui ketepatan pengendalian fizikal. Sebagai contoh, dalam tugas "menuangkan air dari cerek ke dalam corong", robot menggerakkan cerek ke atas corong dan memutarkannya dengan tepat ke sudut yang sesuai supaya air dapat mengalir dari mulut cerek ke dalam corong.

CoPa juga boleh mengatur tarikh romantis dengan teliti. Selepas memahami keperluan temu janji penyelidik, CoPa membantunya menyediakan meja makan Barat yang cantik. Dengan hanya satu arahan, anda boleh membuat kopi, menuang wain merah, dan memalu CoPa pintar Tsinghua kini tersedia.

Sambil memahami keperluan pengguna secara mendalam, CoPa juga menunjukkan keupayaan untuk memanipulasi objek dengan tepat. Sebagai contoh, dalam tugas "memasukkan bunga ke dalam pasu", robot mula-mula mengambil batang bunga, memutarkannya sehingga menghadap pasu, dan akhirnya memasukkannya. . Sebagai contoh, apabila membuka laci, kita perlu memegang pemegang laci terlebih dahulu, dan kemudian tarik laci keluar sepanjang garis lurus. Berdasarkan perkara ini, penyelidik mereka bentuk dua peringkat iaitu pertama melalui “Task-Oriented Grasping module (Task-Oriented Grasping)” untuk menjana pose robot menggenggam objek, dan kemudian melalui “Task-related motion planning modul (Task-Aware) Motion Planning)" menjana pose yang diperlukan untuk menyelesaikan tugasan selepas meraih. Pemindahan robot antara pose bersebelahan boleh dicapai melalui algoritma perancangan laluan tradisional.

Dengan hanya satu arahan, anda boleh membuat kopi, menuang wain merah, dan memalu CoPa pintar Tsinghua kini tersedia.

Modul Pengesanan Bahagian Penting

Penyelidik memerhatikan bahawa kebanyakan tugas manipulasi memerlukan "pemahaman peringkat separa" terperinci tentang objek di tempat kejadian. Sebagai contoh, apabila memotong sesuatu dengan pisau, kita memegang pemegang dan bukannya bilah apabila memakai cermin mata, kita memegang bingkai dan bukannya kanta. Berdasarkan pemerhatian ini, pasukan penyelidik mereka bentuk "modul pembumian bahagian kasar ke halus" untuk mencari bahagian tempat kejadian yang berkaitan dengan tugas. Khususnya, CoPa mula-mula mencari objek berkaitan tugasan di tempat kejadian melalui pengesanan objek berbutir kasar, dan kemudian mencari bahagian objek berkaitan tugasan ini melalui pengesanan bahagian berbutir halus.

Dalam "modul merebut berorientasikan tugas", CoPa mula-mula mencari kedudukan merebut (seperti pemegang alat) melalui modul pengesanan bahagian penting ini digunakan untuk menapis GraspNet (alat yang boleh hasilkan adegan) model semua pose menggenggam yang mungkin), dan kemudian dapatkan pose menggenggam terakhir.

Dengan hanya satu arahan, anda boleh membuat kopi, menuang wain merah, dan memalu CoPa pintar Tsinghua kini tersedia.

Modul perancangan gerakan berkaitan tugas

Untuk membolehkan model besar bahasa visual membantu robot melaksanakan tugas pengendalian, penyelidikan ini perlu mereka bentuk antara muka yang bukan sahaja membenarkan model besar membuat alasan dalam bahasa, tetapi juga memudahkan operasi robot. Pasukan penyelidik mendapati bahawa semasa pelaksanaan tugas, objek berkaitan tugas biasanya tertakluk kepada banyak kekangan geometri spatial. Contohnya, semasa mengecas telefon bimbit, kepala pengecas mesti menghadap ke port pengecasan apabila menutup botol, penutup mesti diletakkan tepat pada mulut botol. Berdasarkan ini, pasukan penyelidik mencadangkan menggunakan kekangan spatial sebagai jambatan antara model besar bahasa visual dan robot. Khususnya, CoPa mula-mula menggunakan model bahasa visual yang besar untuk menjana kekangan spatial yang perlu dipenuhi oleh objek berkaitan tugas apabila menyelesaikan tugasan, dan kemudian menggunakan modul penyelesaian untuk menyelesaikan pose robot berdasarkan kekangan ini.

Dengan hanya satu arahan, anda boleh membuat kopi, menuang wain merah, dan memalu CoPa pintar Tsinghua kini tersedia.

Hasil eksperimen

Penilaian keupayaan CoPa

CoPa telah menunjukkan keupayaan generalisasi yang kukuh dalam tugas operasi dunia sebenar. CoPa mempunyai pemahaman yang mendalam tentang sifat fizikal objek di tempat kejadian, berkat penggunaan pengetahuan akal yang tertanam dalam model besar bahasa visual.

Sebagai contoh, dalam tugasan "Hammer a Nail", CoPa mula-mula memegang pemegang tukul, kemudian memutarkan tukul sehingga kepala tukul menghadap paku, dan akhirnya dipalu ke bawah. Tugas itu memerlukan pengenalpastian tepat pemegang tukul, muka tukul dan muka paku, dan pemahaman penuh tentang hubungan ruang mereka, menunjukkan pemahaman mendalam CoPa tentang sifat fizikal objek di tempat kejadian.

Dengan hanya satu arahan, anda boleh membuat kopi, menuang wain merah, dan memalu CoPa pintar Tsinghua kini tersedia.

Dalam tugas "memasukkan pemadam ke dalam laci", CoPa mula-mula mencari lokasi pemadam, dan kemudian mendapati bahagian pemadam itu dibalut dengan kertas, jadi ia dengan bijak mengambil bahagian itu untuk memastikan bahawa pemadam tidak akan ternoda.

Dengan hanya satu arahan, anda boleh membuat kopi, menuang wain merah, dan memalu CoPa pintar Tsinghua kini tersedia.

Dalam tugas "masukkan sudu ke dalam cawan", CoPa mula-mula meraih pemegang sudu, diterjemahkan dan dipusingkan menghadap menegak ke bawah, menghadap cawan, dan akhirnya memasukkannya ke dalam cawan, membuktikan bahawa CoPa boleh dengan mudah Pemahaman yang baik tentang kekangan geometri spatial yang perlu dipenuhi oleh objek untuk menyelesaikan tugasan.

Dengan hanya satu arahan, anda boleh membuat kopi, menuang wain merah, dan memalu CoPa pintar Tsinghua kini tersedia.

Pasukan penyelidik menjalankan eksperimen kuantitatif yang mencukupi pada 10 tugas dunia sebenar. Seperti yang ditunjukkan dalam Jadual 1, CoPa dengan ketara mengatasi kaedah asas serta banyak variasi ablasi pada tugas yang kompleks ini.

Dengan hanya satu arahan, anda boleh membuat kopi, menuang wain merah, dan memalu CoPa pintar Tsinghua kini tersedia.

Eksperimen ablasi

Para penyelidik menunjukkan kepentingan tiga komponen berikut dalam rangka kerja CoPa melalui satu siri eksperimen ablasi: model asas, pengesanan bahagian kasar hingga halus dan penjanaan sekatan ruang. Keputusan eksperimen ditunjukkan dalam Jadual 1 di atas.

  • Model asas

Eksperimen ablasi asas CoPa tanpa asas dalam jadual mengalih keluar penggunaan model asas dalam CoPa dan sebaliknya menggunakan model pengesanan untuk mencari objek dan kaedah berasaskan peraturan untuk menjana kekangan ruang. Keputusan eksperimen menunjukkan bahawa kadar kejayaan varian ablasi ini adalah sangat rendah, membuktikan peranan penting pengetahuan akal budi yang kaya yang terkandung dalam model asas dalam CoPa. Sebagai contoh, dalam tugasan "Sweeping Nuts", varian ablasi tidak mengetahui alat mana dalam adegan yang sesuai untuk menyapu. . mencari objek. Varian ini merendahkan prestasi dengan ketara pada tugas yang agak sukar untuk mengesan bahagian penting objek. Contohnya, dalam tugasan "Hammer a Nail", kekurangan reka bentuk "kasar hingga halus" menyukarkan untuk mengenal pasti permukaan tukul.

  • Penjanaan kekangan ruang

Eksperimen ablasi kekangan CoPa tanpa kekangan dalam jadual mengalih keluar modul penjanaan kekangan spatial CoPa, dan sebaliknya membenarkan model besar bahasa visual untuk mengeluarkan nilai khusus robot secara langsung pose sasaran. Eksperimen menunjukkan bahawa sangat sukar untuk mengeluarkan secara langsung pose sasaran robot berdasarkan gambar adegan. Sebagai contoh, dalam tugas "tuang air", cerek perlu dicondongkan pada sudut tertentu, dan varian ini sama sekali tidak dapat menjana postur robot pada masa ini.

    Untuk maklumat lanjut, sila rujuk kertas asal.

Atas ialah kandungan terperinci Dengan hanya satu arahan, anda boleh membuat kopi, menuang wain merah, dan memalu CoPa pintar Tsinghua kini tersedia.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Artikel ini dikembalikan pada:机器之心. Jika ada pelanggaran, sila hubungi admin@php.cn Padam
Membaca Indeks AI 2025: Adakah AI rakan, musuh, atau juruterbang bersama?Membaca Indeks AI 2025: Adakah AI rakan, musuh, atau juruterbang bersama?Apr 11, 2025 pm 12:13 PM

Laporan Indeks Perisikan Buatan 2025 yang dikeluarkan oleh Stanford University Institute for Manusia Berorientasikan Kecerdasan Buatan memberikan gambaran yang baik tentang revolusi kecerdasan buatan yang berterusan. Mari kita menafsirkannya dalam empat konsep mudah: kognisi (memahami apa yang sedang berlaku), penghargaan (melihat faedah), penerimaan (cabaran muka), dan tanggungjawab (cari tanggungjawab kita). Kognisi: Kecerdasan buatan di mana -mana dan berkembang pesat Kita perlu menyedari betapa cepatnya kecerdasan buatan sedang berkembang dan menyebarkan. Sistem kecerdasan buatan sentiasa bertambah baik, mencapai hasil yang sangat baik dalam ujian matematik dan pemikiran kompleks, dan hanya setahun yang lalu mereka gagal dalam ujian ini. Bayangkan AI menyelesaikan masalah pengekodan kompleks atau masalah saintifik peringkat siswazah-sejak tahun 2023

Bermula dengan Meta Llama 3.2 - Analytics VidhyaBermula dengan Meta Llama 3.2 - Analytics VidhyaApr 11, 2025 pm 12:04 PM

Meta's Llama 3.2: Lompat ke hadapan dalam Multimodal dan Mobile AI META baru -baru ini melancarkan Llama 3.2, kemajuan yang ketara dalam AI yang memaparkan keupayaan penglihatan yang kuat dan model teks ringan yang dioptimumkan untuk peranti mudah alih. Membina kejayaan o

AV Bytes: Meta ' s llama 3.2, Google's Gemini 1.5, dan banyak lagiAV Bytes: Meta ' s llama 3.2, Google's Gemini 1.5, dan banyak lagiApr 11, 2025 pm 12:01 PM

Landskap AI minggu ini: Badai kemajuan, pertimbangan etika, dan perdebatan pengawalseliaan. Pemain utama seperti Openai, Google, Meta, dan Microsoft telah melepaskan kemas kini, dari model baru yang terobosan ke peralihan penting di LE

Kos manusia bercakap dengan mesin: Bolehkah chatbot benar -benar peduli?Kos manusia bercakap dengan mesin: Bolehkah chatbot benar -benar peduli?Apr 11, 2025 pm 12:00 PM

Ilusi yang menghiburkan sambungan: Adakah kita benar -benar berkembang dalam hubungan kita dengan AI? Soalan ini mencabar nada optimis Simposium MIT Media Lab "yang memajukan AI (AHA)". Manakala acara itu mempamerkan cutting-EDG

Memahami Perpustakaan Scipy di PythonMemahami Perpustakaan Scipy di PythonApr 11, 2025 am 11:57 AM

Pengenalan Bayangkan anda seorang saintis atau jurutera menangani masalah kompleks - persamaan pembezaan, cabaran pengoptimuman, atau analisis Fourier. Kemudahan penggunaan dan kemampuan grafik Python menarik, tetapi tugas -tugas ini menuntut alat yang berkuasa

3 Kaedah untuk menjalankan Llama 3.2 - Analytics Vidhya3 Kaedah untuk menjalankan Llama 3.2 - Analytics VidhyaApr 11, 2025 am 11:56 AM

Meta's Llama 3.2: Powerhouse AI Multimodal Model multimodal terbaru Meta, Llama 3.2, mewakili kemajuan yang ketara dalam AI, yang membanggakan pemahaman bahasa yang dipertingkatkan, ketepatan yang lebih baik, dan keupayaan penjanaan teks yang unggul. Keupayaannya t

Mengotomatisasi Pemeriksaan Kualiti Data dengan DagsterMengotomatisasi Pemeriksaan Kualiti Data dengan DagsterApr 11, 2025 am 11:44 AM

Jaminan Kualiti Data: Pemeriksaan Automatik dengan Dagster dan Harapan Hebat Mengekalkan kualiti data yang tinggi adalah penting untuk perniagaan yang didorong data. Apabila jumlah data dan sumber meningkat, kawalan kualiti manual menjadi tidak cekap dan terdedah kepada kesilapan.

Adakah kerangka utama mempunyai peranan dalam era AI?Adakah kerangka utama mempunyai peranan dalam era AI?Apr 11, 2025 am 11:42 AM

Main Frames: Wira Unsung Revolusi AI Walaupun pelayan cemerlang dalam aplikasi tujuan umum dan mengendalikan pelbagai pelanggan, kerangka utama dibina untuk tugas tinggi, misi kritikal. Sistem yang kuat ini sering dijumpai di Heavil

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Alat panas

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

MinGW - GNU Minimalis untuk Windows

MinGW - GNU Minimalis untuk Windows

Projek ini dalam proses untuk dipindahkan ke osdn.net/projects/mingw, anda boleh terus mengikuti kami di sana. MinGW: Port Windows asli bagi GNU Compiler Collection (GCC), perpustakaan import yang boleh diedarkan secara bebas dan fail pengepala untuk membina aplikasi Windows asli termasuk sambungan kepada masa jalan MSVC untuk menyokong fungsi C99. Semua perisian MinGW boleh dijalankan pada platform Windows 64-bit.

mPDF

mPDF

mPDF ialah perpustakaan PHP yang boleh menjana fail PDF daripada HTML yang dikodkan UTF-8. Pengarang asal, Ian Back, menulis mPDF untuk mengeluarkan fail PDF "dengan cepat" dari tapak webnya dan mengendalikan bahasa yang berbeza. Ia lebih perlahan dan menghasilkan fail yang lebih besar apabila menggunakan fon Unicode daripada skrip asal seperti HTML2FPDF, tetapi menyokong gaya CSS dsb. dan mempunyai banyak peningkatan. Menyokong hampir semua bahasa, termasuk RTL (Arab dan Ibrani) dan CJK (Cina, Jepun dan Korea). Menyokong elemen peringkat blok bersarang (seperti P, DIV),

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)