cari
RumahPeranti teknologiAIBerapa banyak langkah yang diperlukan untuk memasang gajah di dalam peti sejuk? NVIDIA mengeluarkan ProgPrompt, membenarkan model bahasa mengatur rancangan untuk robot

Untuk robot, Perancangan Tugas ialah masalah yang tidak dapat dielakkan.

Untuk menyelesaikan tugas dunia sebenar, anda mesti terlebih dahulu mengetahui berapa banyak langkah yang diperlukan untuk memasang gajah di dalam peti sejuk.

Malah tugasan melempar epal yang agak mudah mengandungi berbilang sub-langkah, dan robot perlu memerhati kedudukan epal dahulu, jika anda tidak nampak epal itu , anda perlu terus mencari , kemudian dekat dengan epal , ambil epal dan , cari dan Berhampiran tong sampah.

Jika tong sampah ditutup , anda perlu membukanya dahulu, dan kemudian Buang epal dalam , tutup tong sampah .

Tetapi perincian pelaksanaan khusus setiap tugasan tidak boleh direka oleh manusia Cara menjana urutan tindakan dengan hanya satu arahan sudah memadai masalah .

Gunakan perintah untuk menjana jujukan ? Bukankah ini betul-betul tugas Model Bahasa?

Pada masa lalu, penyelidik telah menggunakan model bahasa besar (LLM) untuk menjaringkan potensi ruang tindakan seterusnya berdasarkan arahan tugasan input dan kemudian menjana urutan tindakan. Arahan diterangkan dalam bahasa semula jadi dan tidak mengandungi maklumat domain tambahan.

Tetapi kaedah sedemikian sama ada perlu menghitung semua kemungkinan tindakan seterusnya untuk pemarkahan, atau teks yang dijana tidak mempunyai sekatan dalam bentuk, yang mungkin mengandungi robot tertentu dalam persekitaran semasaTindakan yang mustahil .

Baru-baru ini, University of Southern California dan NVIDIA bersama-sama melancarkan model baharu ProgPrompt, yang turut menggunakan model bahasa untuk melaksanakan perancangan tugas pada arahan input, yang merangkumi a Struktur segera yang diprogramkan membolehkan rancangan yang dihasilkan berfungsi dalam persekitaran yang berbeza, robot dengan kebolehan yang berbeza dan tugas yang berbeza.

Berapa banyak langkah yang diperlukan untuk memasang gajah di dalam peti sejuk? NVIDIA mengeluarkan ProgPrompt, membenarkan model bahasa mengatur rancangan untuk robot

Untuk memastikan penyeragaman tugas, penyelidik menggunakan untuk menjana kod gaya python untuk menggesa model bahasa tindakan yang manakah tersedia, objek yang ada dalam persekitaran, dan program yang boleh dilaksanakan.

Contohnya, masukkan arahan "Throw Apple" untuk menjana program berikut.

Berapa banyak langkah yang diperlukan untuk memasang gajah di dalam peti sejuk? NVIDIA mengeluarkan ProgPrompt, membenarkan model bahasa mengatur rancangan untuk robot

Model ProgPrompt mencapai prestasi sota dalam tugas rumah maya, dan penyelidik juga menggunakan model itu dalam Satu lengan robotik fizikal untuk tugasan desktop dihidupkan.

Model bahasa yang menarik

Menyelesaikan tugas rumah tangga harian memerlukan pemahaman yang waras tentang dunia dan pengetahuan situasi persekitaran semasa.

Untuk mencipta pelan tugas "memasak makan malam", pengetahuan minimum yang perlu diketahui oleh ejen termasuk: Fungsi objek, seperti dapur dan ketuhar gelombang mikro boleh digunakan pemanasan; urutan logik tindakan, ketuhar mesti dipanaskan terlebih dahulu sebelum menambah makanan; dan perkaitan tugas objek dan tindakan, seperti pemanasan dan mencari bahan-bahan yang pertama berkaitan; kepada tindakan "makan malam".

Tetapi tanpa maklum balas nyata , alasan ini tidak boleh diteruskan.

Ejen perlu tahu di mana terdapat makanan dalam persekitaran semasa, seperti ada ikan di dalam peti sejuk, atau ada ayam di dalam peti sejuk .

Model bahasa berskala besar autoregresif yang dilatih pada korpus besar boleh menjana jujukan teks di bawah gesaan input, dengan keupayaan generalisasi berbilang tugas yang ketara.

Sebagai contoh, jika anda memasukkan "buat makan malam", model bahasa boleh menjana urutan seterusnya, seperti membuka peti sejuk, mengambil ayam, mengambil soda, menutup peti sejuk , menghidupkan suis lampu, dsb.

Jujukan teks yang dijana perlu dipetakan ke ruang tindakan ejen Contohnya, arahan yang dijana ialah "jangkau dan ambil balang jeruk", dan yang sepadan tindakan boleh laku mungkin "pick up jar", model kemudian mengira skor kebarangkalian untuk tindakan.

Namun, jika tiada maklum balas alam sekitar, jika tiada ayam di dalam peti sejuk dan anda masih memilih untuk "mengambil ayam", tugas itu akan gagal kerana "membuat makan malam" tidak termasuk Sebarang maklumat tentang keadaan dunia.

Model ProgPrompt bijak menggunakan binaan bahasa pengaturcaraan dalam perancangan tugas, kerana model bahasa berskala besar sedia ada biasanya dijalankan dalam korpus tutorial pengaturcaraan dan dokumen kod Pra-latihan.

ProgPrompt menyediakan pengepala program Pythonic sebagai gesaan untuk model bahasa, mengimport ruang tindakan yang tersedia, parameter yang dijangkakan dan objek yang tersedia dalam persekitaran.

Berapa banyak langkah yang diperlukan untuk memasang gajah di dalam peti sejuk? NVIDIA mengeluarkan ProgPrompt, membenarkan model bahasa mengatur rancangan untuk robot

Kemudian mentakrifkan seperti membuat_makan malam, buang_pisang dan lain-lain fungsi , badan utamanya ialah untuk mengendalikan objek urutan tindakan, dan kemudian menggabungkan ini dengan menegaskan prasyarat yang dirancang, seperti mendekati peti sejuk sebelum cuba membukanya, dan bertindak balas terhadap kegagalan penegasan dengan pemulihan tindakan Maklum balas status persekitaran .

Paling penting, program ProgPrompt turut menyertakan komen yang ditulis dalam bahasa semula jadi untuk menerangkan matlamat tindakan, sekali gus meningkatkan pelaksanaan program rancangan yang dihasilkan Kejayaan misi kadar.

ProgPrompt

Dengan idea yang lengkap, aliran kerja keseluruhan ProgPrompt adalah jelas, terutamanya termasuk tiga bahagian, Pembinaan fungsi Python, Pembinaan gesaan bahasa pengaturcaraan, Penjanaan dan pelaksanaan pelan tugas.

Berapa banyak langkah yang diperlukan untuk memasang gajah di dalam peti sejuk? NVIDIA mengeluarkan ProgPrompt, membenarkan model bahasa mengatur rancangan untuk robot

1 Ekspresikan pelan robot sebagai fungsi Pythonic

<.>

Fungsi perancangan termasuk panggilan API ke primitif tindakan, meringkaskan tindakan dan menambah ulasan dan penegasan untuk menjejaki pelaksanaan.

Setiap tindakan primitif memerlukan objek sebagai parameter Contohnya, tugas "Masukkan salmon ke dalam ketuhar gelombang mikro" termasuk panggilan untuk mencari(salmon), di mana find adalah tindakan primitif. .

Berapa banyak langkah yang diperlukan untuk memasang gajah di dalam peti sejuk? NVIDIA mengeluarkan ProgPrompt, membenarkan model bahasa mengatur rancangan untuk robot

Gunakan ulasan dalam kod untuk menyediakan ringkasan bahasa semula jadi untuk urutan tindakan seterusnya Ulasan membantu memecahkan tugasan peringkat tinggi kepada yang sesuai Subtugas logik adalah "tangkap salmon" dan "masukkan salmon ke dalam ketuhar gelombang mikro".

Anotasi juga boleh membenarkan model bahasa memahami matlamat semasa dan mengurangkan kemungkinan keluaran yang tidak koheren, tidak konsisten atau berulang, serupa dengan rantaian pemikiran Menjana hasil perantaraan .

Penegasan menyediakan mekanisme maklum balas persekitaran untuk memastikan prasyarat adalah benar dan untuk melaksanakan pemulihan ralat apabila ia tidak benar, seperti sebelum operasi rangkak menegaskan bahawa ejen itu hampir dengan salmon, jika tidak ejen perlu melakukan tindakan mencari terlebih dahulu.

2. Bina bahasa pengaturcaraan segera

prompt perlu menyediakan maklumat tentang persekitaran kepada model bahasa dan maklumat tindakan utama, termasuk pemerhatian, primitif tindakan, contoh, dan menjana gesaan Pythonic untuk penyiapan model bahasa.

Berapa banyak langkah yang diperlukan untuk memasang gajah di dalam peti sejuk? NVIDIA mengeluarkan ProgPrompt, membenarkan model bahasa mengatur rancangan untuk robot

Kemudian, model bahasa meramalkan sebagai fungsi boleh laku, iaitu microwave_salmon()

dalam microwave salmon Dalam ini tugasan, langkah pertama yang munasabah yang LLM boleh hasilkan ialah mengeluarkan salmon, tetapi ejen yang bertanggungjawab untuk melaksanakan rancangan itu mungkin tidak mempunyai tindakan primitif sedemikian.

Untuk model bahasa memahami primitif tindakan ejen, importnya melalui pernyataan import dalam segera, yang juga mengehadkan output kepada fungsi yang tersedia dalam persekitaran semasa.

Untuk menukar ruang tingkah laku ejen, anda hanya perlu kemas kini senarai fungsi import.

Objek pembolehubah menyediakan semua objek yang tersedia dalam persekitaran dalam bentuk senarai rentetan.

prompt juga termasuk beberapa rancangan program yang boleh dilaksanakan sepenuhnya sebagai contoh

3. Penjanaan dan pelaksanaan pelan tugasan

Tugas yang diberikan Selepas itu, pelan disimpulkan sepenuhnya oleh model bahasa berdasarkan gesaan ProgPrompt, dan kemudian pelan yang dijana boleh dilaksanakan pada ejen maya atau sistem robot fizikal Seorang jurubahasa diperlukan untuk melaksanakan setiap arahan tindakan mengikut persekitaran.

Semasa pelaksanaan, semakan penegasan dilakukan dalam cara gelung tertutup dan maklum balas disediakan berdasarkan keadaan persekitaran semasa.

Dalam bahagian eksperimen, penyelidik menilai kaedah pada platform simulasi Virtual Home (VH).

Status VH termasuk set objek dan atribut yang sepadan, seperti salmon di dalam ketuhar gelombang mikro (dalam), atau dekat dengan (agent_close_to), dsb.

Ruang tindakan termasuk ambil, putin, putback, berjalan, cari, buka, tutup tutup) dsb.

Akhirnya, 3 persekitaran VH telah diuji, setiap persekitaran termasuk 115 objek berbeza Para penyelidik mencipta set data yang mengandungi 70 tugasan isi rumah, dengan tahap abstraksi dan perintah yang tinggi Ini semua tentang ". salmon gelombang mikro" dan mencipta urutan tindakan kebenaran asas untuknya.

Selepas menilai program yang dihasilkan pada keluarga maya, penunjuk penilaian termasuk Kadar Kejayaan (SR), Recall Bersyarat Matlamat (GCR) dan Kebolehlaksanaan (Exec), daripada keputusan Ia boleh melihat bahawa ProgPrompt jauh lebih baik daripada garis dasar dan LangPrompt Jadual juga menunjukkan cara setiap ciri meningkatkan prestasi.

Berapa banyak langkah yang diperlukan untuk memasang gajah di dalam peti sejuk? NVIDIA mengeluarkan ProgPrompt, membenarkan model bahasa mengatur rancangan untuk robot

Para penyelidik juga menjalankan eksperimen dalam dunia sebenar, menggunakan robot panda Franka-Emika dengan kuku selari, Dan menganggap bahawa strategi pilih dan tempat boleh diperolehi.

Strategi ini mengambil sebagai input awan dua titik objek sasaran dan bekas sasaran, dan melakukan operasi pilih dan letak untuk meletakkan objek pada atau di dalam bekas.

Pelaksanaan sistem memperkenalkan model pengesanan objek perbendaharaan kata terbuka ViLD untuk mengenal pasti dan membahagikan objek dalam tempat kejadian dan membina senarai objek yang tersedia dalam gesaan.

Tidak seperti dalam persekitaran maya, di sini senarai objek ialah pembolehubah setempat bagi setiap fungsi perancangan, yang membolehkan lebih fleksibiliti dalam menyesuaikan diri dengan objek baharu.

Output pelan oleh model bahasa mengandungi panggilan fungsi dalam bentuk grab dan putin.

Disebabkan ketidakpastian dunia sebenar, pilihan gelung tertutup berasaskan penegasan tidak dilaksanakan dalam persediaan percubaan .

Berapa banyak langkah yang diperlukan untuk memasang gajah di dalam peti sejuk? NVIDIA mengeluarkan ProgPrompt, membenarkan model bahasa mengatur rancangan untuk robot

Seperti yang anda lihat, dalam tugas pengelasan, robot itu dapat mengenal pasti pisang dan strawberi sebagai buah dan menjana langkah perancangan untuk meletakkannya pinggan di dalam dan masukkan botol ke dalam kotak.

Atas ialah kandungan terperinci Berapa banyak langkah yang diperlukan untuk memasang gajah di dalam peti sejuk? NVIDIA mengeluarkan ProgPrompt, membenarkan model bahasa mengatur rancangan untuk robot. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam
Apakah graf pemikiran dalam kejuruteraan segeraApakah graf pemikiran dalam kejuruteraan segeraApr 13, 2025 am 11:53 AM

Pengenalan Dalam kejuruteraan segera, "Grafik Pemikiran" merujuk kepada pendekatan baru yang menggunakan teori graf untuk struktur dan membimbing proses penalaran AI. Tidak seperti kaedah tradisional, yang sering melibatkan linear

Mengoptimumkan pemasaran e -mel organisasi anda dengan agen genaiMengoptimumkan pemasaran e -mel organisasi anda dengan agen genaiApr 13, 2025 am 11:44 AM

Pengenalan Tahniah! Anda menjalankan perniagaan yang berjaya. Melalui laman web anda, kempen media sosial, webinar, persidangan, sumber percuma, dan sumber lain, anda mengumpul 5000 ID e -mel setiap hari. Langkah jelas seterusnya adalah

Pemantauan Prestasi Aplikasi Masa Nyata dengan Apache PinotPemantauan Prestasi Aplikasi Masa Nyata dengan Apache PinotApr 13, 2025 am 11:40 AM

Pengenalan Dalam persekitaran pembangunan perisian pantas hari ini, memastikan prestasi aplikasi yang optimum adalah penting. Memantau metrik masa nyata seperti masa tindak balas, kadar ralat, dan penggunaan sumber dapat membantu utama

Chatgpt mencecah 1 bilion pengguna? 'Dua kali ganda dalam beberapa minggu' kata Ketua Pegawai Eksekutif OpenaiChatgpt mencecah 1 bilion pengguna? 'Dua kali ganda dalam beberapa minggu' kata Ketua Pegawai Eksekutif OpenaiApr 13, 2025 am 11:23 AM

"Berapa banyak pengguna yang anda ada?" Dia ditakdirkan. "Saya fikir kali terakhir yang kami katakan ialah 500 juta aktif mingguan, dan ia berkembang dengan pesat," jawab Altman. "Anda memberitahu saya bahawa ia seperti dua kali ganda dalam beberapa minggu sahaja," kata Anderson. "Saya mengatakan bahawa priv

Pixtral -12b: Model Multimodal Pertama Mistral Ai 'Pixtral -12b: Model Multimodal Pertama Mistral Ai 'Apr 13, 2025 am 11:20 AM

Pengenalan Mistral telah mengeluarkan model multimodal yang pertama, iaitu Pixtral-12B-2409. Model ini dibina atas parameter 12 bilion Mistral, NEMO 12B. Apa yang membezakan model ini? Ia kini boleh mengambil kedua -dua gambar dan Tex

Rangka Kerja Agentik untuk Aplikasi AI Generatif - Analytics VidhyaRangka Kerja Agentik untuk Aplikasi AI Generatif - Analytics VidhyaApr 13, 2025 am 11:13 AM

Bayangkan mempunyai pembantu berkuasa AI yang bukan sahaja memberi respons kepada pertanyaan anda tetapi juga mengumpulkan maklumat, melaksanakan tugas, dan juga mengendalikan pelbagai jenis teks, imej, dan kod. Bunyi futuristik? Dalam ini a

Aplikasi AI Generatif di Sektor KewanganAplikasi AI Generatif di Sektor KewanganApr 13, 2025 am 11:12 AM

Pengenalan Industri kewangan adalah asas kepada mana -mana pembangunan negara, kerana ia memacu pertumbuhan ekonomi dengan memudahkan urus niaga yang cekap dan ketersediaan kredit. The ease with which transactions occur and credit

Panduan untuk pembelajaran dalam talian dan algoritma pasif-agresifPanduan untuk pembelajaran dalam talian dan algoritma pasif-agresifApr 13, 2025 am 11:09 AM

Pengenalan Data dijana pada kadar yang belum pernah terjadi sebelumnya dari sumber seperti media sosial, urus niaga kewangan, dan platform e-dagang. Mengendalikan aliran maklumat yang berterusan ini adalah satu cabaran, tetapi ia menawarkan

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Alat panas

Dreamweaver Mac版

Dreamweaver Mac版

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

SublimeText3 Linux versi baharu

SublimeText3 Linux versi baharu

SublimeText3 Linux versi terkini

Versi Mac WebStorm

Versi Mac WebStorm

Alat pembangunan JavaScript yang berguna

SecLists

SecLists

SecLists ialah rakan penguji keselamatan muktamad. Ia ialah koleksi pelbagai jenis senarai yang kerap digunakan semasa penilaian keselamatan, semuanya di satu tempat. SecLists membantu menjadikan ujian keselamatan lebih cekap dan produktif dengan menyediakan semua senarai yang mungkin diperlukan oleh penguji keselamatan dengan mudah. Jenis senarai termasuk nama pengguna, kata laluan, URL, muatan kabur, corak data sensitif, cangkerang web dan banyak lagi. Penguji hanya boleh menarik repositori ini ke mesin ujian baharu dan dia akan mempunyai akses kepada setiap jenis senarai yang dia perlukan.