Rumah > Artikel > Peranti teknologi > Model generatif membina simulator dunia sebenar yang interaktif, yang LeCun fikir cukup hebat
Model generatif yang dilatih pada data Internet merevolusikan cara kandungan teks, imej dan video dicipta. Sesetengah penyelidik meramalkan bahawa mungkin pencapaian seterusnya dalam model generatif ialah keupayaan untuk mensimulasikan semua aspek pengalaman manusia di dunia, seperti cara memandu kereta di jalan raya atau cara menyediakan makanan.
Kini, dengan bantuan simulator dunia sebenar yang sangat komprehensif, manusia boleh berinteraksi dengan pemandangan dan objek yang berbeza, dan robot boleh belajar daripada pengalaman simulasi untuk mengelakkan risiko kerosakan fizikal.
Walau bagaimanapun, salah satu halangan utama dalam membina simulator dunia sebenar sedemikian terletak pada set data yang tersedia. Walaupun terdapat berbilion teks, imej dan klip video di Internet, set data yang berbeza meliputi paksi maklumat yang berbeza, dan set data ini mesti disatukan untuk mensimulasikan pengalaman dunia yang realistik. Contohnya, data imej teks berpasangan mengandungi pemandangan dan objek yang kaya tetapi sedikit tindakan sari kata dan data soal jawab mengandungi perihalan aktiviti peringkat tinggi yang kaya tetapi sedikit butiran gerakan manusia yang mengandungi tindakan manusia yang kaya, Tetapi terdapat sedikit; pergerakan mekanikal; manakala data robot mengandungi pergerakan robot yang kaya, tetapi jumlahnya terhad
Perbezaan maklumat yang disenaraikan di atas adalah semula jadi dan sukar untuk diatasi, yang menjadikannya sukar untuk membina simulasi dunia sebenar yang bertujuan untuk menangkap pengalaman sebenar dunia sebenar Peranti ini membawa kesukaran.
Dalam artikel ini, penyelidik dari UC Berkeley, Google DeepMind, MIT dan institusi lain meneroka UniSim, simulator universal yang mempelajari interaksi dunia sebenar melalui model generatif, mengambil langkah pertama dalam membina simulator universal. Sebagai contoh, UniSim boleh mensimulasikan cara manusia dan ejen berinteraksi dengan dunia dengan mensimulasikan arahan peringkat tinggi seperti "buka laci" dan hasil visual arahan peringkat rendah. .
Jim Fan berkata bahawa karya ini sangat menarik. Model resapan video digunakan sebagai simulasi fizik dipacu data di mana ejen boleh merancang, meneroka dan mempelajari tindakan optimum tanpa menyentuh perkakasan robotik atau menyebabkan sebarang kerosakan. Boleh dikatakan bahawa LLM bukan sahaja sistem pengendalian, tetapi juga simulator realiti lengkap
Sherry Yang, pengarang pertama kertas kerja dan pelajar kedoktoran di University of California, Berkeley, berkata, " Mempelajari model dunia sebenar menjadi kenyataan ”
Seperti yang ditunjukkan dalam Rajah 3, UniSim boleh mensimulasikan satu siri aksi yang kaya dalam adegan dapur, termasuk mencuci tangan, memegang mangkuk, memotong lobak merah dan mengeringkan tangan. Bahagian atas sebelah kanan Rajah 3 menunjukkan suis yang berbeza, manakala bahagian bawah Rajah 3 menunjukkan dua adegan navigasi
Kandungan yang perlu ditulis semula ialah: sepadan dengan pemandangan navigasi di sebelah kanan bawah Rajah 3
.UniSim bukan sahaja menyokong tindakan yang kaya dan interaksi jarak jauh juga boleh mencapai perubahan persekitaran yang sangat pelbagai dan rawak. Contohnya, selepas menanggalkan tuala atas, objek yang dipaparkan mempunyai kepelbagaian (lihat Rajah 5 di bawah, kiri)
hasil migrasi dunia sebenar UniSim. Nilai sebenar UniSim terletak pada simulasi dunia sebenar, dan Rajah 7 menunjukkan pelan bahasa yang dihasilkan oleh VLM, video yang dihasilkan oleh UniSim berdasarkan pelan bahasa, dan pelaksanaan pada robot sebenar.
Selain menguji keupayaan pemindahan dunia sebenar UniSim, kertas kerja ini juga menjalankan penilaian berasaskan simulator, dan hasilnya ditunjukkan dalam Jadual 2:
-pembelajaran pengukuhan Simulator
Percubaan juga menilai sejauh mana UniSim melakukan pelbagai tindakan dalam mensimulasikan robot sebenar, yang menggerakkan titik akhir ke kiri, kanan, bawah dan atas dengan berulang kali melakukan operasi kawalan peringkat rendah dalam kira-kira 20-30 langkah. Jadual 3 menunjukkan bahawa latihan RL meningkatkan prestasi polisi VLA dengan ketara dalam pelbagai tugas, terutamanya dalam tugas seperti menunjuk ke blok biru. Kami kemudiannya secara langsung menggunakan dasar RL pukulan sifar yang dilatih dalam UniSim pada robot sebenar, seperti yang ditunjukkan dalam Rajah 8 (baris bawah).
Atas ialah kandungan terperinci Model generatif membina simulator dunia sebenar yang interaktif, yang LeCun fikir cukup hebat. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!