Rumah >Peranti teknologi >AI >Pencapaian baharu Universiti Peking untuk kecerdasan terwujud: Tiada latihan diperlukan, anda boleh bergerak secara fleksibel dengan mengikut arahan
Pasukan Dong Hao Universiti PekingEmbodied NavigationKeputusan terkini ada di sini:
Tidak perlu pemetaan dan latihan tambahan, hanya bercakap arahan navigasi, seperti:
Berjalan ke hadapan melintasi bilik dan berjalan melalui seluar dalam diikuti dengan dapur . Berdiri di hujung dapur
Kita boleh mengawal robot untuk bergerak secara fleksibel.
Di sini, robot bergantung pada berkomunikasi secara aktif dengan "pasukan pakar" yang terdiri daripada model besaruntuk menyelesaikan satu siri tugas navigasi bahasa visual utama seperti analisis arahan, persepsi visual, anggaran penyelesaian keputusan dan membuat ujian.
Laman utama dan kertas projek sedang dalam talian, dan kod akan dikeluarkan tidak lama lagi:
Navigasi bahasa visual melibatkan satu siri subtugas, termasuk analisis arahan, persepsi visual, anggaran penyiapan dan ujian keputusan.
Tugas utama ini memerlukan pengetahuan dalam bidang yang berbeza, dan ia saling berkaitan serta menentukan keupayaan navigasi robot.
Diinspirasikan oleh tingkah laku perbincangan pakar dalam kehidupan sebenar, Pasukan Dong Hao Universiti Peking mencadangkan sistem navigasi DiscussNav.
Pengarang mula-mula memberikan peranan pakar dan tugas khusus kepada LLM (Model Bahasa Besar) dan MLM (Model Besar Berbilang Modal) secara pantas, mengaktifkan pengetahuan dan keupayaan domain mereka, seterusnya membina navigasi visual dengan kepakaran yang berbeza Pakar pasukan.
Kemudian, pengarang mereka bentuk korpus soalan perbincangan dan mekanisme perbincangan, berikutan robot navigasi dipacu LLM boleh secara proaktif memulakan satu siri perbincangan dengan pakar navigasi visual.
Sebelum setiap pergerakan, robot navigasi akan berbincang dengan pakar untuk memahami tindakan yang diperlukan dan tanda objek yang disebut dalam arahan manusia.
Kemudian ia cenderung untuk melihat persekitaran sekeliling berdasarkan jenis tanda objek ini, menganggarkan penyempurnaan arahan dan membuat keputusan pergerakan awal.
Semasa proses membuat keputusan, robot navigasi akan menjana N hasil ramalan bebas pada masa yang sama berdasarkan Rantaian Pemikiran(rantai pemikiran) Apabila keputusan ramalan ini tidak konsisten, robot akan menguji proses membuat keputusan Berpaling kepada pakar untuk menapis keputusan mudah alih terakhir anda.
Kita dapat lihat daripada proses ini berbanding kaedah tradisional yang memerlukan pra-latihan tambahan, kaedah ini membimbing robot bergerak mengikut arahan manusia dengan berinteraksi dengan pakar model besar, secara langsung menyelesaikan masalah kekurangan latihan navigasi robot. data.
Melangkah lebih jauh, justru kerana ciri ini ia juga mencapai keupayaan sampel sifar Selagi anda mengikuti proses perbincangan di atas, anda boleh mengikuti pelbagai arahan navigasi.
Berikut ialah prestasi DiscussionNav pada set data navigasi bahasa visual klasik Room2Room.
Seperti yang anda lihat, ia jauh lebih tinggi daripada semua kaedah sifar pukulan, malah lebih daripada dua kaedah terlatih .
Pengarang seterusnya menjalankan eksperimen navigasi pemandangan dalaman sebenar pada robot mudah alih Turtlebot4.
Dengan bahasa yang berkuasa dan keupayaan generalisasi visual model besar yang diilhamkan oleh lakonan dan perbincangan pakar, prestasi DiscussNav di dunia nyata adalah jauh lebih baik daripada kaedah tangkapan sifar optimum sebelum ini dan kaedah talaan halus yang telah dilatih, menunjukkan prestasi yang baik. Keupayaan penghijrahan Sim-ke-sebenar.
Melalui eksperimen, pengarang seterusnya mendapati bahawa DiscussNav menghasilkan 4 kebolehan berkuasa:
1 Kenali objek dunia terbuka, seperti "lengan robot di atas meja putih" dan "teddy bear di atas kerusi".
2. Kenal pasti objek mercu tanda navigasi berbutir halus, seperti "tumbuhan di kaunter dapur" dan "karton di atas meja".
3. Betulkan maklumat yang salah yang dijawab oleh pakar lain dalam perbincangan Contohnya, pakar pengekstrakan logo akan menyemak dan membetulkan urutan tindakan yang tidak terurai dengan betul sebelum mengeluarkan logo navigasi daripada urutan tindakan navigasi.
4. Hapuskan keputusan pergerakan yang tidak konsisten Contohnya, pakar ujian keputusan boleh memilih yang paling munasabah daripada beberapa keputusan pergerakan tidak konsisten yang diramalkan oleh DiscussNav berdasarkan maklumat persekitaran semasa sebagai keputusan pergerakan terakhir.
Pengarang berkaitan Dong Hao mencadangkan dalam laporan sebelumnya bahawa penerokaan mendalam tentang cara menggunakan data simulasi dan model besar dengan berkesan untuk mempelajari pengetahuan terdahulu daripada data besar adalah penjelmaan masa hadapan. arah pembangunan penyelidikan perisikan.
Pada masa ini dihadkan oleh skala data dan kos yang tinggi untuk meneroka persekitaran sebenar, penyelidikan perisikan yang terkandung masih akan menumpukan pada eksperimen platform simulasi dan latihan data simulasi.
Kemajuan terkini dalam model besar menyediakan hala tuju baharu untuk kepintaran yang terkandung dan penggunaan akal linguistik yang wajar dan dunia fizikal dalam model besar akan menggalakkan perkembangan kecerdasan yang terkandung.
Alamat kertas: https://arxiv.org/abs/2309.11382
Atas ialah kandungan terperinci Pencapaian baharu Universiti Peking untuk kecerdasan terwujud: Tiada latihan diperlukan, anda boleh bergerak secara fleksibel dengan mengikut arahan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!