Rumah >Peranti teknologi >AI >Rangsang keupayaan penaakulan spatial model bahasa besar: petua visualisasi berfikir
PengenalanDalam beberapa tahun kebelakangan ini, model bahasa besar (LLM) telah mencapai prestasi yang luar biasa dalam pelbagai tugas berkaitan bahasa. Walaupun kejayaan mereka dalam penaakulan matematik, penaakulan akal, dan tugas penaakulan lain seperti penaakulan simbolik atau logik, keupayaan mereka dalam penaakulan spatial masih kurang diterokai.Model Bahasa Besar (LLM) menunjukkan prestasi yang mengagumkan dalam pemahaman bahasa dan pelbagai tugas penaakulan. Walau bagaimanapun, mereka masih kurang dikaji tentang aspek utama kognisi manusia: penaakulan spatial. Manusia mempunyai keupayaan untuk mencipta imej mental objek ghaib dan tindakan melalui proses yang dikenali sebagai Mind's Eye, membolehkan untuk membayangkan dunia ghaib. Diilhamkan oleh keupayaan kognitif ini, penyelidik mencadangkan Visualization of Thought (VoT). VoT bertujuan untuk membimbing penaakulan spatial LLM dengan menggambarkan tanda penaakulan mereka, dengan itu membimbing langkah penaakulan seterusnya. Para penyelidik menggunakan VoT untuk tugas penaakulan spatial berbilang hop, termasuk navigasi bahasa semula jadi, navigasi visual dan penurapan visual dalam dunia grid dua dimensi. Hasil eksperimen menunjukkan bahawa VoT meningkatkan keupayaan penaakulan spatial LLM dengan ketara. Terutama, VoT mengatasi model bahasa besar berbilang modal (MLLM) sedia ada dalam tugasan ini.
Penaakulan ruang ialah fungsi asas kognisi manusia, membolehkan kita berinteraksi dengan persekitaran kita. Ia memudahkan tugas yang memerlukan pemahaman dan penaakulan tentang hubungan ruang antara objek dan gerakannya. Penaakulan spatial model bahasa sangat bergantung pada bahasa untuk menaakul tentang maklumat spatial, dan kebolehan kognitif manusia jauh melebihi penaakulan linguistik. Manusia bukan sahaja boleh mencipta representasi abstrak yang berkaitan dengan tugas daripada persepsi visual, tetapi juga membayangkan adegan yang tidak kelihatan melalui mata minda. Ini ialah topik penyelidikan yang dikenali sebagai imej mental dalam bidang neurosains, falsafah minda dan sains kognitif. Berdasarkan fungsi kognitif ini, manusia memudahkan penaakulan spatial melalui manipulasi imej mental, seperti navigasi, putaran mental, lipatan kertas mental, dan simulasi mental. Rajah 1 menggambarkan proses manusia yang terlibat dalam tugas navigasi. Manusia meningkatkan kesedaran spatial mereka dan membimbing mereka membuat keputusan dengan mencipta imej mental laluan, menggunakan pelbagai input deria seperti arahan navigasi atau imej peta. Mereka kemudian mensimulasikan perancangan laluan melalui mata minda.
Rajah 1: Manusia boleh meningkatkan kesedaran spatial mereka dan membimbing membuat keputusan dengan mencipta imej mental semasa penaakulan spatial. Begitu juga, model bahasa besar (LLM) boleh membina imej mental dalaman. Para penyelidik mencadangkan VoT untuk menimbulkan "mata minda" LLM dengan menggambarkan pemikiran mereka pada setiap langkah perantaraan, dengan itu mempromosikan penaakulan spatial. Diinspirasikan oleh mekanisme kognitif ini, penyelidik membuat spekulasi bahawa LLM mempunyai keupayaan untuk mencipta dan memanipulasi imej mental dalam mata minda untuk penaakulan spatial. Seperti yang ditunjukkan dalam Rajah 1, LLM mungkin memproses dan memahami maklumat spatial dalam pelbagai format. Mereka mungkin dapat menggambarkan keadaan dalaman dan memanipulasi imej mental ini melalui mata minda untuk membimbing langkah penaakulan seterusnya untuk meningkatkan penaakulan spatial. Oleh itu, penyelidik mencadangkanVisualization of Thought (VoT) menggesa untuk mendapatkan keupayaan ini. Kaedah ini menambahkan pad lakar visual-ruang pada LLM untuk menggambarkan langkah penaakulan mereka dan membimbing langkah seterusnya. VoT menggunakan gesaan demonstrasi sifar, dan bukannya bergantung pada beberapa demonstrasi atau menggunakan CLIP untuk visualisasi teks-ke-imej. Pilihan ini berpunca daripada keupayaan LLM untuk mendapatkan pelbagai imej mental daripada seni visual berasaskan teks.
Untuk menilai keberkesanan VoT dalam penaakulan spatial, penyelidik memilih tiga tugasan yang memerlukan kesedaran ruang LLM, termasuknavigasi bahasa semula jadi, navigasi visual dan turapan visual. Tugasan ini memerlukan pemahaman penaakulan bentuk spatial, arah dan geometri. Untuk mensimulasikan persepsi berbilang deria seperti manusia, para penyelidik mereka bentuk dunia grid 2D yang menggunakan aksara khas sebagai format input yang kaya dalam navigasi visual dan tugas meletakkan visual LLM. Model yang berbeza (GPT-4, GPT-4V) dan teknik gesaan telah dibandingkan pada ketiga-tiga tugasan ini. Hasil penyelidikan menunjukkan bahawa VoT menggesa secara konsisten LLM untuk menggambarkan langkah penaakulan mereka dan membimbing langkah seterusnya. Oleh itu, kaedah ini mencapai peningkatan prestasi yang ketara pada tugasan yang sepadan.
Rajah 2: Contoh peta navigasi dalam tetapan berbeza, dengan emoji rumah mewakili titik permulaan dan emoji pejabat mewakili destinasi.Penaakulan spatial merujuk kepada keupayaan untuk memahami dan menaakul tentang hubungan ruang antara objek, pergerakan dan interaksinya. Kemahiran ini penting untuk pelbagai aplikasi dunia sebenar, seperti navigasi, robotik dan pemanduan autonomi. Bidang-bidang ini memerlukan perancangan tindakan berdasarkan persepsi visual dan pemahaman terperinci tentang dimensi spatial. Walaupun beberapa tugasan dan set data telah dibangunkan untuk meneroka semantik spatial yang tertanam dalam teks, usaha penyelidikan secara amnya tertumpu pada cara istilah spatial distrukturkan secara linguistik. Baru-baru ini, pencapaian penting dan hasil yang mengagumkan telah dicapai pada penanda aras ini dengan menukar istilah spatial ke dalam bentuk logik dan menggunakan pengaturcaraan logik. Ini bermakna bahawa melaksanakan tugas ini dengan baik tidak semestinya bermakna model bahasa besar (LLM) benar-benar memahami maklumat spatial, dan ia juga tidak memberikan ukuran yang tepat bagi kesedaran spatial mereka. Kesedaran ruang melibatkan pemahaman hubungan ruang, arah, jarak dan geometri, yang penting untuk merancang tindakan dalam dunia fizikal. Untuk menilai kesedaran spatial dan kebolehan penaakulan spatial LLM, penyelidik memilih beberapa tugas yang menguji navigasi dan kemahiran penaakulan geometri, termasuk navigasi bahasa semula jadi, navigasi visual dan penurapan visual. . Konsep ini diilhamkan oleh penyelidikan terdahulu mengenai kognisi manusia, menggunakan pendekatan yang serupa dengan berjalan rawak di sepanjang struktur graf. Proses ini memerlukan pemahaman tentang penutupan gelung, yang penting untuk navigasi spatial.
Navigasi Visual
Tugas navigasi visual mempersembahkan LLM dengan dunia grid 2D sintetik dan mencabar mereka untuk menavigasi menggunakan isyarat visual. Model mesti menjana arahan navigasi untuk bergerak dalam empat arah (kiri, kanan, atas dan bawah) dari titik permulaan ke destinasi sambil mengelakkan halangan. Ini melibatkan dua subtugas: perancangan laluan dan ramalan langkah seterusnya, yang memerlukan penaakulan spatial berbilang hop, yang mana yang pertama adalah lebih kompleks.Rajah 3: Contoh peletakan visual dengan blok domino bertopeng. Imej tidak menunjukkan variasi diputar dan dicerminkan bagi blok domino.
BerfikirIsyarat Visual
Memandangkan cara manusia memproses maklumat spatial dalam tugas seperti navigasi, imej mental, seperti peta, sering dicipta untuk meningkatkan kesedaran spatial atau mensimulasikan pergerakan untuk membimbing membuat keputusan. Matlamat penyelidikan adalah untuk membangkitkan kesedaran spatial LLM dan membolehkan penaakulan berdasarkan situasi sebenar dengan menggambarkan langkah penaakulan pertengahan mereka. Penyelidik memperkenalkan gesaan Visualisasi Pemikiran (VoT): "Visualkan keadaan selepas setiap langkah penaakulan". Paradigma penaakulan spatial baharu ini bertujuan untuk menjana tanda penaakulan dan hasil visualisasi dalam cara bersilang.
Kertas: https://arxiv.org/pdf/2404.03622.pdf
Atas ialah kandungan terperinci Rangsang keupayaan penaakulan spatial model bahasa besar: petua visualisasi berfikir. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!