Rumah >Peranti teknologi >AI >Memenangi sekutu dan memahami hati orang ramai, ejen Meta terbaharu ialah perunding utama
Permainan telah lama menjadi bukti untuk kemajuan dalam AI—dari kemenangan Deep Blue ke atas grandmaster catur Garry Kasparov, kepada penguasaan AlphaGo terhadap Go beyond humans, kepada Pluribus menewaskan pemain terbaik di poker . Tetapi ejen yang benar-benar berguna dan mahakuasa tidak boleh hanya bermain permainan papan dan menggerakkan buah catur. Seseorang tidak boleh tidak bertanya: Bolehkah kita membina ejen yang lebih berkesan dan fleksibel yang boleh menggunakan bahasa untuk berunding, memujuk dan bekerjasama dengan orang ramai untuk mencapai matlamat strategik seperti manusia?
Dalam sejarah permainan, terdapat permainan meja klasik Diplomasi Apabila ramai orang melihat permainan itu buat kali pertama, mereka akan terkejut dengan papan gaya petanya. Fikirkan ia sebagai permainan perang yang kompleks. Sebenarnya, ini tidak berlaku. Ini adalah permainan yang memerlukan bahasa untuk memenangi sekutu. Ia melibatkan pembuatan keputusan dan perundingan .
Kini Meta telah melancarkan cabaran untuk permainan ini, ejen pintar yang mereka bina, CICERO, menjadi AI pertama yang mencapai tahap manusia dalam Diplomasi. CICERO menunjukkan ini pada versi dalam talian webDiplomacy.net, di mana CICERO menjaringkan secara purata lebih daripada dua kali ganda berbanding pemain manusia dan menduduki tempat dalam 10% peserta teratas yang telah bermain lebih daripada satu permainan.
Bagaimana banyak Selama sepuluh tahun, Diplomasi telah dianggap sebagai cabaran yang tidak dapat diatasi dalam bidang AI kerana permainan memerlukan pemain untuk memahami motivasi dan perspektif orang lain, membuat rancangan yang rumit, menyesuaikan strategi, dan menggunakan bahasa semula jadi untuk mencapai persetujuan dengan orang lain mengenai perkara ini. asas , memujuk orang lain untuk membentuk perkongsian dan pakatan, dsb. Ini masih sukar untuk ejen, dan CICERO masih sangat berkesan dalam menggunakan bahasa semula jadi untuk berunding dengan pemain Diplomasi.
Tidak seperti catur dan Pergi, Diplomasi ialah permainan tentang manusia dan bukannya kepingan. Jika ejen tidak dapat memberitahu sama ada pihak lawan menipu atau sebenarnya mensabotaj, ia akan kehilangan permainan dengan cepat. Begitu juga, jika ejen tidak dapat berkomunikasi seperti manusia, tunjukkan empati, bina hubungan dengan orang lain dan bercakap tentang permainan - ia tidak akan menemui pemain lain yang bersedia untuk bekerjasama dengannya.
Penyelidikan oleh Meta ini menggabungkan penaakulan strategik (seperti AlphaGo, Pluribus) dengan pemprosesan bahasa semula jadi (seperti GPT-3, BlenderBot 3, LaMDA , OPT-175B) telah digabungkan. Sebagai contoh, lewat permainan CICERO menyimpulkan bahawa ia memerlukan sokongan pemain tertentu, dan CICERO kemudiannya membangunkan strategi untuk memenangi hati orang itu.
Inti CICERO ialah model dialog yang boleh dikawal dan enjin penaakulan strategik. Pada setiap titik dalam permainan, CICERO melihat papan permainan dan sejarah perbualannya serta memodelkan perkara yang mungkin dilakukan oleh pemain lain. Pelan kemudian dibangunkan untuk mengawal model bahasa, menyampaikan rancangannya kepada pemain lain, dan mencadangkan tindakan yang munasabah kepada pemain lain yang berkoordinasi dengan baik dengan mereka.
Dialog boleh dikawal
Untuk membina model dialog yang boleh dikawal, Meta bermula daripada model dialog yang boleh dikawal dengan 2.7 bilion parameter Kami bermula dengan model bahasa seperti BART, pra-latihan pada teks daripada Internet, dan diperhalusi pada lebih 40,000 permainan manusia di webDiplomacy.net.
Proses pelaksanaan terbahagi kepada langkah-langkah berikut:
Langkah 1: Berdasarkan keadaan papan dan perbualan semasa, CICERO akan membuat keputusan untuk setiap orang Apa yang memberi ramalan awal.
Langkah 2: CICERO menambah baik ramalan awal secara berulang dan kemudian menggunakan ramalan yang dipertingkat untuk membentuk niat untuk dirinya sendiri dan rakan kongsinya.
Langkah 3: Hasilkan berbilang mesej calon berdasarkan keadaan lembaga, dialog dan niat.
Langkah 4: Tapis mesej calon, maksimumkan nilai dan pastikan niat itu konsisten antara satu sama lain.
Para penyelidik menggunakan beberapa mekanisme penapisan untuk meningkatkan lagi kualiti dialog, seperti menggunakan pengelas terlatih untuk membezakan antara manusia dan model Teks yang dijana untuk memastikan - dialog itu masuk akal, konsisten dengan keadaan permainan semasa dan maklumat sebelumnya, dan kukuh dari segi strategik.
Strategi dan perancangan sedar perbualan
Dalam permainan yang melibatkan kerjasama, ejen perlu belajar mensimulasikan manusia dalam realiti Apa yang sebenarnya orang lakukan dalam hidup, dan bukannya menganggap manusia sebagai mesin dengan ejen menentukan apa yang patut mereka lakukan. Oleh itu Meta berharap rancangan yang dibangunkan oleh CICERO akan konsisten dengan dialog dengan pelakon lain.
Kaedah klasik pemodelan manusia ialah pembelajaran diselia, iaitu, menggunakan data berlabel (seperti pemain manusia dalam pangkalan data tindakan permainan lepas) untuk melatih ejen. Walau bagaimanapun, bergantung semata-mata kepada pembelajaran yang diselia untuk memilih tindakan berdasarkan perbualan lepas menghasilkan agen yang agak lemah dan mudah dieksploitasi. Sebagai contoh, pemain boleh memberitahu ejen "Saya gembira kami bersetuju bahawa anda akan memindahkan tentera anda dari Paris Memandangkan maklumat yang sama hanya muncul dalam data latihan apabila persetujuan dicapai, ejen sebenarnya boleh memindahkan tenteranya." dari Paris, walaupun berbuat demikian adalah satu kesilapan strategik yang jelas.
Untuk menyelesaikan masalah ini, CICERO menjalankan algoritma perancangan berulang untuk mengimbangi ketekalan dan kebolehpercayaan perbualan. Ejen mula-mula meramalkan strategi setiap pemain untuk giliran semasa berdasarkan perbualannya dengan pemain lain, dan juga meramalkan apa yang pemain lain fikirkan strategi ejen itu. Ia kemudiannya akan menjalankan algoritma perancangan yang dipanggil "piKL" yang secara berulang menambah baik ramalan ini dengan cuba memilih strategi baharu dengan nilai jangkaan yang lebih tinggi memandangkan strategi yang diramalkan oleh pemain lain, sambil juga cuba membuat ramalan baharu hampir dengan Ramalan Strategik asal. . Para penyelidik mendapati bahawa piKL boleh mensimulasikan permainan manusia dengan lebih baik dan membawa strategi yang lebih baik kepada ejen daripada pembelajaran diselia tulen.
dalam In Diplomacy, cara pemain bercakap antara satu sama lain adalah lebih penting daripada cara mereka menggerakkan kepingan mereka. CICERO mampu berkomunikasi dengan jelas dan meyakinkan apabila menyusun strategi dengan pemain lain. Sebagai contoh, dalam satu demo, CICERO meminta seorang pemain untuk segera menyokong bahagian tertentu papan, sambil memberi tekanan kepada pemain lain untuk mempertimbangkan pakatan kemudian dalam permainan.
Dalam pertukaran itu, CICERO cuba melaksanakan strateginya dengan mencadangkan tindakan kepada tiga pemain berbeza. Dalam perbualan kedua, ejen dapat memberitahu pemain lain mengapa mereka harus bekerjasama dan bagaimana ia akan memberi manfaat kepada kedua-dua pihak. Dalam dialog ketiga ini, CICERO sedang meminta maklumat dan meletakkan asas untuk tindakan masa depan.
Mestilah diakui bahawa CICERO kadangkala boleh menghasilkan dialog yang tidak konsisten yang menjejaskan matlamatnya. Dalam contoh di bawah, CICERO memainkan watak Austria, tetapi ejen meminta Itali berpindah ke Venice, bertentangan dengan mesej pertamanya.
dalam persekitaran yang melibatkan kedua-dua kerjasama Kemunculan sistem dialog berorientasikan matlamat dalam permainan yang turut melibatkan persaingan menimbulkan cabaran sosial dan teknikal yang penting dalam menyelaraskan AI dengan niat dan matlamat manusia. Diplomasi menyediakan konteks yang sangat menarik untuk mengkaji masalah ini kerana bermain permainan memerlukan gusti dengan matlamat yang bercanggah dan menterjemahkan matlamat yang kompleks ini ke dalam bahasa semula jadi. Sebagai contoh mudah, pemain boleh memilih untuk berkompromi dengan faedah jangka pendek untuk mengekalkan hubungan dengan sekutu kerana sekutu itu boleh membantu mereka mendapat kedudukan yang lebih baik seterusnya.
Walaupun Meta telah mencapai kemajuan yang ketara dalam kerja ini, keupayaan untuk menggabungkan model bahasa dengan kuat dengan niat konkrit, dan cabaran teknikal (dan normatif) dalam menentukan niat tersebut, kekal adalah penting. soalan. Dengan sumber terbuka kod CICERO, Meta berharap penyelidik AI dapat terus membina kerja ini dengan cara yang bertanggungjawab. Pasukan itu berkata: "Dengan menggunakan model perbualan untuk klasifikasi sifar pukulan, kami telah mengambil langkah awal dalam mengesan dan mengalih keluar maklumat berbahaya dalam medan baharu ini Kami berharap "Diplomasi" boleh berfungsi sebagai kotak pasir yang selamat untuk memajukan interaksi manusia-AI. penyelidikan. 》
Walaupun CICERO pada masa ini hanya mampu bermain permainan Diplomasi, teknologi di sebalik pencapaian ini adalah relevan kepada banyak aplikasi dunia sebenar. Sebagai contoh, halangan komunikasi antara manusia dan ejen dipacu AI boleh dikurangkan dengan mengawal penjanaan bahasa semula jadi melalui perancangan dan RL.
Sebagai contoh, pembantu AI hari ini hebat dalam menjawab soalan mudah seperti memberitahu anda cuaca, tetapi bagaimana jika mereka dapat mengekalkan perbualan jangka panjang dengan matlamat untuk mengajar anda kemahiran baharu?
Selain itu, bayangkan permainan video di mana NPC boleh merancang dan bercakap seperti manusia—memahami motivasi anda dan menyesuaikan dialog dengan sewajarnya untuk membantu anda menyelesaikan usaha anda menyerbu istana.
"Impian" ini mungkin menjadi kenyataan pada masa hadapan.
Atas ialah kandungan terperinci Memenangi sekutu dan memahami hati orang ramai, ejen Meta terbaharu ialah perunding utama. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!