Model sumber terbuka dan tertutup 'Chaos': Mari lihat ejen mana yang boleh melihat dengan baik niat sebenar manusia-AI-php.cn

Rumah

Peranti teknologi

Model sumber terbuka dan tertutup 'Chaos': Mari lihat ejen mana yang boleh melihat dengan baik niat sebenar manusia

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Aug 11, 2024 pm 01:02 PM

industri

Model sumber terbuka dan tertutup Chaos: Mari lihat ejen mana yang boleh melihat dengan baik niat sebenar manusia

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Penulis pertama artikel ini ialah Qian Cheng dan He Bingxiang, pelajar sarjana di Jabatan Sains Komputer, Universiti Tsinghua. Kedua-duanya adalah ahli THUNLP. Minat penyelidikan utama Qian Cheng ialah pembelajaran alat dan ejen yang didorong oleh model besar Dia akan belajar untuk PhD di UIUC. Minat penyelidikan utama He Bingxiang ialah penjajaran model dan keselamatan yang besar, dan dia akan belajar PhD di Universiti Tsinghua tidak lama lagi. Pengarang yang sepadan untuk artikel ini ialah Cong Xin dan Lin Yankai, dan penyelianya ialah Profesor Madya Liu Zhiyuan.

Hari ini, dengan perkembangan pesat kecerdasan buatan, kami sentiasa meneroka kecerdasan mesin, tetapi kami sering mengabaikan bagaimana ejen pintar ini memahami kami - pencipta mereka. Setiap interaksi, setiap perkataan, setiap tindakan kita manusia dalam hidup dipenuhi dengan niat dan emosi. Tetapi cabaran sebenar ialah: bagaimanakah niat tersirat ini boleh ditangkap, dihuraikan dan dijawab oleh ejen? Ejen pintar tradisional bertindak balas dengan cepat kepada arahan eksplisit, tetapi mereka sering gagal memahami niat tersirat manusia yang kompleks.

Dalam beberapa tahun kebelakangan ini, model bahasa seperti GPT dan LLaMA telah menunjukkan keupayaan yang menakjubkan dalam menyelesaikan tugas yang rumit. Walau bagaimanapun, walaupun ejen dengan mereka sebagai teras mereka pandai merangka strategi dan melaksanakan tugas, mereka jarang mengambil kira strategi interaksi pengguna yang mantap. Tugasan yang diberikan oleh pengguna biasanya tidak jelas dan pendek, yang memerlukan ejen bukan sahaja memahami permintaan literal kami, tetapi juga melihat melalui niat tersirat kami.

Oleh itu, untuk generasi baru ejen pintar yang dapat dilaksanakan dan digunakan oleh orang ramai, ia perlu berpusatkan manusia, memfokuskan bukan sahaja pada ketepatan pelaksanaan tugas, tetapi juga bagaimana untuk mewujudkan yang lebih semula jadi. , hubungan yang lancar dan kaya dengan manusia gaya komunikasi yang berwawasan.

Untuk mengimbangi kekurangan ini, pasukan bersama dari Universiti Tsinghua, Universiti Renmin dan Tencent baru-baru ini mencadangkan pelan reka bentuk interaksi ejen pintar baharu. Kerja ini mula-mula memperkenalkan Niat-dalam-Interaksi (IN3), penanda aras baharu yang bertujuan untuk memahami niat tersirat pengguna melalui interaksi eksplisit dengan pengguna.

Menggunakan Mistral-7B sebagai rangka kerja dan berdasarkan latihan IN3, Mistral-Interact boleh menilai secara proaktif kekaburan tugas, bertanya niat pengguna dan memperhalusinya menjadi matlamat yang boleh diambil tindakan sebelum melancarkan pelaksanaan tugas ejen hiliran. Selepas membenamkan model ke dalam rangka kerja XAgent, artikel tersebut menjalankan penilaian menyeluruh terhadap sistem ejen stateful sepenuhnya.

Hasilnya menunjukkan bahawa penyelesaian ini mempunyai prestasi cemerlang dalam mengenal pasti tugas pengguna yang samar-samar, memulihkan dan meringkaskan maklumat penting yang hilang, menetapkan matlamat pelaksanaan ejen yang tepat dan perlu, dan mengurangkan penggunaan alat berlebihan. Kaedah inovatif ini bukan sahaja mengisi jurang dalam interaksi antara ejen pintar dan pengguna, benar-benar meletakkan manusia di tengah-tengah reka bentuk ejen pintar, tetapi juga bermakna bahawa kami mengambil langkah lebih dekat kepada matlamat mereka bentuk ejen pintar yang lebih selaras dengan niat manusia. . ://github.com/HBX-hbx/Mistral-Interact

Model sumber terbuka dan tertutup Chaos: Mari lihat ejen mana yang boleh melihat dengan baik niat sebenar manusia

Model sumber terbuka: https://huggingface.co/hbx/Mistral-Interact

Data data sumber terbuka: https://huggingface.co / datasets/hbx/IN3
^{Perbandingan tugas kabur dan pelaksanaan tugas yang jelas}Tanda aras ejen semasa sering menganggap bahawa tugas yang diberikan adalah jelas dan tidak menganggap aspek pemahaman maksud pengguna sebagai penilaian yang penting. Memandangkan ketidaklengkapan penunjuk penilaian, kerja ini membangunkan penanda aras Niat-dalam-Interaksi (IN3), yang bertujuan untuk menilai keupayaan interaktif ejen melalui pertimbangan kekaburan tugas yang jelas dan pemahaman niat pengguna.
                                                                                                                                                                                                                                                                                                                                            proses pembinaan data

Seperti yang ditunjukkan dalam rajah di atas, tugas benih berdasarkan tulisan manusia ialah Langkah 1 , model secara berulang menjana tugasan baharu untuk meningkatkan set data semasa mengambil sampel daripada set data sebagai contoh baharu untuk pusingan generasi seterusnya (Langkah 2). Selepas kaedah penjanaan Arahan Kendiri ini, kekaburan, butiran yang tiada bagi setiap tugas, kepentingan setiap butiran dan pilihan yang berpotensi dianotasi secara manual (Langkah 3).

Proses latihan Interaksi Mistral

Oleh kerana model bahasa besar adalah teras reka bentuk ejen, kerja ini mula-mula menjalankan kajian awal untuk menilai prestasi tersirat model sumber terbuka dan sumber tertutup semasa dalam interaksi proses. Formula niat memahami keupayaan.
Secara khusus, artikel secara rawak memilih sepuluh tugasan daripada IN3, menggunakannya untuk menguji LLaMA-2-7B-Chat, Mistral-7B-Instruct-v0.2 dan GPT-4 dan menunjukkan model ini i ) menentukan kekaburan tugas itu, ii) meminta pengguna untuk kehilangan butiran apabila tugasan itu samar-samar, iii) meringkaskan tugas pengguna yang terperinci.
                                                                                                                                                                                                                                                                                                                                   . Sebaliknya, GPT-4 paling hampir dengan niat manusia dari segi kekaburan tugas dan butiran penting yang hilang. Pada masa yang sama, penerokaan awal juga menunjukkan bahawa untuk meningkatkan lagi keupayaan ejen untuk memahami niat tersirat dalam interaksi, kejuruteraan segera yang mudah adalah tidak mencukupi untuk terus melatih berdasarkan model sumber terbuka semasa untuk mencapai matlamat Tahap penggunaan ejen pintar.

^{Proses pembinaan data latihan (rekod perbualan in3)}

merujuk kepada angka di atas, menurut anotasi inciguity tugas IN3, butiran yang hilang dan pilihan yang berpotensi, artikel itu digunakan dalam proses membina perbualan merekodkan beberapa strategi (kotak oren), yang merangkumi: pembinaan rantaian penaakulan awal yang jelas, pembinaan pertanyaan dengan pilihan yang dicadangkan, pembinaan nada tindak balas pengguna yang berbeza, dan pembinaan ringkasan yang jelas bagi rantaian penaakulan. Strategi pembinaan dialog ini akan lebih merangsang pertanyaan dan keupayaan penaakulan model sasaran.

Penilaian menyeluruh keupayaan interaksi ejen

Keupayaan pemahaman niat tersirat ejen boleh dinilai secara langsung melalui interaksi pengguna atau secara tidak langsung melalui ejen yang melaksanakan tugas hiliran. Antaranya, interaksi pengguna memfokuskan kepada pemahaman niat itu sendiri, manakala pelaksanaan tugas memberi tumpuan kepada matlamat akhir pemahaman niat, iaitu untuk meningkatkan keupayaan ejen untuk mengendalikan tugas.

Oleh itu, untuk menilai secara menyeluruh reka bentuk ejen interaktif, artikel membahagikan eksperimen kepada dua bahagian: i) Pemahaman Arahan: Menilai keupayaan pemahaman ejen semasa interaksi pengguna ii) Pelaksanaan Arahan: Menilai prestasi pelaksanaan tugas ejen selepas menyepadukan model interaksi.

Pemahaman arahan tidak melibatkan sebarang pelaksanaan ejen masa nyata, jadi artikel secara langsung menilai prestasi model bahasa yang berbeza semasa proses interaksi untuk menentukan keupayaan interaksi mereka sebagai modul huluan dalam reka bentuk ejen Tunjukkan:

Arahan memahami keputusan ujian Antaranya, anak panah mewakili semakin tinggi skor/ keupayaan yang lebih rendah Ia berprestasi terbaik pada penunjuk seperti menilai kekaburan tugas dan liputan butiran yang hilang ringkasan yang jelas dan menyeluruh berdasarkan niat pengguna yang terperinci. Berbanding dengan model sumber terbuka yang lain, Mistral-Interact boleh memberikan pilihan yang lebih munasabah untuk meminta butiran yang hilang dalam tugasan kabur, kaedah pertanyaan lebih mesra dan prestasinya setanding dengan GPT-4.
Dari segi pelaksanaan arahan, untuk menilai keberkesanan pemahaman niat tersirat untuk pelaksanaan tugas ejen, artikel itu menyepadukan Mistral-Interact sebagai modul interaksi huluan ke dalam rangka kerja XAgent untuk ujian. Antaranya, XAgent boleh berinteraksi dalam persekitaran seperti carian rangkaian, pelaksanaan kod, baris arahan dan sistem fail.

Hasil Ujian Pelaksanaan Arahan (ST bermaksud subtask, MS bermaksud peristiwa penting)

Hasil penilaian kuantitatif menunjukkan bahawa mengintegrasikan mistral-interaksi membantu: i) Elakkan menetapkan matlamat yang tidak perlu semasa proses pelaksanaan , ii) menjadikan proses pelaksanaan ejen lebih konsisten dengan niat pengguna yang terperinci, dan iii) mengurangkan panggilan alat yang tidak perlu dan menggalakkan kecekapan penggunaan alat ejen.

Analisis Kes Interaksi Ejen

Dari segi pemahaman arahan, untuk menunjukkan lagi keteguhan Mistral-Interact dalam senario dialog yang berbeza, artikel itu juga menyediakan tiga analisis kes.
berinteraksi dan pengguna dalam senario berbeza
Kes A menunjukkan kesan nada pengguna dan gaya perbualan yang berbeza pada Mistral-Interact. Artikel itu mendapati bahawa tidak kira sama ada jawapan pengguna itu pendek atau terperinci, bersemangat atau dingin, malah mengandungi kesilapan ejaan, Mistral-Interact dapat memahami dengan tepat dan memberikan respons yang sesuai, membuktikan keteguhannya.
Dalam kes B, ia telah diuji sama ada Mistral-Interact boleh terus bertanya dan membimbing perbualan kembali ke landasan apabila pengguna menunjukkan sikap tidak bekerjasama. Keputusan menunjukkan bahawa walaupun pengguna mengelak soalan, mereka masih dapat mengubah hala perbualan dengan berkesan.
Dalam kes C, boleh diperhatikan bahawa Mistral-Interact boleh memasukkan maklumat tambahan yang diberikan oleh pengguna ke dalam ringkasan, yang tidak ditanya secara jelas oleh model interaksi. Ini menunjukkan bahawa apabila pertanyaan model tidak dapat menampung butiran yang hilang sepenuhnya atau pengguna mempunyai keperluan khusus, model masih dapat meringkaskan semua niat pengguna secara munasabah dan menyeluruh, menjadikannya lebih mesra pengguna.
Untuk menggambarkan dengan lebih jelas peranan Mistral-Interact dari segi pelaksanaan arahan, kajian kes perbandingan disediakan dalam rajah di bawah.
                                                                                                                                                                                             Teks dalam warna merah muda
boleh ditemui apabila sasaran pengguna dikaburkan. XAgent tidak dapat menetapkan subtugas pengguna dengan tepat. Menurut teks bertanda ungu^{, didapati bahawa XAgent sering menetapkan beberapa subtugas yang tidak perlu. Ini adalah kerana tugas pengguna terlalu kabur untuk dilaksanakan, dan ejen cenderung untuk mereka-reka butiran yang tidak perlu, yang tidak konsisten dengan niat sebenar pengguna.}

Sebaliknya, matlamat tugasan yang jelas membolehkan XAgent merumuskan subtugas yang lebih khusus selepas interaksi aktif dengan Mistral-Interact. Teks bertanda
hijau
dalam rajah menunjukkan ketekalan ini. Pada masa yang sama, proses pelaksanaan ejen menjadi lebih mudah dan bilangan panggilan alat dikurangkan. Semua ini mencerminkan proses pelaksanaan ejen yang lebih cekap.
Kesimpulan
Kami berdiri di titik permulaan baharu, bersedia untuk menyaksikan lembaran baharu kerjasama manusia-mesin, persefahaman dan pembelajaran bersama. Ejen pintar tidak lama lagi bukan lagi pemproses maklumat yang dingin, tetapi rakan kongsi yang berempati, yang mampu memahami dengan mendalam keperluan dan keinginan kita yang mungkin pada mulanya tidak dapat dinyatakan dengan jelas melalui pengalaman interaktif yang halus. Revolusi dalam reka bentuk ejen pintar berpusatkan manusia ini akan mendedahkan kemungkinan yang tidak terhingga dalam interaksi, menjadikan ejen pintar benar-benar bantuan yang amat diperlukan dalam kehidupan kita.

Atas ialah kandungan terperinci Model sumber terbuka dan tertutup 'Chaos': Mari lihat ejen mana yang boleh melihat dengan baik niat sebenar manusia. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel Berkaitan

Carta 10 kuasa bi yang paling banyak digunakan - Analytics VidhyaApr 16, 2025 pm 12:05 PM

Memanfaatkan kekuatan visualisasi data dengan carta Microsoft Power BI Dalam dunia yang didorong oleh data hari ini, dengan berkesan menyampaikan maklumat yang rumit kepada penonton bukan teknikal adalah penting. Visualisasi data jambatan jurang ini, mengubah data mentah i

Sistem Pakar di AIApr 16, 2025 pm 12:00 PM

Sistem Pakar: menyelam yang mendalam ke dalam kuasa membuat keputusan AI Bayangkan mempunyai akses kepada nasihat pakar mengenai apa -apa, dari diagnosis perubatan kepada perancangan kewangan. Itulah kuasa sistem pakar dalam kecerdasan buatan. Sistem ini meniru pro

Tiga coder getaran terbaik memecahkan revolusi AI ini dalam kodApr 16, 2025 am 11:58 AM

Pertama sekali, jelas bahawa ini berlaku dengan cepat. Pelbagai syarikat bercakap mengenai perkadaran kod mereka yang kini ditulis oleh AI, dan ini semakin meningkat pada klip pesat. Terdapat banyak anjakan pekerjaan

Runway AI's Gen-4: Bagaimanakah montaj AI boleh melampaui kebodohanApr 16, 2025 am 11:45 AM

Industri filem, bersama semua sektor kreatif, dari pemasaran digital ke media sosial, berdiri di persimpangan teknologi. Sebagai kecerdasan buatan mula membentuk semula setiap aspek bercerita visual dan mengubah landskap hiburan

Bagaimana untuk mendaftar selama 5 hari kursus percuma ISRO AI? - Analytics VidhyaApr 16, 2025 am 11:43 AM

Kursus Online AI/ML percuma ISRO: Gerbang ke Inovasi Teknologi Geospatial Pertubuhan Penyelidikan Angkasa India (ISRO), melalui Institut Pengesan Jauh India (IIRS), menawarkan peluang yang hebat untuk pelajar dan profesional

Algoritma Carian Tempatan di AIApr 16, 2025 am 11:40 AM

Algoritma Carian Tempatan: Panduan Komprehensif Merancang acara berskala besar memerlukan pengagihan beban kerja yang cekap. Apabila pendekatan tradisional gagal, algoritma carian tempatan menawarkan penyelesaian yang kuat. Artikel ini meneroka pendakian bukit dan simul

Terbuka beralih fokus dengan GPT-4.1, mengutamakan pengekodan dan kecekapan kosApr 16, 2025 am 11:37 AM

Pelepasan ini termasuk tiga model yang berbeza, GPT-4.1, GPT-4.1 Mini dan GPT-4.1 Nano, menandakan langkah ke arah pengoptimuman khusus tugas dalam landskap model bahasa yang besar. Model-model ini tidak segera menggantikan antara muka yang dihadapi pengguna seperti

Prompt: CHATGPT menjana pasport palsuApr 16, 2025 am 11:35 AM

Gergasi Chip Nvidia berkata pada hari Isnin ia akan memulakan pembuatan superkomputer AI - mesin yang boleh memproses sejumlah besar data dan menjalankan algoritma kompleks - sepenuhnya dalam A.S. untuk kali pertama. Pengumuman itu datang selepas Presiden Trump Si

See all articles