


Model sumber terbuka dan tertutup 'Chaos': Mari lihat ejen mana yang boleh melihat dengan baik niat sebenar manusia

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
- Data data sumber terbuka: https://huggingface.co / datasets/hbx/IN3
-
Perbandingan tugas kabur dan pelaksanaan tugas yang jelas Tanda aras ejen semasa sering menganggap bahawa tugas yang diberikan adalah jelas dan tidak menganggap aspek pemahaman maksud pengguna sebagai penilaian yang penting. Memandangkan ketidaklengkapan penunjuk penilaian, kerja ini membangunkan penanda aras Niat-dalam-Interaksi (IN3), yang bertujuan untuk menilai keupayaan interaktif ejen melalui pertimbangan kekaburan tugas yang jelas dan pemahaman niat pengguna. proses pembinaan data Seperti yang ditunjukkan dalam rajah di atas, tugas benih berdasarkan tulisan manusia ialah Langkah 1 , model secara berulang menjana tugasan baharu untuk meningkatkan set data semasa mengambil sampel daripada set data sebagai contoh baharu untuk pusingan generasi seterusnya (Langkah 2). Selepas kaedah penjanaan Arahan Kendiri ini, kekaburan, butiran yang tiada bagi setiap tugas, kepentingan setiap butiran dan pilihan yang berpotensi dianotasi secara manual (Langkah 3).
Proses latihan Interaksi Mistral Secara khusus, artikel secara rawak memilih sepuluh tugasan daripada IN3, menggunakannya untuk menguji LLaMA-2-7B-Chat, Mistral-7B-Instruct-v0.2 dan GPT-4 dan menunjukkan model ini i ) menentukan kekaburan tugas itu, ii) meminta pengguna untuk kehilangan butiran apabila tugasan itu samar-samar, iii) meringkaskan tugas pengguna yang terperinci. . Sebaliknya, GPT-4 paling hampir dengan niat manusia dari segi kekaburan tugas dan butiran penting yang hilang. Pada masa yang sama, penerokaan awal juga menunjukkan bahawa untuk meningkatkan lagi keupayaan ejen untuk memahami niat tersirat dalam interaksi, kejuruteraan segera yang mudah adalah tidak mencukupi untuk terus melatih berdasarkan model sumber terbuka semasa untuk mencapai matlamat Tahap penggunaan ejen pintar.Proses pembinaan data latihan (rekod perbualan in3) merujuk kepada angka di atas, menurut anotasi inciguity tugas IN3, butiran yang hilang dan pilihan yang berpotensi, artikel itu digunakan dalam proses membina perbualan merekodkan beberapa strategi (kotak oren), yang merangkumi: pembinaan rantaian penaakulan awal yang jelas, pembinaan pertanyaan dengan pilihan yang dicadangkan, pembinaan nada tindak balas pengguna yang berbeza, dan pembinaan ringkasan yang jelas bagi rantaian penaakulan. Strategi pembinaan dialog ini akan lebih merangsang pertanyaan dan keupayaan penaakulan model sasaran. Penilaian menyeluruh keupayaan interaksi ejen Keupayaan pemahaman niat tersirat ejen boleh dinilai secara langsung melalui interaksi pengguna atau secara tidak langsung melalui ejen yang melaksanakan tugas hiliran. Antaranya, interaksi pengguna memfokuskan kepada pemahaman niat itu sendiri, manakala pelaksanaan tugas memberi tumpuan kepada matlamat akhir pemahaman niat, iaitu untuk meningkatkan keupayaan ejen untuk mengendalikan tugas. Oleh itu, untuk menilai secara menyeluruh reka bentuk ejen interaktif, artikel membahagikan eksperimen kepada dua bahagian: i) Pemahaman Arahan: Menilai keupayaan pemahaman ejen semasa interaksi pengguna ii) Pelaksanaan Arahan: Menilai prestasi pelaksanaan tugas ejen selepas menyepadukan model interaksi. Pemahaman arahan tidak melibatkan sebarang pelaksanaan ejen masa nyata, jadi artikel secara langsung menilai prestasi model bahasa yang berbeza semasa proses interaksi untuk menentukan keupayaan interaksi mereka sebagai modul huluan dalam reka bentuk ejen Tunjukkan:Arahan memahami keputusan ujian Antaranya, anak panah mewakili semakin tinggi skor/ keupayaan yang lebih rendah Ia berprestasi terbaik pada penunjuk seperti menilai kekaburan tugas dan liputan butiran yang hilang ringkasan yang jelas dan menyeluruh berdasarkan niat pengguna yang terperinci. Berbanding dengan model sumber terbuka yang lain, Mistral-Interact boleh memberikan pilihan yang lebih munasabah untuk meminta butiran yang hilang dalam tugasan kabur, kaedah pertanyaan lebih mesra dan prestasinya setanding dengan GPT-4. Dari segi pelaksanaan arahan, untuk menilai keberkesanan pemahaman niat tersirat untuk pelaksanaan tugas ejen, artikel itu menyepadukan Mistral-Interact sebagai modul interaksi huluan ke dalam rangka kerja XAgent untuk ujian. Antaranya, XAgent boleh berinteraksi dalam persekitaran seperti carian rangkaian, pelaksanaan kod, baris arahan dan sistem fail. Hasil Ujian Pelaksanaan Arahan (ST bermaksud subtask, MS bermaksud peristiwa penting)Hasil penilaian kuantitatif menunjukkan bahawa mengintegrasikan mistral-interaksi membantu: i) Elakkan menetapkan matlamat yang tidak perlu semasa proses pelaksanaan , ii) menjadikan proses pelaksanaan ejen lebih konsisten dengan niat pengguna yang terperinci, dan iii) mengurangkan panggilan alat yang tidak perlu dan menggalakkan kecekapan penggunaan alat ejen.
Analisis Kes Interaksi Ejen
Dari segi pemahaman arahan, untuk menunjukkan lagi keteguhan Mistral-Interact dalam senario dialog yang berbeza, artikel itu juga menyediakan tiga analisis kes.berinteraksi dan pengguna dalam senario berbeza Kes A menunjukkan kesan nada pengguna dan gaya perbualan yang berbeza pada Mistral-Interact. Artikel itu mendapati bahawa tidak kira sama ada jawapan pengguna itu pendek atau terperinci, bersemangat atau dingin, malah mengandungi kesilapan ejaan, Mistral-Interact dapat memahami dengan tepat dan memberikan respons yang sesuai, membuktikan keteguhannya. Dalam kes B, ia telah diuji sama ada Mistral-Interact boleh terus bertanya dan membimbing perbualan kembali ke landasan apabila pengguna menunjukkan sikap tidak bekerjasama. Keputusan menunjukkan bahawa walaupun pengguna mengelak soalan, mereka masih dapat mengubah hala perbualan dengan berkesan. Dalam kes C, boleh diperhatikan bahawa Mistral-Interact boleh memasukkan maklumat tambahan yang diberikan oleh pengguna ke dalam ringkasan, yang tidak ditanya secara jelas oleh model interaksi. Ini menunjukkan bahawa apabila pertanyaan model tidak dapat menampung butiran yang hilang sepenuhnya atau pengguna mempunyai keperluan khusus, model masih dapat meringkaskan semua niat pengguna secara munasabah dan menyeluruh, menjadikannya lebih mesra pengguna. Untuk menggambarkan dengan lebih jelas peranan Mistral-Interact dari segi pelaksanaan arahan, kajian kes perbandingan disediakan dalam rajah di bawah.
Teks dalam warna merah mudaboleh ditemui apabila sasaran pengguna dikaburkan. XAgent tidak dapat menetapkan subtugas pengguna dengan tepat. Menurut teks bertanda ungu, didapati bahawa XAgent sering menetapkan beberapa subtugas yang tidak perlu. Ini adalah kerana tugas pengguna terlalu kabur untuk dilaksanakan, dan ejen cenderung untuk mereka-reka butiran yang tidak perlu, yang tidak konsisten dengan niat sebenar pengguna. hijau
Sebaliknya, matlamat tugasan yang jelas membolehkan XAgent merumuskan subtugas yang lebih khusus selepas interaksi aktif dengan Mistral-Interact. Teks bertandadalam rajah menunjukkan ketekalan ini. Pada masa yang sama, proses pelaksanaan ejen menjadi lebih mudah dan bilangan panggilan alat dikurangkan. Semua ini mencerminkan proses pelaksanaan ejen yang lebih cekap. Kesimpulan Kami berdiri di titik permulaan baharu, bersedia untuk menyaksikan lembaran baharu kerjasama manusia-mesin, persefahaman dan pembelajaran bersama. Ejen pintar tidak lama lagi bukan lagi pemproses maklumat yang dingin, tetapi rakan kongsi yang berempati, yang mampu memahami dengan mendalam keperluan dan keinginan kita yang mungkin pada mulanya tidak dapat dinyatakan dengan jelas melalui pengalaman interaktif yang halus. Revolusi dalam reka bentuk ejen pintar berpusatkan manusia ini akan mendedahkan kemungkinan yang tidak terhingga dalam interaksi, menjadikan ejen pintar benar-benar bantuan yang amat diperlukan dalam kehidupan kita.
Atas ialah kandungan terperinci Model sumber terbuka dan tertutup 'Chaos': Mari lihat ejen mana yang boleh melihat dengan baik niat sebenar manusia. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Memanfaatkan kekuatan visualisasi data dengan carta Microsoft Power BI Dalam dunia yang didorong oleh data hari ini, dengan berkesan menyampaikan maklumat yang rumit kepada penonton bukan teknikal adalah penting. Visualisasi data jambatan jurang ini, mengubah data mentah i

Sistem Pakar: menyelam yang mendalam ke dalam kuasa membuat keputusan AI Bayangkan mempunyai akses kepada nasihat pakar mengenai apa -apa, dari diagnosis perubatan kepada perancangan kewangan. Itulah kuasa sistem pakar dalam kecerdasan buatan. Sistem ini meniru pro

Pertama sekali, jelas bahawa ini berlaku dengan cepat. Pelbagai syarikat bercakap mengenai perkadaran kod mereka yang kini ditulis oleh AI, dan ini semakin meningkat pada klip pesat. Terdapat banyak anjakan pekerjaan

Industri filem, bersama semua sektor kreatif, dari pemasaran digital ke media sosial, berdiri di persimpangan teknologi. Sebagai kecerdasan buatan mula membentuk semula setiap aspek bercerita visual dan mengubah landskap hiburan

Kursus Online AI/ML percuma ISRO: Gerbang ke Inovasi Teknologi Geospatial Pertubuhan Penyelidikan Angkasa India (ISRO), melalui Institut Pengesan Jauh India (IIRS), menawarkan peluang yang hebat untuk pelajar dan profesional

Algoritma Carian Tempatan: Panduan Komprehensif Merancang acara berskala besar memerlukan pengagihan beban kerja yang cekap. Apabila pendekatan tradisional gagal, algoritma carian tempatan menawarkan penyelesaian yang kuat. Artikel ini meneroka pendakian bukit dan simul

Pelepasan ini termasuk tiga model yang berbeza, GPT-4.1, GPT-4.1 Mini dan GPT-4.1 Nano, menandakan langkah ke arah pengoptimuman khusus tugas dalam landskap model bahasa yang besar. Model-model ini tidak segera menggantikan antara muka yang dihadapi pengguna seperti

Gergasi Chip Nvidia berkata pada hari Isnin ia akan memulakan pembuatan superkomputer AI - mesin yang boleh memproses sejumlah besar data dan menjalankan algoritma kompleks - sepenuhnya dalam A.S. untuk kali pertama. Pengumuman itu datang selepas Presiden Trump Si


Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

SublimeText3 Linux versi baharu
SublimeText3 Linux versi terkini

Muat turun versi mac editor Atom
Editor sumber terbuka yang paling popular

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

VSCode Windows 64-bit Muat Turun
Editor IDE percuma dan berkuasa yang dilancarkan oleh Microsoft