Universiti Tsinghua dan 'penanda aras pembelajaran alat' sumber terbuka lain ToolBench, prestasi model diperhalusi ToolLLaMA mengatasi ChatGPT-AI-php.cn

Universiti Tsinghua dan 'penanda aras pembelajaran alat' sumber terbuka lain ToolBench, prestasi model diperhalusi ToolLLaMA mengatasi ChatGPT

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 06, 2023 am 11:12 AM

AIPembelajaran alatan

Manusia mempunyai keupayaan untuk mencipta dan menggunakan alat, membolehkan kita menembusi batasan badan dan meneroka dunia yang lebih luas.

Model asas kecerdasan buatan adalah serupa Jika anda hanya bergantung pada pemberat yang diperoleh dalam peringkat latihan, senario penggunaan akan menjadi sangat terhad, pembelajaran alat yang dicadangkan baru-baru ini menggabungkan alat khusus dalam bidang tertentu berskala besar Gabungan model asas boleh mencapai kecekapan dan prestasi yang lebih tinggi.

Walau bagaimanapun, penyelidikan semasa tentang pembelajaran alat tidak cukup mendalam, dan terdapat kekurangan data dan kod sumber terbuka yang berkaitan.

Baru-baru ini, OpenBMB (Makmal Terbuka untuk Pangkalan Model Besar), komuniti sumber terbuka yang disokong oleh Makmal Pemprosesan Bahasa Semula Jadi Universiti Tsinghua dan lain-lain, mengeluarkan projek ToolBench, yang boleh membantu pembangun membina secara terbuka sumber, berskala besar, Data penalaan arahan berkualiti tinggi yang memudahkan pembinaan model bahasa yang besar dengan keupayaan untuk menggunakan alatan biasa.

Universiti Tsinghua dan penanda aras pembelajaran alat sumber terbuka lain ToolBench, prestasi model diperhalusi ToolLLaMA mengatasi ChatGPT

Pautan repositori: https://github.com/OpenBMB/ToolBench

Gudang ToolBench menyediakan set data yang berkaitan, skrip latihan dan penilaian, dan model berfungsi ToolLLaMA diperhalusi pada ToolBench Ciri-ciri khusus ialah:

1 Skema alat berbilang alatan

Tetapan alat tunggal mengikut gaya gesaan LangChain dan tetapan berbilang alatan mengikut gaya gesaan AutoGPT.

2 Balasan model merangkumi bukan sahaja jawapan akhir, tetapi juga proses rantai pemikiran model, pelaksanaan alat dan hasil pelaksanaan alat

3. Menyokong kerumitan peringkat dunia sebenar, menyokong panggilan alat berbilang langkah

4. API Kaya yang boleh digunakan untuk senario dunia sebenar, seperti maklumat cuaca, carian, kemas kini stok dan automasi PowerPoint

5 Semua data dijana secara automatik oleh API OpenAI dan ditapis oleh pasukan pembangunan, dan proses penciptaan data mudah berskala

Walau bagaimanapun, perlu diingatkan bahawa data yang dikeluarkan setakat ini bukanlah muktamad, dan penyelidik masih memproses data selepas itu untuk meningkatkan kualiti data dan meningkatkan liputan alatan dunia sebenar.

ToolBench

Idea umum ToolBench adalah berdasarkan BMTools, melatih model bahasa besar dalam data yang diselia.

Universiti Tsinghua dan penanda aras pembelajaran alat sumber terbuka lain ToolBench, prestasi model diperhalusi ToolLLaMA mengatasi ChatGPT

Gudang mengandungi 9,800 keping data yang diperoleh daripada 312,000 panggilan API sebenar, meliputi Alat tunggal senario dan senario berbilang alat, berikut adalah maklumat statistik alat tunggal.

Universiti Tsinghua dan penanda aras pembelajaran alat sumber terbuka lain ToolBench, prestasi model diperhalusi ToolLLaMA mengatasi ChatGPT

Setiap baris data ialah json dict, termasuk templat segera untuk penciptaan data, Arahan manusia (pertanyaan) untuk penggunaan alat, pemikiran perantaraan/gelung pelaksanaan alat, dan jawapan akhir.

Tool Descrition:BMTools Tool_name: translationTool action: get_translationaction_input: {"text": target texts, "tgt_lang": target language}Generated Data:{"prompt": "Answer the following questions as best you can. Specifically, you have access to the following APIs:\n\nget_translation: . Your input should be a json (args json schema): {{\"text\" : string, \"tgt_lang\" : string, }} The Action to trigger this API should be get_translation and the input parameters should be a json dict string. Pay attention to the type of parameters.\n\nUse the following format:\n\nQuestion: the input question you must answer\nThought: you should always think about what to do\nAction: the action to take, should be one of [get_translation]\nAction Input: the input to the action\nObservation: the result of the action\n... (this Thought/Action/Action Input/Observation can repeat N times, max 7 times)\nThought: I now know the final answer\nFinal Answer: the final answer to the original input question\n\nBegin! Remember: (1) Follow the format, i.e,\nThought:\nAction:\nAction Input:\nObservation:\nFinal Answer:\n (2) Provide as much as useful information in your Final Answer. (3) Do not make up anything, and if your Observation has no link, DO NOT hallucihate one. (4) If you have enough information and want to stop the process, please use \nThought: I have got enough information\nFinal Answer: **your response. \n The Action: MUST be one of the following:get_translation\nQuestion: {input}\n Agent scratchpad (history actions):\n {agent_scratchpad}","query": "My intention is to convert the data provided in ما هي الأقسام الثلاثة للقوات المسلحة؟ into Arabic(ara).\n","chains": [{"thought": "I need to use the get_translation API to convert the text into Arabic.","action": "get_translation","action_input": "{\"text\": \"What are the three branches of the military?\", \"tgt_lang\": \"ara\"}","observation": "\"ما هي الفروع الثلاثة للجيش ؟\""}],"answer": "The translation of \"What are the three branches of the military?\" into Arabic is \"ما هي الفروع الثلاثة للجيش ؟\"."}

Eksperimen model

Penilaian mesin: Para penyelidik secara rawak memilih 100 langkah rantai untuk setiap langkah alat) untuk dibina platform ujian penilaian mesin, dengan purata 27 langkah akhir dan 73 langkah panggilan alat perantaraan, di mana langkah terakhir dinilai menggunakan metrik Rouge-L, dan langkah perantaraan dinilai menggunakan metrik ExactMatch.

Universiti Tsinghua dan penanda aras pembelajaran alat sumber terbuka lain ToolBench, prestasi model diperhalusi ToolLLaMA mengatasi ChatGPT

Penilaian manual: dalam cuaca, peta, Pilih 10 pertanyaan secara rawak daripada alat stok, terjemahan, kimia dan WolframAlpha, kemudian nilaikan kadar lulus proses panggilan alat, jawapan akhir dan perbandingan dengan jawapan akhir ChatGPT.

Penilaian ChatGPT: Penilaian automatik bagi jawapan dan rantaian penggunaan alat untuk LLaMA dan ChatGPT melalui ChatGPT.

Hasil penilaian adalah seperti berikut (skor lebih tinggi, lebih baik dapat dilihat bahawa ToolLLaMA mempunyai prestasi yang sama atau lebih baik daripada ChatGPT dalam senario yang berbeza).

Universiti Tsinghua dan penanda aras pembelajaran alat sumber terbuka lain ToolBench, prestasi model diperhalusi ToolLLaMA mengatasi ChatGPT

Pembelajaran Alat

di Universiti Tsinghua Dalam kertas kerja yang diterbitkan bersama oleh kolej dan universiti terkenal di dalam dan luar negara, seperti Universiti Renmin China, Universiti Pos dan Telekomunikasi Renmin, dan Universiti Pos dan Telekomunikasi Beijing, kajian sistematik pembelajaran alat telah dijalankan, dan latar belakang pembelajaran alat diperkenalkan, termasuk asal usul kognisi dan anjakan paradigma model asas dan peranan pelengkap alat dan model.

Universiti Tsinghua dan penanda aras pembelajaran alat sumber terbuka lain ToolBench, prestasi model diperhalusi ToolLLaMA mengatasi ChatGPT

Pautan kertas: https://arxiv.org/pdf/2304.08354.pdf

Artikel itu juga menyemak penyelidikan pembelajaran alat sedia ada, termasuk pembelajaran yang dipertingkatkan dan berorientasikan alat, dan merumuskan rangka kerja pembelajaran alat umum: bermula daripada memahami arahan pengguna, model harus belajar untuk menguraikan tugas yang kompleks kepada Beberapa subtugas, secara dinamik laraskan rancangan melalui penaakulan, dan takluki setiap subtugas dengan cekap dengan memilih alat yang betul.

Artikel ini juga membincangkan cara melatih model untuk meningkatkan penggunaan alat dan mempromosikan pempopularan pembelajaran alatan.

Memandangkan kekurangan penilaian pembelajaran alat yang sistematik dalam kerja terdahulu, penyelidik menjalankan eksperimen dengan 17 alat yang mewakili dan menunjukkan kecekapan model asas semasa dalam menggunakan potensi alatan.

Makalah ini diakhiri dengan membincangkan beberapa isu terbuka dalam pembelajaran alatan yang memerlukan penyelidikan lanjut, seperti memastikan penggunaan alat yang selamat dan boleh dipercayai, melaksanakan penciptaan alat dengan model asas dan menyelesaikan masalah sukar pemperibadian.

Bahan rujukan:

https://github.com/OpenBMB/ToolBench

Atas ialah kandungan terperinci Universiti Tsinghua dan 'penanda aras pembelajaran alat' sumber terbuka lain ToolBench, prestasi model diperhalusi ToolLLaMA mengatasi ChatGPT. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Skop Gemma: Mikroskop Google ' s untuk mengintip ke proses pemikiran AI 'Apr 17, 2025 am 11:55 AM

Meneroka kerja -kerja dalam model bahasa dengan skop Gemma Memahami kerumitan model bahasa AI adalah satu cabaran penting. Pelepasan Google Gemma Skop, Toolkit Komprehensif, menawarkan penyelidik cara yang kuat untuk menyelidiki

Siapa penganalisis perisikan perniagaan dan bagaimana menjadi satu?Apr 17, 2025 am 11:44 AM

Membuka Kejayaan Perniagaan: Panduan untuk Menjadi Penganalisis Perisikan Perniagaan Bayangkan mengubah data mentah ke dalam pandangan yang boleh dilakukan yang mendorong pertumbuhan organisasi. Ini adalah kuasa penganalisis Perniagaan Perniagaan (BI) - peranan penting dalam GU

Bagaimana untuk menambah lajur dalam SQL? - Analytics VidhyaApr 17, 2025 am 11:43 AM

Pernyataan Jadual Alter SQL: Menambah lajur secara dinamik ke pangkalan data anda Dalam pengurusan data, kebolehsuaian SQL adalah penting. Perlu menyesuaikan struktur pangkalan data anda dengan cepat? Pernyataan Jadual ALTER adalah penyelesaian anda. Butiran panduan ini menambah colu

Penganalisis Perniagaan vs Penganalisis DataApr 17, 2025 am 11:38 AM

Pengenalan Bayangkan pejabat yang sibuk di mana dua profesional bekerjasama dalam projek kritikal. Penganalisis perniagaan memberi tumpuan kepada objektif syarikat, mengenal pasti bidang penambahbaikan, dan memastikan penjajaran strategik dengan trend pasaran. Simu

Apakah Count dan Counta dalam Excel? - Analytics VidhyaApr 17, 2025 am 11:34 AM

Pengiraan dan Analisis Data Excel: Penjelasan terperinci mengenai fungsi Count dan Counta Pengiraan dan analisis data yang tepat adalah kritikal dalam Excel, terutamanya apabila bekerja dengan set data yang besar. Excel menyediakan pelbagai fungsi untuk mencapai matlamat ini, dengan fungsi Count dan CountA menjadi alat utama untuk mengira bilangan sel di bawah keadaan yang berbeza. Walaupun kedua -dua fungsi digunakan untuk mengira sel, sasaran reka bentuk mereka disasarkan pada jenis data yang berbeza. Mari menggali butiran khusus fungsi Count dan Counta, menyerlahkan ciri dan perbezaan unik mereka, dan belajar cara menerapkannya dalam analisis data. Gambaran keseluruhan perkara utama Memahami kiraan dan cou

Chrome ada di sini dengan AI: mengalami sesuatu yang baru setiap hari !!Apr 17, 2025 am 11:29 AM

Revolusi AI Google Chrome: Pengalaman melayari yang diperibadikan dan cekap Kecerdasan Buatan (AI) dengan cepat mengubah kehidupan seharian kita, dan Google Chrome mengetuai pertuduhan di arena pelayaran web. Artikel ini meneroka exciti

Sisi Manusia Ai ' s: Kesejahteraan dan garis bawah empat kali gandaApr 17, 2025 am 11:28 AM

Impak Reimagining: garis bawah empat kali ganda Selama terlalu lama, perbualan telah dikuasai oleh pandangan sempit kesan AI, terutama memberi tumpuan kepada keuntungan bawah. Walau bagaimanapun, pendekatan yang lebih holistik mengiktiraf kesalinghubungan BU

5 Kes Pengkomputeran Kuantum Mengubah Permainan Yang Harus Anda KetahuiApr 17, 2025 am 11:24 AM

Perkara bergerak terus ke arah itu. Pelaburan yang dicurahkan ke dalam penyedia perkhidmatan kuantum dan permulaan menunjukkan bahawa industri memahami kepentingannya. Dan semakin banyak kes penggunaan dunia nyata muncul untuk menunjukkan nilainya

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

3 minggu yang laluByDDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

2 minggu yang laluByDDD

Akan R.E.P.O. Ada Crossplay?

1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

MinGW - GNU Minimalis untuk Windows

Projek ini dalam proses untuk dipindahkan ke osdn.net/projects/mingw, anda boleh terus mengikuti kami di sana. MinGW: Port Windows asli bagi GNU Compiler Collection (GCC), perpustakaan import yang boleh diedarkan secara bebas dan fail pengepala untuk membina aplikasi Windows asli termasuk sambungan kepada masa jalan MSVC untuk menyokong fungsi C99. Semua perisian MinGW boleh dijalankan pada platform Windows 64-bit.