Rumah > Artikel > Peranti teknologi > Universiti Tsinghua dan "penanda aras pembelajaran alat" sumber terbuka lain ToolBench, prestasi model diperhalusi ToolLLaMA mengatasi ChatGPT
Manusia mempunyai keupayaan untuk mencipta dan menggunakan alat, membolehkan kita menembusi batasan badan dan meneroka dunia yang lebih luas.
Model asas kecerdasan buatan adalah serupa Jika anda hanya bergantung pada pemberat yang diperoleh dalam peringkat latihan, senario penggunaan akan menjadi sangat terhad, pembelajaran alat yang dicadangkan baru-baru ini menggabungkan alat khusus dalam bidang tertentu berskala besar Gabungan model asas boleh mencapai kecekapan dan prestasi yang lebih tinggi.
Walau bagaimanapun, penyelidikan semasa tentang pembelajaran alat tidak cukup mendalam, dan terdapat kekurangan data dan kod sumber terbuka yang berkaitan.
Baru-baru ini, OpenBMB (Makmal Terbuka untuk Pangkalan Model Besar), komuniti sumber terbuka yang disokong oleh Makmal Pemprosesan Bahasa Semula Jadi Universiti Tsinghua dan lain-lain, mengeluarkan projek ToolBench, yang boleh membantu pembangun membina secara terbuka sumber, berskala besar, Data penalaan arahan berkualiti tinggi yang memudahkan pembinaan model bahasa yang besar dengan keupayaan untuk menggunakan alatan biasa.
Pautan repositori: https://github.com/OpenBMB/ToolBench
Gudang ToolBench menyediakan set data yang berkaitan, skrip latihan dan penilaian, dan model berfungsi ToolLLaMA diperhalusi pada ToolBench Ciri-ciri khusus ialah:
1 Skema alat berbilang alatan
Tetapan alat tunggal mengikut gaya gesaan LangChain dan tetapan berbilang alatan mengikut gaya gesaan AutoGPT.
2 Balasan model merangkumi bukan sahaja jawapan akhir, tetapi juga proses rantai pemikiran model, pelaksanaan alat dan hasil pelaksanaan alat
3. Menyokong kerumitan peringkat dunia sebenar, menyokong panggilan alat berbilang langkah
4. API Kaya yang boleh digunakan untuk senario dunia sebenar, seperti maklumat cuaca, carian, kemas kini stok dan automasi PowerPoint
5 Semua data dijana secara automatik oleh API OpenAI dan ditapis oleh pasukan pembangunan, dan proses penciptaan data mudah berskala
.Walau bagaimanapun, perlu diingatkan bahawa data yang dikeluarkan setakat ini bukanlah muktamad, dan penyelidik masih memproses data selepas itu untuk meningkatkan kualiti data dan meningkatkan liputan alatan dunia sebenar.
Idea umum ToolBench adalah berdasarkan BMTools, melatih model bahasa besar dalam data yang diselia.
Gudang mengandungi 9,800 keping data yang diperoleh daripada 312,000 panggilan API sebenar, meliputi Alat tunggal senario dan senario berbilang alat, berikut adalah maklumat statistik alat tunggal.
Setiap baris data ialah json dict, termasuk templat segera untuk penciptaan data, Arahan manusia (pertanyaan) untuk penggunaan alat, pemikiran perantaraan/gelung pelaksanaan alat, dan jawapan akhir.
Tool Descrition:BMTools Tool_name: translationTool action: get_translationaction_input: {"text": target texts, "tgt_lang": target language}Generated Data:{"prompt": "Answer the following questions as best you can. Specifically, you have access to the following APIs:\n\nget_translation: . Your input should be a json (args json schema): {{\"text\" : string, \"tgt_lang\" : string, }} The Action to trigger this API should be get_translation and the input parameters should be a json dict string. Pay attention to the type of parameters.\n\nUse the following format:\n\nQuestion: the input question you must answer\nThought: you should always think about what to do\nAction: the action to take, should be one of [get_translation]\nAction Input: the input to the action\nObservation: the result of the action\n... (this Thought/Action/Action Input/Observation can repeat N times, max 7 times)\nThought: I now know the final answer\nFinal Answer: the final answer to the original input question\n\nBegin! Remember: (1) Follow the format, i.e,\nThought:\nAction:\nAction Input:\nObservation:\nFinal Answer:\n (2) Provide as much as useful information in your Final Answer. (3) Do not make up anything, and if your Observation has no link, DO NOT hallucihate one. (4) If you have enough information and want to stop the process, please use \nThought: I have got enough information\nFinal Answer: **your response. \n The Action: MUST be one of the following:get_translation\nQuestion: {input}\n Agent scratchpad (history actions):\n {agent_scratchpad}","query": "My intention is to convert the data provided in ما هي الأقسام الثلاثة للقوات المسلحة؟ into Arabic(ara).\n","chains": [{"thought": "I need to use the get_translation API to convert the text into Arabic.","action": "get_translation","action_input": "{\"text\": \"What are the three branches of the military?\", \"tgt_lang\": \"ara\"}","observation": "\"ما هي الفروع الثلاثة للجيش ؟\""}],"answer": "The translation of \"What are the three branches of the military?\" into Arabic is \"ما هي الفروع الثلاثة للجيش ؟\"."}
Penilaian mesin: Para penyelidik secara rawak memilih 100 langkah rantai untuk setiap langkah alat) untuk dibina platform ujian penilaian mesin, dengan purata 27 langkah akhir dan 73 langkah panggilan alat perantaraan, di mana langkah terakhir dinilai menggunakan metrik Rouge-L, dan langkah perantaraan dinilai menggunakan metrik ExactMatch.
Penilaian manual: dalam cuaca, peta, Pilih 10 pertanyaan secara rawak daripada alat stok, terjemahan, kimia dan WolframAlpha, kemudian nilaikan kadar lulus proses panggilan alat, jawapan akhir dan perbandingan dengan jawapan akhir ChatGPT.
Penilaian ChatGPT: Penilaian automatik bagi jawapan dan rantaian penggunaan alat untuk LLaMA dan ChatGPT melalui ChatGPT.
Hasil penilaian adalah seperti berikut (skor lebih tinggi, lebih baik dapat dilihat bahawa ToolLLaMA mempunyai prestasi yang sama atau lebih baik daripada ChatGPT dalam senario yang berbeza).
di Universiti Tsinghua Dalam kertas kerja yang diterbitkan bersama oleh kolej dan universiti terkenal di dalam dan luar negara, seperti Universiti Renmin China, Universiti Pos dan Telekomunikasi Renmin, dan Universiti Pos dan Telekomunikasi Beijing, kajian sistematik pembelajaran alat telah dijalankan, dan latar belakang pembelajaran alat diperkenalkan, termasuk asal usul kognisi dan anjakan paradigma model asas dan peranan pelengkap alat dan model.
Pautan kertas: https://arxiv.org/pdf/2304.08354.pdf
Artikel itu juga menyemak penyelidikan pembelajaran alat sedia ada, termasuk pembelajaran yang dipertingkatkan dan berorientasikan alat, dan merumuskan rangka kerja pembelajaran alat umum: bermula daripada memahami arahan pengguna, model harus belajar untuk menguraikan tugas yang kompleks kepada Beberapa subtugas, secara dinamik laraskan rancangan melalui penaakulan, dan takluki setiap subtugas dengan cekap dengan memilih alat yang betul.
Artikel ini juga membincangkan cara melatih model untuk meningkatkan penggunaan alat dan mempromosikan pempopularan pembelajaran alatan.
Memandangkan kekurangan penilaian pembelajaran alat yang sistematik dalam kerja terdahulu, penyelidik menjalankan eksperimen dengan 17 alat yang mewakili dan menunjukkan kecekapan model asas semasa dalam menggunakan potensi alatan.
Makalah ini diakhiri dengan membincangkan beberapa isu terbuka dalam pembelajaran alatan yang memerlukan penyelidikan lanjut, seperti memastikan penggunaan alat yang selamat dan boleh dipercayai, melaksanakan penciptaan alat dengan model asas dan menyelesaikan masalah sukar pemperibadian.
Bahan rujukan:
https://github.com/OpenBMB/ToolBench
Atas ialah kandungan terperinci Universiti Tsinghua dan "penanda aras pembelajaran alat" sumber terbuka lain ToolBench, prestasi model diperhalusi ToolLLaMA mengatasi ChatGPT. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!