清華大学とその他のオープンソース「ツール学習ベンチマーク」ToolBench、微調整モデル ToolLLaMA のパフォーマンスが ChatGPT を上回る
人間には道具を作成し利用する能力があり、それによって身体の限界を突破し、より広い世界を探索することができます。
人工知能の基本モデルも同様で、学習段階で得られた重みだけに頼ると利用シーンが非常に限定されてしまいますが、最近提案されているツール学習は、特定分野の特化したツールと、大規模 基本モデルの組み合わせにより、より高い効率とパフォーマンスを実現できます。
ただし、ツール学習に関する現在の研究は十分に詳しくなく、関連するオープンソース データとコードが不足しています。
最近、清華大学自然言語処理研究所などがサポートするオープンソース コミュニティである OpenBMB (Open Lab for Big Model Base) が、開発者がオープンなモデル ベースを構築するのに役立つ ToolBench プロジェクトをリリースしました。共通のツールを使用できる大規模な言語モデルの構築を容易にする、大規模な高品質の命令チューニング データのソース。
ToolBench ウェアハウスは、関連するデータ セット、トレーニングおよび評価スクリプト、ToolBench で微調整された機能モデル ToolLLaMA を提供します。具体的な機能は次のとおりです: 1. 単一ツールと複数のツールをサポートツール ツール ソリューション 単一ツール設定は LangChain プロンプト スタイルに従い、マルチツール設定は AutoGPT プロンプト スタイルに従います。
#2. モデルの応答には、最終的な答えだけでなく、モデルの思考連鎖プロセス、ツールの実行、およびツールの実行結果も含まれます
3. 現実世界レベルの複雑さをサポートし、複数ステップのツール呼び出しをサポート
#4. 気象情報、検索、在庫更新などの現実世界のシナリオに使用できる豊富な API 、PowerPoint オートメーション
5. すべてのデータは OpenAI API によって自動的に生成され、開発チームによってフィルタリングされます。データ作成プロセスは簡単に拡張可能です
##ただし、これまでに公開されたデータは最終的なものではなく、研究者たちはデータの品質を向上させ、現実世界のツールの適用範囲を広げるためにまだデータの後処理を行っているところであることに注意してください。 ToolBench ToolBench の一般的なアイデアは、BMTools に基づいて教師ありデータで大規模な言語モデルをトレーニングすることです。#データの各行は、データ作成用のプロンプト テンプレートを含む json dict です。ツールの使用に関する人間による指示 (クエリ)、中間の思考/ツール実行ループ、および最終的な回答。
Tool Descrition:BMTools Tool_name: translationTool action: get_translationaction_input: {"text": target texts, "tgt_lang": target language}Generated Data:{"prompt": "Answer the following questions as best you can. Specifically, you have access to the following APIs:\n\nget_translation: . Your input should be a json (args json schema): {{\"text\" : string, \"tgt_lang\" : string, }} The Action to trigger this API should be get_translation and the input parameters should be a json dict string. Pay attention to the type of parameters.\n\nUse the following format:\n\nQuestion: the input question you must answer\nThought: you should always think about what to do\nAction: the action to take, should be one of [get_translation]\nAction Input: the input to the action\nObservation: the result of the action\n... (this Thought/Action/Action Input/Observation can repeat N times, max 7 times)\nThought: I now know the final answer\nFinal Answer: the final answer to the original input question\n\nBegin! Remember: (1) Follow the format, i.e,\nThought:\nAction:\nAction Input:\nObservation:\nFinal Answer:\n (2) Provide as much as useful information in your Final Answer. (3) Do not make up anything, and if your Observation has no link, DO NOT hallucihate one. (4) If you have enough information and want to stop the process, please use \nThought: I have got enough information\nFinal Answer: **your response. \n The Action: MUST be one of the following:get_translation\nQuestion: {input}\n Agent scratchpad (history actions):\n {agent_scratchpad}","query": "My intention is to convert the data provided in ما هي الأقسام الثلاثة للقوات المسلحة؟ into Arabic(ara).\n","chains": [{"thought": "I need to use the get_translation API to convert the text into Arabic.","action": "get_translation","action_input": "{\"text\": \"What are the three branches of the military?\", \"tgt_lang\": \"ara\"}","observation": "\"ما هي الفروع الثلاثة للجيش ؟\""}],"answer": "The translation of \"What are the three branches of the military?\" into Arabic is \"ما هي الفروع الثلاثة للجيش ؟\"."}モデル実験 マシン評価: 研究者は、ツール ステップごとに 100 のチェーン ステップをランダムに選択して構築しました平均 27 の最終ステップと 73 の中間ツール呼び出しステップを備えたマシン評価テスト プラットフォーム。最終ステップは Rouge-L メトリックを使用して評価され、中間ステップは ExactMatch メトリックを使用して評価されます。
#手動評価: 天気、地図、ランダムに選択株式、翻訳、化学、WolframAlpha ツールからの 10 個のクエリを実行し、ツール呼び出しプロセスの合格率、最終回答、および ChatGPT の最終回答との比較を評価します。
ChatGPT 評価: ChatGPT を介した LLaMA および ChatGPT の回答とツール使用チェーンの自動評価。
評価結果は以下の通り(スコアが高いほど良好)、さまざまなシナリオにおいてToolLLaMAはChatGPTと同等以上の性能を発揮していることがわかります。
#ツール学習
この記事では、ツール強化学習やツール指向学習などの既存のツール学習研究もレビューし、一般的なツール学習フレームワークを定式化します。ユーザーの指示を理解することから始めて、モデルは複雑なタスクを複数のサブタスクに動的に分解する方法を学習する必要があります。推論を通じて計画を調整し、適切なツールを選択して各サブタスクを効率的に達成します。
この記事では、ツールの使用を改善し、ツール学習の普及を促進するためにモデルをトレーニングする方法についても説明します。
以前の研究では体系的なツール学習評価が欠如していたことを考慮して、研究者らは 17 の代表的なツールを使用して実験を実施し、ツールを巧みに活用する際の現在の基本モデルのパフォーマンスを実証しました。
この論文は、安全で信頼できるツールの使用の確保、基本モデルを使用したツール作成の実装、パーソナライゼーションの困難な問題の解決など、さらなる研究が必要なツール学習におけるいくつかの未解決の問題について説明して終わります。
参考資料:
https://github.com/OpenBMB/ToolBench
以上が清華大学とその他のオープンソース「ツール学習ベンチマーク」ToolBench、微調整モデル ToolLLaMA のパフォーマンスが ChatGPT を上回るの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ジェマの範囲で言語モデルの内部の仕組みを探る AI言語モデルの複雑さを理解することは、重要な課題です。 包括的なツールキットであるGemma ScopeのGoogleのリリースは、研究者に掘り下げる強力な方法を提供します

ビジネスの成功のロック解除:ビジネスインテリジェンスアナリストになるためのガイド 生データを組織の成長を促進する実用的な洞察に変換することを想像してください。 これはビジネスインテリジェンス(BI)アナリストの力です - GUにおける重要な役割

SQLの変更テーブルステートメント:データベースに列を動的に追加する データ管理では、SQLの適応性が重要です。 その場でデータベース構造を調整する必要がありますか? Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

導入 2人の専門家が重要なプロジェクトで協力している賑やかなオフィスを想像してください。 ビジネスアナリストは、会社の目標に焦点を当て、改善の分野を特定し、市場動向との戦略的整合を確保しています。 シム

Excelデータカウントと分析:カウントとカウントの機能の詳細な説明 特に大規模なデータセットを使用する場合、Excelでは、正確なデータカウントと分析が重要です。 Excelは、これを達成するためにさまざまな機能を提供し、CountおよびCounta関数は、さまざまな条件下でセルの数をカウントするための重要なツールです。両方の機能はセルをカウントするために使用されますが、設計ターゲットは異なるデータ型をターゲットにしています。 CountおよびCounta機能の特定の詳細を掘り下げ、独自の機能と違いを強調し、データ分析に適用する方法を学びましょう。 キーポイントの概要 カウントとcouを理解します

Google Chrome'sAI Revolution:パーソナライズされた効率的なブラウジングエクスペリエンス 人工知能(AI)は私たちの日常生活を急速に変換しており、Google ChromeはWebブラウジングアリーナで料金をリードしています。 この記事では、興奮を探ります

インパクトの再考:四重材のボトムライン 長い間、会話はAIの影響の狭い見方に支配されており、主に利益の最終ラインに焦点を当てています。ただし、より全体的なアプローチは、BUの相互接続性を認識しています

物事はその点に向かって着実に動いています。量子サービスプロバイダーとスタートアップに投資する投資は、業界がその重要性を理解していることを示しています。そして、その価値を示すために、現実世界のユースケースの数が増えています


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

VSCode Windows 64 ビットのダウンロード
Microsoft によって発売された無料で強力な IDE エディター

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

ZendStudio 13.5.1 Mac
強力な PHP 統合開発環境

Dreamweaver Mac版
ビジュアル Web 開発ツール

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。
