TaskMatrix.AIの解釈

王林
王林転載
2023-04-28 15:37:061535ブラウズ

ChatGPT は、幅広いオープン ドメイン タスクに関して、非常に強力な対話、コンテキスト学習、およびコード生成機能を実証します。また、そこで得られる常識的な知識によって、ドメイン固有のタスクに関する高レベルのソリューションの概要を生成することもできます。しかし、より強力な学習、理解、生成機能に加えて、ChatGPT は他にどのような問題を解決する必要があるでしょうか?

Microsoft は最近 TaskMatrix.AI をリリースしましたが、これは人工知能エコシステムの別の方向性となる可能性があり、基本モデルを何百万もの API と接続してタスクを完了します。これは Toolformer と chatGPT の組み合わせであり、別の未来になる可能性もありますLLMの場合。

1. 問題

ChatGPT または GPT-4 は、事前トレーニング中に十分なドメイン固有のデータが不足していたり​​、正確な実行が必要なタスクを実行したりするため、一部の専門的なタスクで依然として困難に直面していますエラーが頻繁に発生しますニューラルネットワークの計算において。一方で、ドメイン固有のタスクをうまく実行できる既存のモデルやシステム (シンボリック ベースまたはニューラル ネットワーク ベース) が多数あります。ただし、実装や動作メカニズムが異なるため、基本モデルとは互換性がありません。

さらに、AI の使用例は無限にあり、デジタルの世界だけでなく、物理的な世界でも、写真の加工からスマート ホーム デバイスの制御に至るまで、さまざまなタスクを支援します。想像をはるかに超えています。

したがって、基本モデルを活用してタスク解決策の概要を提案し、その概要内のいくつかのサブタスクを既製のモデルや特別な機能を備えたシステム API と自動的に照合してタスクを完了できるメカニズムが必要です。 。 TaskMatrix.AI はそのような仕組みです。

2. TaskMatrix.AI の概要

TaskMatrix.AI は、基本モデルを既存のモデルおよび API と組み合わせることで、さまざまなタスクを処理します。 TaskMatrix.AI が実行できるタスクは次のとおりです。

  • 人工知能は、さまざまな種類の入力 (テキスト、画像、ビデオ、オーディオ、コードなど) を理解し、コア システムおよび物理タスクとしての基礎となるモデルを作成し、タスクを完了するために API を呼び出すコードを生成します。
  • TaskMatrix.AI には、さまざまなドメインのタスクのリポジトリとして機能する API プラットフォームがあります。このプラットフォーム上のすべての API には一貫したドキュメント形式があるため、基本モデルを簡単に使用でき、開発者は新しい API を簡単に追加できます。
  • TaskMatrix.AI は、特定の機能を備えた新しい API を API プラットフォームに追加することで、新しいタスクを処理するスキルを拡張できるため、強力な生涯学習機能を備えています。
  • TaskMatrix.AI の応答は、タスク解決ロジック (つまり、オペレーション コード) と API の結果の両方が理解できるため、よりわかりやすく解釈されます。

3. TaskMatrix.AI のアーキテクチャ

TaskMatrix.AI の全体的なアーキテクチャとその 4 つの主要コンポーネント:

  • マルチモーダル ダイアログ 基本モデル (MCFM) ): ユーザーと通信し、ユーザーの目標と (マルチモーダル) コンテキストを理解し、特定のタスクを達成するために API に基づいて実行可能コードを生成する責任があります。
  • API プラットフォーム: さまざまな機能を持つ何百万もの API を保存するための統合 API ドキュメント スキーマを提供し、API 開発者または所有者が API を登録、更新、削除できるようにします。
  • API セレクター: ユーザー コマンドに対する MCFM の理解に基づいて、関連する API を推奨します。
  • API executor: 関連する API を呼び出して、生成されたオペレーション コードを実行し、中間および最終の実行結果を返します。

TaskMatrix.AIの解釈

これら 4 つのサブシステムは連携して、TaskMatrix.AI がユーザーの目標を理解し、特定のタスク用の API ベースの実行可能コードを実行できるようにします。 Multimodal Conversation Foundation Model (MCFM) は、ユーザー通信のメイン インターフェイスとして、マルチモーダル コンテキストを理解できます。 API プラットフォームは、統合された API ドキュメント スキーマと数百万の API を保存する場所を提供します。 API セレクターは、MCFM によるユーザーの目標の理解に基づいて、関連する API を推奨します。最後に、API 実行プログラムは、関連する API によって生成されたアクション コードを実行し、結果を返します。さらに、チームはヒューマン フィードバックによる強化学習 (RLHF) テクノロジーを使用して、タスク マトリックス (taskMatrix) を最適化できる報酬モデルをトレーニングしました。この方法は、MCFM および API セレクターが最適な戦略を見つけて、複雑なタスクのパフォーマンスを向上させるのに役立ちます。

3.1 マルチモーダル会話基本モデル (MCFM)

MCFM には、基本モデルのパラメーター、API プラットフォーム、ユーザー指示、およびセッション コンテキストの 4 つの入力があります。これらの入力を使用して、モデルはユーザーの指示を完了するための操作コードを生成します。さらに、理想的なマルチモーダル会話フレームワーク モデル (MCFM) には、次の 4 つの主要な機能が必要です。

  • マルチモーダル入力を取得し、タスク固有の API に基づいて実行可能コードを生成します。
  • ユーザーの指示から特定のタスクを抽出し、ソリューションの概要を提案します。
  • ドキュメントから API の使用方法を理解し、常識と API 使用履歴に基づいて特定のタスクにそれを適合させます。
  • 信頼性と信頼性を確認するための明示的なコード検証メカニズムが含まれています。

ChatGPT と GPT-4 は、MCFM に必要なこれらの機能を備えたモデルの 2 つの例です。ただし、マルチモーダル入力をサポートする GPT-4 の方が適しています。

3.2 API プラットフォーム

API プラットフォームには、API の保存と API 開発者または所有者の管理という 2 つの主な機能があります。 API プラットフォームには、各 API ドキュメントの 5 つの側面を含む統合 API ドキュメント テンプレートがあります。

  • API 名: API の概要を提供し、操作実行者のエントリ ポイントとして機能します。
  • パラメータ リスト: 入力パラメータと戻り値を含む、各パラメータには名前、説明、データ型、およびデフォルト値があります。
  • API の説明: API の機能、仕組み、入出力、潜在的なエラーや例外に関する情報が含まれます。
  • アプリケーション例 (オプション): API の使用方法を示します。
  • 構成ガイダンス (オプション): 複数の API を組み合わせて複雑なユーザー指示を完了する方法についてのガイダンスを提供します。
  • API プラットフォームには、API のストレージと開発者または所有者による API の管理という 2 つの主な機能があります。

API 記述例: ファイルを開く

<code>API Name: open_local_fileAPI Parameter: (file_path:string, model:string="r"). file_path: string, the pathname (absolute or relative to the current working directory) of the file to be opened.mode: string="r", the mode is an optional string that specifies the mode in which the file is opened. It defaults to "r" which means open for reading in text mode. Other common values are "w" for writing. This file will return a File object or OSError.API Description: Open the file and return a corresponding file object. If the file cannot be opened,an OSError is raised.Usage Example: f = open_local_file("example.txt", "w")Composition Instructions: Open should be used before reading and editing. The file should be closed by close_local_file after all operations.</code>

3.3 API セレクター

API セレクターは、タスクに最適な API プラットフォームを識別し、そこから選択するように設計されています。要件 API。意味的に関連する API を取得することで、API プラットフォームが持つ可能性のある大量の API を減らすことができます。 API セレクターはモジュール戦略を使用して、関連する API をすばやく見つけることができます。

モジュール戦略とは、ドメインに基づいて API を特定のパッケージまたはモジュールに編成する方法を指します。各モジュールは、ビジュアル モデル、数学、特定のソフトウェア、物理機器などの特定の領域に対応します。この戦略を使用することで、API セレクターは、MCFM が理解するミッション要件とソリューションの概要に適合する関連 API を迅速に見つけることができます。このアプローチは、API 選択プロセスを簡素化し、意味的に関連する API を API プラットフォームから簡単に取得できるようにします。

3.4 アクション エグゼキュータ

アクション エグゼキュータは、アクション コードを実行するように設計されています。 AI は、アクション エグゼキューターを使用して、単純な HTTP リクエストから、複数の入力パラメーターを必要とする複雑なアルゴリズムや AI モデルに至るまで、さまざまな API を実行します。

アクション実行者には、精度と信頼性を向上させ、生成されたコードの結果が人間によって指定されたタスクを満たしているかどうかを確認するための検証メカニズムも必要です。

3.5 人間中心の強化学習 (RLHF)

TaskMatrix.AI は RLHF を活用して MCFM と API セレクターを強化し、複雑なタスクのパフォーマンスを向上させます。

RLHF は、API フィードバックに基づいてトレーニングされた報酬モデルを使用して、API セレクターを最適化するために特に使用されます:

  • API 開発者へのフィードバック
  • API 開発者は受け取りますAPI が機能しているかどうかに関するフィードバック。

これにより、特定の API を使用するために最も最適化された方法で API ドキュメントを作成できるようになります。

4. TaskMatrix の使用例

TaskMatrix. AI はどのようなタスクの解決に役立つでしょうか?

TaskMatrix. AI は、基礎となるモデル、クラウド サービス、ロボティクス、モノのインターネットの継続的な開発と組み合わせることで、生産性と創造性が向上した未来の世界を生み出す可能性を秘めています。

4.1 視覚化タスク

MCFM のマルチモーダル特性に基づいて、TaskMatrix.AI は視覚化タスクを実行し、言語と画像を入力として受け取ることができます。実行できる視覚的なタスクの一部を以下の図に示します。TaskMatrix.AI が VisualChatGPT 上にどのように構築され、VQA タスクをより適切に処理できるかを示しています。

TaskMatrix.AIの解釈

#画像内のオブジェクトを削除または置換できる画像編集は、TaskMatrix.AI を通じて行うこともできます。画像処理技術またはコンピューター アルゴリズムの画像からスケッチ/深度/ヘッド/ラインを使用して、画像をスケッチ、深度、全体的なネストされたエッジ検出または線に変換できます。 Sketch/Depth/Hed/Line-to-Image は上記の逆で、指定されたオプションに基づいて画像を生成します。

下の画像は、3 つの API 呼び出し (画像 Q&A、画像キャプション、画像内のオブジェクトの置換) を使用して、ソリューション アウトライン上で TaskMatrix.AI がどのように定義され、実行されるかの例を示しています。

TaskMatrix.AIの解釈

4.2 マルチモーダルの長いコンテンツの生成

TaskMatrix.AI のもう 1 つの使用例は、他のモデルの文字制限を取り除くために大規模なマルチモーダル (画像とテキスト) コンテンツを作成することです。

以下の例では、TaskMatrix.AI がユーザーから高レベルの指示を受け取り、適切な応答を生成する様子がわかります。

TaskMatrix.AIの解釈

4.3 オフィス オートメーション

TaskMatrix.AI は、音声を通じて受け取ったユーザーの指示を理解し、タスクを自動化することで、オフィスの作業負荷を簡単に軽減できます。さらに、大規模なトレーニングなしで複雑なソフトウェアを使用できるため、従業員はより緊急性の高いタスクに集中できます。

以下の例は、PowerPoint スライドの作成時に、TaskMatrix.AI と別の API を使用する誰かとの間の会話を示しています。

TaskMatrix.AIの解釈

4.4 クラウド サービスの利用

TaskMatrix.AI はスマート ホーム オートメーションのように機能し、家のすべてのデバイスと通信し、リンクとして機能できます。それらの間の中央接続点。下の画像は、社内のロボット ソフトウェアとハ​​ードウェアを使用して日常のタスクを完了する人間と TaskMatrix.AI との会話を示しています。

TaskMatrix.AIの解釈

さらに、TaskMatrix.AI は他の多くのシナリオでも使用できます。唯一の要件は、メタバースや Web3 へのアクセスなどの API を利用できることです。

5. TaskMatrix.AI の課題

TaskMatrix.AI には、対処し対処する必要のある欠点と制限がまだ数多くあります。たとえば、次のとおりです。 #pairs を作成する必要があります。さまざまなタスクとさまざまな入力を処理し、人間のフィードバックから学習し、常識的な推論を使用して最高の品質でタスクを完了できる基礎となるモデル。 TaskMatrix.AI に必要なモダリティの最小限のセットを決定し、それをトレーニングすることは依然として困難です。

    数百万の API をホストするプラットフォームの作成と維持には、いくつかの課題、API ドキュメントの生成、API の品質保証、API 作成の推奨事項を解決する必要があります。これに基づいて、API プラットフォームは API 開発者にさらなるガイダンスを提供する必要があります。これらのタスクを解決するための新しい API。
  • 何百万もの API を活用してユーザー指示を完了することは、フリー テキストの生成を超えた新たな課題をもたらします。特定のタスクを解決するには、関連する API を MCFM に推奨することが重要です。複雑なタスクの場合、TaskMatrix.AI はすぐには解決策を見つけられない場合があります。代わりに、MCFM はユーザーと対話し、考えられるさまざまなソリューションを試して、最も適切なものを見つける必要があります。
  • セキュリティとプライバシーが問題になる可能性があり、モデルがユーザーの指示を完了し、ユーザーの意図を超えた操作を行っていないことを検証する必要があります。機密データへのアクセスが必要なさまざまなドメインのさまざまな API と統合する場合、データ転送は安全であり、承認されたデータ アクセスを許可する必要があります。
  • TaskMatrix.AI には、個々の開発者が独自のパーソナライズされた AI インターフェイスを構築し、ユーザーが独自のパーソナル アシスタントを持てるようにするパーソナライゼーション戦略が必要です。スケーリングコストを削減し、ユーザーの少数の例に合わせることは課題です。
  • 6. まとめ
ムーアの法則を振り返ると、おそらく「AIの数は18か月ごとに2倍になる」ということが新たな法則となるでしょう。

TaskMatrix.AI は、基盤となるモデルを何百万もの既存のモデルおよびシステム API と統合し、さまざまなデジタルおよび物理的タスクを実行できる「超人工知能」を実現します。 AI プラットフォームとして、人間は大規模なモデルと API を利用して、多数の多様なタスクを実行できます。すべての一般的なタスク (たとえば、PPT スライドの作成や、スケジュールに従って家の掃除のために掃除ロボットを実行するなど) を処理できるため、私たちの生産性と創造性が向上します。

【参考文献】

TaskMatrix.AI: Foundation Models with Millions of APIs を接続してタスクを完了する、https://arxiv.org/pdf/2303.16434.pdf

以上がTaskMatrix.AIの解釈の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。