ホームページ  >  記事  >  テクノロジー周辺機器  >  完全な自律性に一歩近づいた清華大学と香港大学の新しいクロスタスク自己進化戦略により、エージェントは「経験から学ぶ」ことが可能になります

完全な自律性に一歩近づいた清華大学と香港大学の新しいクロスタスク自己進化戦略により、エージェントは「経験から学ぶ」ことが可能になります

PHPz
PHPz転載
2024-02-07 09:31:141334ブラウズ

「歴史から学ぶことは、浮き沈みを理解するのに役立ちます。」 人類の進歩の歴史は、常に過去の経験を活用し、能力の限界を押し上げる自己進化のプロセスです。私たちは過去の失敗から学び、間違いを修正し、成功体験から学び、効率と有効性を向上させます。この自己進化は人生のあらゆる側面に貫かれています。経験を要約して仕事の問題を解決したり、パターンを使用して天気を予測したりするなど、私たちは過去から学び進化し続けます。

過去の経験から知識をうまく抽出し、それを将来の課題に適用することは、人類の進化への道における重要なマイルストーンです。それでは、人工知能の時代に、AI エージェントは同じことを行うことができるのでしょうか?

近年、GPT や LLaMA などの言語モデルは、複雑なタスクを解決する際に驚くべき機能を実証してきました。ただし、ツールを使用して特定のタスクを解決することはできますが、本質的に過去の成功や失敗からの洞察や学習が不足しています。これは、特定のタスクのみを実行できるロボットのようなもので、現在のタスクではうまく機能しますが、新しい課題に直面したときに過去の経験を役立てることはできません。したがって、知識と経験を蓄積し、新しい状況に適用できるように、これらのモデルをさらに開発する必要があります。記憶と学習のメカニズムを導入することで、これらのモデルをより包括的なインテリジェンスにし、さまざまなタスクや状況に柔軟に対応し、過去の経験からインスピレーションを得ることができるようになります。これにより、言語モデルがより強力で信頼性の高いものになり、人工知能の開発の進歩に役立ちます。

この問題に対応して、清華大学、香港大学、人民大学、および Wall-Facing Intelligence の共同チームは最近、 まったく新しい自己進化を提案しました。エージェントの戦略: 探索 - 統合 - エクスプロイト (調査 - 統合 - エクスプロイト、ICE) 。タスク全体にわたる自己進化を通じて、AI エージェントの適応性と柔軟性を向上させることを目的としています。これにより、新しいタスクを処理する際のエージェントの効率と有効性が向上するだけでなく、エージェントの基本モデルの機能に対する要求も大幅に削減されます。

この戦略の出現は、実際、インテリジェント エージェントの自己進化に新たな章を開き、完全自律型エージェントの実現に向けて新たな一歩を踏み出したことになります。

完全な自律性に一歩近づいた清華大学と香港大学の新しいクロスタスク自己進化戦略により、エージェントは「経験から学ぶ」ことが可能になります

  • 論文のタイトル: 調査、統合、活用: タスク間エージェントの自己進化のための一般的な戦略
  • 紙のリンク: https://arxiv.org/abs/2401.13996

完全な自律性に一歩近づいた清華大学と香港大学の新しいクロスタスク自己進化戦略により、エージェントは「経験から学ぶ」ことが可能になります 自己進化を実現するためのエージェント タスク間でのエクスペリエンスの転送の概要

エージェント自己進化の 2 つの側面: 計画と実行

# 現在の複雑なインテリジェント エージェントは、主にタスク計画とタスク実行の 2 つの側面に分けることができます。タスク計画の観点から、エージェントはユーザーのニーズを分解し、論理的推論を通じて詳細な目標戦略を開発します。タスクの実行に関しては、エージェントはさまざまなツールを使用して環境と対話し、対応するサブ目標を完了します。

過去の経験の再利用をより効果的に促進するために、著者はこの論文でまず進化戦略を 2 つの側面に分離します。具体的には、XAgent エージェント アーキテクチャにおけるツリー タスク プランニング構造と ReACT チェーン ツールの実行を例として、ICE 戦略の実装方法を詳しく紹介します。

#エージェントのミッション計画における ICE の自己進化戦略完全な自律性に一歩近づいた清華大学と香港大学の新しいクロスタスク自己進化戦略により、エージェントは「経験から学ぶ」ことが可能になります

ミッション計画において、自己進化は次の 3 つに分類されます。 ICE ステージへ:

  • 探索フェーズでは、エージェントはツリー状のタスク計画構造全体を記録し、同時に各サブ目標の実行ステータスを動的に検出します。 固定化フェーズでは、エージェントはまず失敗したターゲット ノードをすべて削除し、次に正常に完了した各目標に対して、エージェントはサブツリーのすべてのリーフ ノードを目標とともに配置して
  • 計画チェーン (ワークフロー);利用フェーズでは、これらの計画チェーンは、新しいタスク目標を分解および改良するための参照として使用され、活用されます。これらの過去の成功体験。
  • #エージェント タスク実行の ICE 自己進化戦略

完全な自律性に一歩近づいた清華大学と香港大学の新しいクロスタスク自己進化戦略により、エージェントは「経験から学ぶ」ことが可能になりますタスク実行の自己進化戦略はまだ分かれています

#探索ステージでは、エージェントは各ターゲットによって実行されるツール呼び出しチェーンを動的に記録し、潜在的な問題の単純な検出を実行します。分類;

  • 固定化段階では、ツール呼び出しチェーンはオートマトンのような
  • パイプライン構造
  • ##に変換されます。 #, ツール呼び出し シーケンスと呼び出しの間の転送関係が修正され、繰り返しの呼び出しが削除され、分岐ロジックが追加されるなど、オートマトンの自動実行プロセスがより堅牢になります; 利用フェーズでは、同様の目的のために、エージェントは実行パイプラインを直接自動化し、タスク完了の効率を向上させます。
  • XAgent フレームワークでの自己進化実験

著者は、提案された ICE 自己進化戦略を XAgent フレームワークでテストしました。そして、次の 4 つの調査結果を要約しました。

ICE 戦略では、モデル呼び出しの数を大幅に削減できるため、効率が向上し、オーバーヘッドが削減されます。

  • 保存されたエクスペリエンスは、ICE 戦略の下で高い再利用率を示し、ICE の有効性を証明しています。
  • ICE 戦略は、計画された修理の数を減らしながら、サブタスクの完了率を向上させることができます。
  • 過去の経験の恩恵により、タスク実行のためのモデル機能の要件は大幅に軽減されました。具体的には、GPT-3.5 を以前のタスク計画および実行経験と組み合わせて使用​​すると、その効果は GPT-4 に直接匹敵する可能性があります。
  • #エクスペリエンス ストレージを探索して固めた後、さまざまなエージェント ICE 戦略の下でのテスト セット タスクのパフォーマンス

同時に、著者は追加のアブレーション実験も実施しました。ストレージ エクスペリエンスが徐々に増加するにつれて、エージェントのパフォーマンスはますます向上しますか?答えは「はい」です。ゼロ エクスペリエンス、半分のエクスペリエンス、完全なエクスペリエンスに至ると、基本モデルへの呼び出し数が徐々に減少する一方で、サブタスクの完了数が徐々に増加し、再利用率も増加します。これは、過去の経験が多ければ多いほど、エージェントの実行をより適切に促進し、スケール効果を達成できることを示しています。 完全な自律性に一歩近づいた清華大学と香港大学の新しいクロスタスク自己進化戦略により、エージェントは「経験から学ぶ」ことが可能になります

さまざまな経験蓄積量の下でのテストセットタスクパフォ​​ーマンスのアブレーション実験結果の統計

結論完全な自律性に一歩近づいた清華大学と香港大学の新しいクロスタスク自己進化戦略により、エージェントは「経験から学ぶ」ことが可能になります

誰もがインテリジェント エージェントを導入できる世界を想像してください。エージェントが個々のタスクを実行するにつれて成功体験の数が蓄積され続け、ユーザーはこれらの体験をクラウドやコミュニティで使用することもできます。これらの経験は、インテリジェント エージェントが継続的に能力を獲得し、進化し、徐々に完全な自律性を達成することを促します。そんな時代にまた一歩近づいています。

以上が完全な自律性に一歩近づいた清華大学と香港大学の新しいクロスタスク自己進化戦略により、エージェントは「経験から学ぶ」ことが可能になりますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。