ホームページ  >  記事  >  テクノロジー周辺機器  >  Fudan NLP チームは、AI エージェントの現状と将来の概要を 1 つの記事で提供する、80 ページにわたる大規模モデル エージェントの概要を発表しました。

Fudan NLP チームは、AI エージェントの現状と将来の概要を 1 つの記事で提供する、80 ページにわたる大規模モデル エージェントの概要を発表しました。

WBOY
WBOY転載
2023-09-23 09:01:011292ブラウズ
最近、復丹大学自然言語処理チーム (FudanNLP) は、LLM ベースのエージェントに関するレビュー論文を発表しました。全文は 86 ページで、600 以上の参考文献があります。 AIエージェントの歴史から始まり、LLMベースのエージェントの背景、構成、適用シナリオ、期待されるエージェント社会など、知的エージェントの現状を大規模な言語モデルに基づいて包括的に整理した。 。同時に、著者らは、関連分野の将来の開発動向にとって非常に価値のある、エージェントに関連する将来の未解決の問題についても議論しました。

Fudan NLP チームは、AI エージェントの現状と将来の概要を 1 つの記事で提供する、80 ページにわたる大規模モデル エージェントの概要を発表しました。

  • 論文リンク: https://arxiv.org/pdf/2309.07864.pdf
  • LLM -ベースのエージェントペーパーリスト: https://github.com/WooooDyy/LLM-Agent-Paper-List

チームメンバーも該当論文には「一文要約」が追加されます スター倉庫へようこそ。

研究の背景

研究者は長年にわたり、人間のレベルと同等、あるいはそれを超える汎用人工知能 (AGI)。 1950 年代にはすでに、アラン チューリングは「知性」の概念を人工実体に拡張し、有名なチューリング テストを提案しました。これらの人工知能エンティティは、エージェント (エージェント*) と呼ばれることがよくあります。 「エージェント」の概念は哲学に由来し、欲望、信念、意図、および行動を起こす能力を持つ存在を指します。人工知能の分野では、この用語に新しい意味が与えられています。
自律性、反応性、積極性、社交性の特徴を持つ知的エンティティ

*エージェントという用語の中国語訳については統一見解がありません。一部の学者はエージェント、アクター、エージェント、またはインテリジェントエージェントと訳しています。記事に登場する「エージェント」と「インテリジェント エージェント」は両方ともエージェントを指します。
それ以来、エージェントの設計は人工知能コミュニティの焦点となってきました。ただし、これまでの研究は主に、象徴的な推論や特定のタスク (チェス、囲碁など) の習得など、エージェントの特定の能力を強化することに焦点を当てていました。これらの研究は、知識記憶、長期計画、効果的な一般化、効率的な対話など、モデルに固有の一般的な機能の開発を無視しながら、アルゴリズムの設計とトレーニング戦略に重点を置いています。
モデルの固有の機能を強化することが、インテリジェント エージェントのさらなる開発を促進する重要な要素であることがわかりました。
#大規模言語モデル (LLM) の出現は、インテリジェント エージェントのさらなる開発に希望をもたらします。 NLP から AGI への開発ルートを、コーパス、インターネット、知覚、具体化、社会的属性の 5 つのレベルに分けると、現在の大規模言語モデルは、インターネット規模のテキスト入出力を備えた第 2 レベルに到達しています。これに基づいて、LLM ベースのエージェントに知覚スペースとアクション スペースが与えられると、エージェントは第 3 レベルと第 4 レベルに到達します。さらに、複数のエージェントが対話および協力して、より複雑なタスクを解決したり、現実世界の社会的行動を反映したりすると、第 5 レベルであるエージェント社会に到達する可能性があります。
著者らは、人間も参加できる知的エージェントで構成された調和のとれた社会を構想しています。 『原神』のシーランタン祭りのシーンです。

#エージェントの誕生

祝福を込めて大規模モデルのインテリジェント エージェントはどのようなものになるでしょうか?著者らは、ダーウィンの「適者生存」の法則に触発されて、大規模モデルに基づいたインテリジェント エージェントの一般的なフレームワークを提案しました。人が社会で生き延びたいのであれば、環境に適応することを学ばなければなりません。そのため、認知能力を持ち、外界の変化を認識して対応できる必要があります。同様に、知的エージェントのフレームワークも、制御端末 (Brain)、知覚端末 (Perception)、および動作端末 (Action) の 3 つの部分から構成されます。

    #制御端末
  • : 通常、LLM で構成され、インテリジェント エージェントの中核となります。記憶や知識を保存するだけでなく、情報処理や意思決定などの不可欠な機能も担います。インテリジェントエージェントの一般化と移転可能性を反映して、推論と計画のプロセスを提示し、未知のタスクにうまく対処できます。
  • 知覚終了
  • : インテリジェント エージェントの知覚空間を純粋なテキストから拡張して、テキスト、視覚、聴覚などのマルチモーダル フィールドを含めます。周囲環境からの情報をより効果的に取得し、活用します。
  • アクション面
  • : 通常のテキスト出力に加えて、エージェントにはツールを具体化して使用する機能も与えられるため、環境の変化によりよく適応できます。フィードバックは環境と相互作用し、環境を形作ることもあります。
## LLM-BASED AGENT の概念フレームワークには、制御端末、知覚、アクションエンド (Action) ## の 3 つのコンポーネントが含まれています。

著者は、例を使用して LLM ベースのエージェントのワークフローを説明します。人間が雨が降るかどうか尋ねると、知覚端 (Perception) は指示を出します。 LLM が理解できる表現に変換されます。そして、制御端末(ブレイン)は、現在の天気やインターネット上の天気予報に基づいて推論と行動計画を開始します。最後に、アクションが応答して人間に傘を渡します。

上記のプロセスを繰り返すことにより、インテリジェント エージェントは継続的にフィードバックを取得し、環境と対話することができます。

#制御端末: 脳
制御端末は、インテリジェント デバイスの中核コンポーネントです。エージェント について、著者はその機能を 5 つの側面から紹介します。

自然言語インタラクション:
言語はコミュニケーションの媒体であり、豊富な情報が含まれています。 LLM の強力な自然言語生成および理解機能のおかげで、インテリジェント エージェントは、目標を達成するために、自然言語を通じて複数回にわたり外界と対話できます。具体的には、次の 2 つの側面に分けることができます。

高品質のテキスト生成: 多数の評価実験により、LLM はスムーズで、滑らかなテキストを生成できることが示されています。多様で斬新なテキスト、制御可能なテキスト。個々の言語のパフォーマンスは低いものの、全体的には優れた多言語スキルが得られます。
  • 含意の理解: 直観的に表示されるコンテンツに加えて、言語は話者の意図や好みなどの情報も伝えることがあります。これは、エージェントがより効率的に通信し、協力するのに役立つことを意味しており、大規模なモデルはすでにこの点での可能性を示しています。

知識:
コーパスの大規模なバッチに基づいてトレーニングされた LLM は、大量の知識を保存する能力を備えています。言語知識に加えて、常識知識と専門スキル知識も LLM ベースのエージェントの重要な要素です。
LLM 自体には依然として古い知識や幻覚などの問題がありますが、既存の研究の中には知識の編集や外部の知識ベースの呼び出しによってある程度の結果を得ることができるものもあります。

メモリ:
この記事のフレームワークでは、メモリ モジュール (メモリ) にエージェントの過去の観察、思考、およびアクション シーケンスが保存されます。特定の記憶メカニズムを通じて、エージェントは以前の戦略を効果的に反映して適用することができ、過去の経験を利用して不慣れな環境に適応できるようになります。
メモリ機能を向上させるために通常使用される方法は 3 つあります。

拡張バックボーン アーキテクチャ長さ制限: トランスフォーマーに固有のシーケンスの長さ制限の問題に対処するために改善が行われました。
  • 要約: 記憶を要約して、エージェントが記憶から重要な詳細を抽出する能力を強化します。
  • 圧縮メモリ (圧縮): ベクトルまたは適切なデータ構造を使用してメモリを圧縮することにより、メモリの検索効率を向上させることができます。
#さらに、メモリの取得方法も非常に重要です。適切なコンテンツを取得することによってのみ、エージェントは最も関連性の高い正確な情報にアクセスできます。 。

推論と計画:
推論能力 (推論) は、インテリジェント エージェントが意思決定や分析などの複雑なタスクを実行するために重要です。 LLM に特有の、思考連鎖 (CoT) に代表される一連のプロンプト手法です。計画は、大きな課題に直面したときによく使用される戦略です。これは、エージェントが思考を整理し、目標を設定し、それらの目標を達成するための手順を特定するのに役立ちます。特定の実装では、計画には次の 2 つのステップが含まれます。

計画の策定: エージェントは、複雑なタスクをより管理しやすいサブタスクに分割します。例: 1 回の分解とその後の順番での実行、段階的な計画と実行、マルチパスの計画と最適なパスの選択など。専門知識が必要な一部のシナリオでは、エージェントをドメイン固有の Planner モジュールと統合して機能を強化できます。
  • 計画の振り返り: 計画を立てた後、それを振り返り、その長所と短所を評価できます。この種の反映は一般に 3 つの側面から生じます: 内部フィードバック メカニズムの使用、人間との対話からのフィードバックの取得、環境からのフィードバックの取得。

移行可能性と一般化:
世界の知識を持つ LLM は、インテリジェントなエージェントに強力な移行機能と一般化機能を提供します。優れたエージェントは静的な知識ベースではありませんが、動的な学習機能も備えている必要があります。

未知のタスクの一般化: モデルの規模に応じてトレーニング データの増加に伴い、未知のタスクを解決する驚くべき能力を備えた LLM が登場しました。命令に従って微調整された大規模なモデルは、ゼロショット テストで優れたパフォーマンスを発揮し、多くのタスクでエキスパート モデルと同等の結果を達成します。
  • コンテキスト内学習: 大規模なモデルは、コンテキスト内の少数の例から類推して学習できるだけでなく、この機能を他のマルチモーダル シーンにも拡張できます。 text. 現実世界でのエージェント アプリケーションにさらなる可能性を提供します。
  • 継続的学習 (継続的学習): 継続的学習の主な課題は壊滅的な忘却です。つまり、モデルが新しいタスクを学習すると、過去のタスクの知識が簡単に失われます。特殊な領域のインテリジェント エージェントは、一般的な領域の知識を失わないようにする必要があります。

  • # 知覚の終点: 知覚

    人間は複数の要素を介してモード ダイナミックな方法で世界を認識するため、研究者は LLM ベースのエージェントに対して同じ期待を持っています。マルチモーダルな認識により、エージェントの作業環境に対する理解を深め、その汎用性を大幅に向上させることができます。

    テキスト入力: LLM の最も基本的な機能なので、ここでは詳しく説明しません。

    視覚入力: LLM 自体には視覚認識機能がなく、個別のテキスト コンテンツのみを理解できます。また、視覚入力には通常、オブジェクトのプロパティ、空間関係、シーンのレイアウトなど、世界に関する多くの情報が含まれています。一般的な方法は次のとおりです。

    • 視覚入力を対応するテキスト説明に変換します (画像キャプション): LLM が直接理解でき、解釈可能性が高くなります。
    • 視覚情報をエンコードして表現します。ビジュアルベーシックモデル LLM のパラダイムを使用して認識モジュールを形成し、アライメント操作を通じてモデルがさまざまなモダリティの内容を理解できるようにします。エンドツーエンド方式のトレインで実行されます。

    聴覚入力: 聴覚も人間の知覚の重要な部分です。 LLM は優れたツール呼び出し機能を備えているため、エージェントが LLM を制御ハブとして使用し、既存のツール セットまたはエキスパート モデルをカスケード方式で呼び出して音声情報を認識できるというのが直感的なアイデアです。さらに、オーディオはスペクトログラムを通じて視覚的に表現することもできます。スペクトログラムは 2D 情報を表示するための平面画像として使用できるため、一部の視覚処理方法を音声フィールドに移すことができます。

    その他の入力: 現実世界には、テキスト、視覚、聴覚だけではない情報がたくさんあります。著者らは、将来、インテリジェントエージェントが触覚、嗅覚、その他の器官などのより豊富な認識モジュールを備え、対象物のより豊かな属性を取得できるようになることを期待している。同時に、エージェントは周囲の環境の温度、湿度、明るさを明確に認識し、より環境を意識した行動を取ることもできます。

    さらに、エージェントは、LIDAR、GPS、慣性測定ユニットなどの成熟した認識モジュールを使用して、より広範な環境全体の認識を導入することもできます。

    #アクション終了: アクション
    ##脳が分析と意思決定を行った後、エージェント 環境を適応または変更するためにもアクションが必要です:

    テキスト出力:
    LLM の最も基本的な機能なので、詳細については説明しません。ここ。

    ツールの使用法:
    LLM は優れた知識の蓄積と専門的能力を備えていますが、特定の問題、幻覚、および一連の課題に直面したときにも堅牢性が生じる可能性があります。 。同時に、ツールはユーザーの能力の拡張として、専門性、事実性、解釈可能性などの側面で支援を提供できます。たとえば、計算機を使用して数学の問題を解決したり、検索エンジンを使用してリアルタイムの情報を検索したりできます。
    さらに、ツールはインテリジェント エージェントのアクション スペースを拡張することもできます。たとえば、音声生成や画像生成などのエキスパート モデルを呼び出すことで、マルチモーダル アクションを取得できます。したがって、エージェントをどのようにして優れたツールユーザーに成長させるか、つまりツールの効果的な使い方を学ぶことが非常に重要であり、将来性のある方向性となります。
    現在、ツール学習の主な方法としては、デモンストレーションから学習する方法とフィードバックから学習する方法があります。さらに、メタ学習、コース学習などを使用して、さまざまなツールを使用する際の一般化機能をエージェントに提供することもできます。さらに一歩進んで、インテリジェント エージェントはツールを「自給自足」で作成する方法をさらに学習し、それによって自律性と独立性を高めることができます。

    具体化されたアクション:
    具体化とは、エージェントとエージェントの間の対話中に環境を理解し、変換し、自身の状態を更新するエージェントの能力を指します。環境。身体化されたアクションは、仮想知能と物理的現実の間の架け橋と見なされます。

    従来の強化学習ベースのエージェントは、サンプル効率、一般化、複雑な問題の推論に限界がありますが、LLM ベースのエージェントは、大規模なモデルを導入することで機能を強化します 本質的な知識により、身体化されたエージェントが可能になります人間のように物理的環境を積極的に認識し、影響を与えること。タスクにおけるエージェントの自律性の程度、またはアクションの複雑さに応じて、次のアトミック アクションが存在する可能性があります。

    ナビゲーションでは、インテリジェント エージェントがタスクの目標に従って位置を変更し、環境情報に従ってステータスを更新する必要があります。
    • これらのアトミック アクションを組み合わせることで、エージェントはより複雑なタスクを完了できます。たとえば、「キッチンにあるスイカはボウルより大きいですか?」などの QA タスクを具体化します。この問題を解決するには、エージェントはキッチンに移動し、両方のサイズを観察した後、答えを導き出す必要があります。
    • 物理世界のハードウェアのコストが高く、具体化されたデータ セットが不足しているため、具体化されたアクションに関する現在の研究は依然として主にゲーム プラットフォーム「Minecraft」に焦点を当てています。仮想サンドボックス環境。したがって、著者らは、より現実に近いタスクパラダイムと評価基準を期待している一方で、関連するデータセットの効率的な構築についてさらなる探求も必要としています。

    実際のエージェント: 多様なアプリケーション シナリオ

    現在、LLM ベースのエージェントには、印象的な多様性と強力なパフォーマンスを実証しました。 AutoGPT、MetaGPT、CAMEL、GPT Engineer などのよく知られたアプリケーションの例が、前例のない速度でブームになっています。

    特定のアプリケーションを紹介する前に、著者らは Agent in Practice の設計原則について説明しました:

    1 。ユーザーは日常業務や反復労働から解放され、人間の仕事のプレッシャーが軽減され、タスク解決の効率が向上します;
    2. ユーザーは明示的な低レベルの指示を発行する必要がなくなり、完全に自律的に分析できるようになります。 、計画、問題解決;

    3. ユーザーの手を解放した後は、脳を解放してみてください: 最先端の科学分野の可能性を最大限に発揮し、革新的で探索的な作業を完了します。

    これに基づいて、エージェントのアプリケーションには 3 つのパラダイムがあります:
    ## 3 つのアプリケーションベースのエージェントのパラダイム: シングル エージェント、マルチ エージェント、および人間とコンピューターの対話。

    Fudan NLP チームは、AI エージェントの現状と将来の概要を 1 つの記事で提供する、80 ページにわたる大規模モデル エージェントの概要を発表しました。

    単一エージェントのシナリオ
    人間の自然言語コマンドを受け入れ、日常業務を実行できるインテリジェント エージェントは現在ユーザーに好まれており、実用的価値が高くなります。著者らはまず、その多様なアプリケーション シナリオと、単一のインテリジェント エージェントのアプリケーション シナリオにおける対応する機能について詳しく説明しました。

    この記事では、単一のインテリジェント エージェントのアプリケーションを次の 3 つのレベルに分けます。
    # 単一プロキシ アプリケーションのシナリオ: タスク指向、革新的指向、ライフサイクル指向。

    • タスク指向展開では、エージェントは人間のユーザーが基本的な日常タスクを処理するのを支援します。基本的なコマンドの理解、タスクの分解、環境と対話する能力が必要です。具体的には、既存のタスク タイプに応じて、エージェントの実際のアプリケーションをシミュレートされたネットワーク環境とシミュレートされた生活シナリオに分けることができます。
    • イノベーション指向の展開では、エージェントは最先端の科学分野における独立した調査の可能性を実証できます。固有の複雑さと専門分野からのトレーニング データの欠如がインテリジェント エージェントの構築を妨げていますが、化学、材料、コンピューターなどの分野ではすでに多くの研究が進歩しています。
    • ライフサイクル指向の展開では、エージェントはオープンワールドで継続的に探索、学習、新しいスキルを使用し、長期間生存することができます。このセクションでは、著者はゲーム「Minecraft」を例として取り上げます。ゲーム内のサバイバル チャレンジは現実世界の縮図と見なすことができるため、多くの研究者がエージェントの包括的な機能を開発およびテストするための独自のプラットフォームとしてゲームを使用してきました。

    マルチエージェントのシナリオ

    1986 年に遡ります。マービン・ミンスキーは前向きな予測をしました。 『The Society of Mind』の中で、彼は知性の新しい理論を提案し、知性は多くのより小さな機能固有のエージェントの相互作用から生じると主張した。たとえば、一部のエージェントはパターンの識別を担当する一方、他のエージェントは意思決定や解決策の生成を担当する場合があります。

    このアイデアは、分散型人工知能の台頭によって具体的に実装されました。マルチエージェント システムは、主な研究課題の 1 つとして、エージェントが問題を解決するためにどのように効果的に調整および協力できるかに主に焦点を当てています。この記事の著者は、マルチエージェント間のインタラクションを次の 2 つの形式に分類しています:

    Fudan NLP チームは、AI エージェントの現状と将来の概要を 1 つの記事で提供する、80 ページにわたる大規模モデル エージェントの概要を発表しました。

    # 、対立的インタラクション。

    協力的な対話: 実際のアプリケーションで最も広く導入されているタイプとして、協力的なエージェント システムはタスクの効率を効果的に向上させることができます。共同して意思決定を改善します。具体的には、さまざまな協力形態に応じて、著者は協力的相互作用を無秩序な協力と秩序ある協力に細分化します。
    • すべてのエージェントが自分の意見や意見を自由に表現し、非連続的な方法で協力する場合、それは無秩序な協力と呼ばれます。
    • すべてのエージェントが、流れ作業の形で自分の意見を 1 つずつ表明するなど、特定のルールに従う場合、協力プロセス全体が秩序正しくなり、これを秩序ある協力と呼びます。
    敵対的な対話: インテリジェント エージェントは報復的な方法で対話します。競争、交渉、議論を通じて、エージェントは当初の誤った可能性のある信念を放棄し、自らの行動や推論プロセスについて有意義な反省を行い、最終的にはシステム全体の応答品質の向上につながります。

    #人間とコンピューターの対話シナリオ

    名前が示すように、人間とエージェントの対話、インテリジェントエージェントは人間と協力してタスクを完了します。エージェントの動的な学習能力はコミュニケーションによってサポートされる必要がある一方で、現在のエージェントシステムは解釈性がまだ不十分であり、安全性や合法性などに問題がある可能性があるため、人間の関与が必要です。そして監督。

    著者は、論文の中でヒューマン エージェントのインタラクションを次の 2 つのモードに分けています。
    には、ヒューマンコンピューターの相互作用シナリオに2つのモードがあります。インストラクターと実行モードvs.平等なパートナーシップモード。
    • インストラクター兼実行者モード: 人間がインストラクターとして機能し、指示とフィードバックを与えます。エージェントは、指示に従って段階的に実行者として機能します。調整して最適化します。このモデルは、教育、医療、ビジネスなどの分野で広く使用されています。
    • イコール パートナーシップ モード: 一部の研究では、エージェントが人間とのコミュニケーションにおいて共感を示したり、平等な中間としてタスクの実行に参加したりできることが観察されています。知能エージェントは日常生活への応用の可能性を示しており、将来的には人間社会に組み込まれることが期待されています。

    エージェント社会: 人格から社会性へ

    # 長い間サンドボックス ゲーム「ザ・シムズ」から「メタバース」に至るまで、研究者たちは「インタラクティブな人工社会」の構築を夢見てきましたが、人々による模擬社会の定義は、環境環境の中で生活し、相互作用する個人として要約できます。

    記事の中で、著者は図を使用してエージェント社会の概念的枠組みを説明しています。
    # 代理店社会の概念的枠組みは、代理店と環境という 2 つの主要な部分に分かれています。

    このフレームには、

    # が表示されます。
    1. ##左側の部分:
      個人レベルでは、エージェントは計画、推論、考察など、内面化されたさまざまな行動を示します。さらに、エージェントは、認知、感情、性格の側面にわたる本質的な性格特性を示します。
    2. 中間部分:
      単一のエージェントは、他の個々のエージェントとグループを形成して、共同で協力や他のグループ行動 (共同協力など) を実証できます。
    3. 右側の部分:
      環境は、仮想サンドボックス環境または実際の物理世界の形式をとることができます。環境の要素には、人間と利用可能なさまざまなリソースが含まれます。単一のエージェントの場合、他のエージェントも環境の一部となります。
    4. 全体的なインタラクション:
      エージェントは、外部環境を感知してアクションを実行することで、インタラクション プロセス全体に積極的に参加します。

    ##エージェントの社会的行動と性格

    この記事では、外部の行動と内部の性格の観点から社会におけるエージェントのパフォーマンスを検証しています:
    #社会的行動:
    社会的な観点から出発点出発点として、行動は個人と集団の 2 つのレベルに分けることができます。

    個人の行動は、エージェントの運用と開発の基礎を形成します。自体。これには、知覚によって表される入力、アクションによって表される出力、およびエージェント自身の内面化された行動が含まれます。
    • 群集行動とは、2 人以上のエージェントが自発的に対話するときに発生する行動を指します。これには、協力に代表されるポジティブな行動、対立に代表されるネガティブな行動、そして群れに従う、監視するなどの中立的な行動が含まれます。
    個性:
    認知、感情、個性を含みます。人間が社会化のプロセスを通じて徐々に特性を発達させるのと同じように、エージェントも、グループや環境との相互作用を通じて徐々に人格を形成する、いわゆる「人間のような知性」を示します。

    認知能力: エージェントが知識を獲得し、理解するプロセスをカバーします。研究によると、LLM ベースのエージェントは、いくつかの側面で人間のようなレベルを実証できます。熟慮と知性の。
    • 心の知能指数: 喜び、怒り、悲しみ、喜びなどの主観的な感情や感情状態、そして同情や共感を示す能力が含まれます。
    • 性格描写: LLM の性格特性を理解し分析するために、研究者はビッグ 5 性格テストや MBTI テストなどの成熟した評価方法を使用して、性格の多様性を調査してきました。そして複雑さ。
    # シミュレーションされた社会的運用環境

    #エージェント社会は、独立した個人で構成されるだけでなく、彼らが相互作用する環境も含みます。環境は、エージェントがどのように認識、行動、対話するかに影響を与えます。同様に、エージェントも自らの行動と決定を通じて環境の状態を変化させます。個々のエージェントの場合、環境には他の自律エージェント、人間、および利用可能なリソースが含まれます。

    ここでは、著者は 3 種類の環境を調査します:

    テキストベースの環境:
    LLM は入出力形式として主に言語に依存するため、テキストベースの環境はエージェントにとって最も自然なオペレーティング プラットフォームです。社会現象と相互作用は言葉を通じて説明され、テキスト環境は意味論的知識と背景知識を提供します。エージェントはそのようなテキストの世界に存在し、テキストのリソースに依存して認識し、推論し、行動します。

    仮想サンドボックス環境:
    コンピュータ分野では、サンドボックスとは、ソフトウェアのテストやウイルス分析によく使用される、制御された隔離された環境を指します。エージェント社会の仮想サンドボックス環境は、社会的インタラクションと行動シミュレーションをシミュレートするためのプラットフォームとして機能します。その主な機能は次のとおりです。シンプルな 2D グラフィカル インターフェイスと複雑な 3D モデリングを使用して、世界を表示し、シミュレートされた社会のあらゆる側面を直感的な方法で表現します。

    スケーラビリティ: さまざまなシナリオ (Web、ゲームなど) を構築して展開してさまざまな実験を行うことができ、エージェントが探索できる広いスペースを提供します。

    • 実際の物理環境:
      物理環境は、エージェントが観察する実際のオブジェクトと空間で構成される具体的な環境です。そしてアクション。この環境では、豊富な感覚入力 (視覚、聴覚、空間) が導入されます。仮想環境とは異なり、物理空間ではエージェントの動作に対してより多くの要求が課されます。つまり、エージェントは物理環境に適応でき、実行可能なモーション コントロールを生成する必要があります。

      著者は、物理環境の複雑さを説明するために例を挙げました: 工場内でロボット アームを操作するインテリジェント エージェントを想像してください。ロボット アームを操作するとき、異なる材質の物体の損傷を避けるには力が必要であり、さらに、エージェントは物理的なワークスペース内を移動し、障害物を回避してロボット アームの移動軌道を最適化するために、時間内に移動経路を調整する必要があります。

      #これらの要件により、物理環境におけるエージェントの複雑さと課題が増大します。

      #シミュレーション、開始!

      #記事の中で、著者らは、模擬社会はオープンで永続的で状況に応じて組織化されている必要があると考えています。開放性はエージェントがシミュレーションされた社会に自律的に出入りすることを可能にします;永続性は社会が時間の経過とともに発展する一貫した軌道を持つことを意味します;文脈性は特定の環境における主体の存在と動作を強調します;組織化はシミュレーション社会が物理的な世界を持つことを保証します-ルールや制限など。

      模擬社会の重要性については、スタンフォード大学の生成エージェントタウンがすべての人に鮮明な例を提供しています。エージェント社会は、次のようなグループインテリジェンスの能力の境界を探求するために使用できます。エージェントが共同でバレンタイン デー パーティーを企画したり、ソーシャル ネットワークをシミュレートしてコミュニケーション現象を観察するなど、社会科学研究を加速するためにも使用できます。さらに、倫理的な意思決定シナリオをシミュレーションすることでエージェントの背後にある価値観を探ったり、政策が社会に与える影響をシミュレーションすることで意思決定を支援したりする研究も行われています。

      さらに、著者は、これらのシミュレーションには、有害な社会現象、固定観念と偏見、プライバシーとセキュリティの問題、その他のリスクを含むがこれらに限定されない特定のリスクも伴う可能性があると指摘しています。 -依存性と大人の中毒性。

      未解決の質問

      最後にこの論文では、著者はいくつかの将来を見据えた未解決の質問についても議論し、読者に次のことについて考えるためのインスピレーションを提供しています。モデルはお互いを促進し、一緒に開発しますか?
      大規模モデルは、言語理解、意思決定、汎化能力において強力な可能性を示しており、エージェント構築プロセスにおいて重要な役割を果たしています。エージェントの進歩により、大規模モデルに対する要件もさらに高まっています。

      LLM ベースのエージェントはどのような課題や懸念をもたらすのでしょうか? インテリジェント エージェントを本当に実装できるかどうかには、現実世界への危害を避けるための厳密なセキュリティ評価が必要です。著者は、違法虐待、失業のリスク、人間の幸福への影響など、さらに多くの潜在的な脅威を要約しています。

      #スケールアップはどのような機会と課題をもたらすのでしょうか? シミュレーション社会では、個人の数を増やすことでシミュレーションの信頼性と信頼性を大幅に向上させることができます。ただし、エージェントの数が増加するにつれて、通信およびメッセージ配布の問題は非常に複雑になり、情報の歪曲、誤解、または幻覚によってシミュレーション システム全体の効率が大幅に低下します。

      LLM ベースのエージェントが AGI への適切なパスであるかどうかについて、インターネット上で議論があります。
      研究者の中には、GPT-4 に代表される大規模モデルは十分なコーパスでトレーニングされており、これに基づいて構築されたエージェントは AGI への扉を開く鍵となる可能性があると信じている人もいます。しかし、他の研究者は、自己回帰言語モデリングは反応するだけなので、本当の知能は示さないと考えています。ワールド モデルなどのより完全なモデリング手法は、AGI につながる可能性があります。

      #群知能の進化。群知能は、多くの人々の意見を収集し、それらを意思決定に変換するプロセスです。 しかし、エージェントの数を増やすだけで真の「知性」は生み出されるのでしょうか?さらに、知的エージェントの社会が「集団思考」や個人の認知バイアスを克服できるようにするために、個々のエージェントをどのように調整すればよいでしょうか?

      サービスとしてのエージェント (AaaS)。
      LLM ベースのエージェントは大規模モデル自体よりも複雑であり、中小企業や個人がローカルに構築するのはより困難であるため、クラウド ベンダーはサービスの形式でインテリジェント エージェントを実装することを検討できます。サービスとしてのエージェント。他のクラウド サービスと同様、AaaS には、ユーザーに高い柔軟性とオンデマンドのセルフサービスを提供する可能性があります。

    以上がFudan NLP チームは、AI エージェントの現状と将来の概要を 1 つの記事で提供する、80 ページにわたる大規模モデル エージェントの概要を発表しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

    声明:
    この記事はjiqizhixin.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。