ホームページ >テクノロジー周辺機器 >AI >ホットペーパーが「ウエストワールド」のプロトタイプを作成:25人のAIエージェントが仮想都市で自由に成長
世界を作ることはできますか?その世界では、ロボットは人間と同じように生活し、働き、社交することができ、人間社会のあらゆる側面を再現します。
この種の想像力は、映画やテレビ作品「ウエストワールド」の設定で完璧に復元されています。あらかじめストーリーラインが組み込まれた多くのロボットがテーマパークに置かれ、彼らは行動することができます。人間と同じように、見たもの、出会った人々、言った言葉を覚えています。毎日、ボットはリセットされ、核となるストーリーラインに戻ります。
「ウエストワールド」の静止画、左側のキャラクターはストーリーがプリインストールされたロボットです。
想像力を広げてください。今日は、ChatGPT のような大規模な言語モデルを西洋世界のマスターに変えたい場合はどうすればよいでしょうか? ?
最近の人気のある論文では、研究者たちは 25 人の AI エージェントが街で生き残る「仮想街」の構築に成功しました。彼らは複雑な行動 (バレンタインデーの主催など) に参加できるだけでなく、パーティー)、人間のロールプレイングよりも現実的です。
「ザ・シムズ」のようなサンドボックス ゲームから認知モデル、仮想環境までおよびその他のアプリケーションにおいて、研究者たちは 40 年以上にわたり、信頼できる人間の行動を実現できるインテリジェント エージェントの作成を構想してきました。これらのシナリオでは、計算駆動エージェントは過去の経験と一貫して動作し、環境に忠実に反応します。人間の行動のこのシミュレーションは、仮想空間とコミュニティを実際の社会現象で満たし、まれではあるが困難な対人関係に対処できるように「人々」を訓練し、社会科学理論をテストし、理論とユーザビリティテスト用のヒューマンプロセッサモデルを作成し、ユビキタスコンピューティングアプリケーションとを提供することができます。ソーシャル ロボットのダイナミクスは、NPC キャラクターがオープンワールドで複雑な人間関係をナビゲートするための基礎を築くこともできます。
しかし、人間の行動範囲は広大かつ複雑です。大規模な言語モデルは、単一時点での人間の行動をシミュレートできますが、長期的な一貫性を確保するには、時間の経過とともに新たな対話、衝突、イベントが発生するにつれて増大する記憶を管理するためのアーキテクチャが汎用エージェントに必要です。フェードアウトしながら、複数のエージェント間で展開されるカスケード的な社会力学にも対処します。
メソッドが長期間にわたって関連するイベントやインタラクションを取得できる場合、これらの記憶を反映し、より高いレベルの推論を一般化して引き出し、これを適用します。このタイプを使用する場合現在および長期的なエージェントの行動にとって意味のある計画と対応を作成するための推論が得られれば、私たちの夢の実現はそう遠くありません。
この新しい論文では、生成モデルを使用して信頼できる人間の行動をシミュレートするエージェントの一種である「生成エージェント」(生成エージェント) を紹介し、信頼できる人間の行動を生成できることを実証します。個人および緊急のグループ行動の評価:
「生成エージェント」の背後には、大規模な言語を使用して関連する記憶を保存、合成、適用できる新しいエージェント アーキテクチャがあります モデルは信頼できる動作を生成します。
たとえば、「生成エージェント」は、朝食が燃えているのを見るとストーブを消します。トイレに誰かがいる場合は外で待ちます。話したい別のエージェントに出会ったら、彼らは外で待ちます。停止します 降りてきてチャットしてください。 「生成エージェント」で満たされた社会は、新たな関係が形成され、情報が拡散し、エージェント間で調整が行われる新たな社会力学によって特徴付けられます。
具体的には、研究者はこの論文でいくつかの重要な詳細を発表しました:
## 研究者の中には、この研究の発表は「大規模な言語モデルが新たなマイルストーンを達成した」ことを意味すると主張する人もいます:
「生成エージェント」の動作とインタラクション
「生成エージェント」をより具体的にするために、この研究では、それらをサンドボックス世界のキャラクターとしてインスタンス化します。
他者や環境とコミュニケーションをとる;
自分が行ったことや観察したことを記憶し、思い出すことができます。
「ジョン リンは、他の人を助けることに積極的なドラッグストアのオーナーです。彼は常に人を助ける方法を探しています。顧客をより知的にします。麻薬を入手する簡単な方法。ジョン リンの妻は大学教授のメイ リンで、音楽理論を研究している息子のエディ リンと同居しています。ジョン リンは家族をとても愛しています。ジョン リンは老夫婦のことを知っています。隣のサム・ムーアとジェニファー・ムーアは数年間..."
アイデンティティが設定された後の次のステップは、エージェントが世界とどのように対話するかです。
サンドボックスの各ステップで、エージェントは現在のアクションを説明する自然言語ステートメントを出力します。たとえば、「イザベラ ロドリゲスは日記を書いています」、「イザベラ ロドリゲスはメールをチェックしています」などのステートメントです。 」など。これらの自然言語は、サンドボックスの世界に影響を与える具体的なアクションに翻訳されます。アクションは、アクションの抽象表現を提供する一連の絵文字としてサンドボックス インターフェイスに表示されます。
これを達成するために、この研究では、アクションを各エージェント アバターの上のダイアログ ボックスに表示される一連の絵文字に変換する言語モデルを採用しています。たとえば、「イザベラ ロドリゲスは日記を書いています」は と表示され、「イザベラ ロドリゲスは電子メールをチェックしています」は と表示されます。さらに、エージェントのアバターをクリックすると、完全な自然言語説明にアクセスできます。
エージェントは自然言語でコミュニケーションを行うため、周囲に他のエージェントがいることに気づくと、そこに行ってチャットするかどうかを考えます。たとえば、イザベラ ロドリゲスとトム モレノは次の選挙について会話しました。
これに加えて、ユーザーはエージェントの役割を指定することもできます。たとえば、エージェントの 1 人をレポーターとして指定すると、ニュース コンテンツについてエージェントに問い合わせることができます。
エージェントと環境との相互作用
スモールビルの町には、カフェ、バー、公園、学校、寮、住宅などの公共の場がたくさんあります。そしてお店。さらに、各パブリック シーンには、家のキッチンやキッチンのコンロなど、独自の機能とオブジェクトも含まれています (図 2)。インテリジェントエージェントの居住空間には、ベッド、テーブル、ワードローブ、棚、バスルーム、キッチンもあります。
エージェントは、Smallville 内を移動したり、建物に出入りしたり、前方に移動したり、別のエージェントに近づくこともできます。エージェントの動きは、Generative Agents のアーキテクチャとサンドボックス ゲーム エンジンによって制御されます。モデルがエージェントに特定の場所に移動するように指示すると、スタディは Smallville 環境内の目的地までの歩行経路を計算し、エージェントは移動を開始します。
さらに、ユーザーとエージェントは、環境内の他のオブジェクトのステータスにも影響を与えることができます。たとえば、エージェントが寝ているときにはベッドが占有されており、エージェントが寝ているときには冷蔵庫が占有されている可能性があります。エージェントは朝食を使い終えました。空です。エンド ユーザーは自然言語を使用してエージェント環境を書き換えることもできます。たとえば、イザベラがバスルームに入ったときにユーザーがシャワーのステータスを水漏れに設定すると、イザベラはリビング ルームから道具を見つけて水漏れの問題を解決しようとします。
エージェントの 1 日の生活
説明から始まり、エージェントは 1 日の生活の計画を立て始めます。サンドボックス世界で時間が経過するにつれて、エージェント同士、世界、そしてエージェントが構築する記憶と相互作用するにつれて、エージェントの行動は徐々に変化します。下の写真は、ドラッグストアのオーナー、ジョン・リンの一日を示しています。
この家族では、ジョン リンが朝 7 時に一番に起きて、歯を磨き、シャワーを浴び、服を着ます。 、朝食を食べて、リビングルームに座って夕食のテーブルでニュースを閲覧します。午前8時、ジョン・リンさんの息子エディ君も起きて授業の準備をした。エディが出発する前に、彼はジョンと会話しました。その内容は次のとおりでした。とメイがソンに尋ねると、ジョンはさっきの会話を思い出し、次のような会話をした
#社会的能力
さらに、「生成エージェント」は社会的行動の出現も示します。 「生成エージェント」は互いに対話することで情報を交換し、Smallville 環境で新しい関係を形成します。これらの社会的行動は自然なものであり、あらかじめ決められているものではありません。例えば、エージェントが相手の存在に気づくと会話が発生し、エージェント間で会話情報が拡散する可能性がある。
いくつかの例を見てみましょう:
情報の配布。エージェント同士がお互いに気づくと、会話を始めることがあります。これを行うと、あるエージェントから別のエージェントに情報が伝播される可能性があります。たとえば、食料品店でのサムとトムの会話の中で、サムはトムに地方選挙への立候補について話します。
その日遅く、サムが去った後、別の情報源から聞いたトムとジョンは、サムが選挙に勝つ可能性について話し合います。
サムの立候補は徐々に街の話題になり、彼を支持する人もいれば、躊躇する人もいます。
人間関係の記憶。時間の経過とともに、町のエージェントは新たな関係を築き、他のエージェントとのやり取りを思い出します。たとえば、サムは最初ラトーヤ・ウィリアムズのことを知りませんでした。ジョンソン・パークを歩いているとき、サムはラトーヤに会い、お互いに自己紹介をしましたが、ラトーヤは写真プロジェクトに取り組んでいることに言及し、「私が取り組んでいるプロジェクトの写真を撮るためにここに来ました。」とその後のやり取りの中でサムは言いました。とラトーヤ このやり取りはこの出来事の記憶を示しており、サムは「ラトーヤ、プロジェクトの調子はどうですか?」と尋ね、ラトーヤは「順調に進んでいます!」と答えました。
調整能力。 Hobbs Cafeのオーナーであるイザベラ・ロドリゲスさんは、2月14日の午後5時から7時までバレンタインデーパーティーを主催する予定だ。この種から、イザベラ ロドリゲスはホッブズ カフェなどで友人や顧客に会ったときに招待状を差し出すようになりました。 13日午後、イザベラさんはカフェの飾りつけを始めた。常連客でイザベラの親友であるマリアがカフェにやって来ます。イザベラはマリアにパーティーの飾りつけを手伝ってほしいと頼み、マリアも同意する。マリアの性格説明では、彼女はクラウスが好きだということです。その夜、マリアは片思いのクラウスをパーティに誘い、クラウスは喜んで承諾する。
バレンタインデー、クラウスとマリアを含む 5 人のエージェントが午後 5 時にホッブズ カフェに現れ、お祭りを楽しみました (図 4)。このシナリオでは、エンドユーザーは、イザベラがパーティーを主催するという当初の意図と、マリアがクラウスに夢中になったことだけを設定します。情報を広めたり、飾り付けをしたり、お互いに誘い合ったり、パーティーに到着したり、パーティーで交流したりする社会的行動は、以下によって開始されます。エージェントのアーキテクチャ。
生成エージェントには、オープンワールドでの行動をガイドするためのフレームワークが必要であり、生成エージェントが対話できるように設計されています。他のエージェントは相互作用し、環境の変化に反応します。
生成エージェントは、現在の環境と過去の経験を入力として受け取り、出力として動作を生成します。生成エージェントのアーキテクチャは、大規模な言語モデルと関連情報を合成および取得するメカニズムを組み合わせて、言語モデルの出力を調整します。
合成および検索メカニズムがなければ、大規模な言語モデルは動作を出力できますが、生成エージェントはエージェントの過去の経験に基づいて応答しない可能性があり、重要な推論を行うことができなくなり、機能しなくなる可能性があります。長期的な一貫性を維持することができます。現在最もパフォーマンスの高いモデル (GPT-4 など) を使用しても、長期的な計画と一貫性に関する課題が残っています。
生成エージェントは保持する必要のある大量のイベントとメモリ ストリームを生成するため、そのアーキテクチャにおける中心的な課題は、エージェントのメモリ内で最も関連性の高いアイテムが確実に取得および合成されるようにすることです。必要なときに必要な部分を調整します。
生成エージェントのアーキテクチャの中心はメモリ ストリーム、つまりエージェントのエクスペリエンスを包括的に記録するデータベースです。エージェントはメモリ ストリームから関連する記録を取得して、エージェントの行動行動を計画し、環境に適切に対応します。各行動は記録されて、より高いレベルの行動ガイダンスを再帰的に合成します。生成エージェント アーキテクチャ内のすべては、自然言語記述の形式で記録および推論されるため、エージェントは大規模な言語モデルの推論機能を利用できます。
現在、この研究では ChatGPT を使用して gpt3.5-turbo バージョンを実装しています。研究チームは、生成エージェントのアーキテクチャ上の基盤 (記憶、計画、反映) は今後も変わらない可能性が高いと予想しています。新しい言語モデル (GPT-4 など) は表現力とパフォーマンスが向上しており、生成エージェントがさらに拡張されます。
記憶と取得
生成エージェントのアーキテクチャは、現在の状況を入力として結合し、言語モデルに渡すメモリ ストリームのサブセットを返します。エージェントがどのように行動するかを決定する際にどのような要素が重要であるかに応じて、検索機能の実装は多数あります。
リフレクション
この研究では、「リフレクション」と呼ばれる 2 番目のタイプの記憶も導入されました。リフレクションは、エージェントによって生成される、より高いレベルのより抽象的な思考です。反映は定期的に生成されます。この研究では、エージェントは、最近のイベントの重要度スコアの合計が特定のしきい値を超えた場合にのみ反映を開始します。
実際、研究で提案された生成エージェントは、日。振り返りの最初のステップは、エージェントが最近の経験に基づいて質問できる質問を特定することによって、何を反省すべきかを決定することです。
計画と対応
計画は、エージェントの将来のアクションのシーケンスを記述し、エージェントが長期にわたってその動作を維持できるようにするために使用されます。一貫性のある。計画には場所、開始時間、期間を含める必要があります。
合理的な計画を作成するために、生成エージェントは上から下までより詳細な情報を再帰的に生成します。最初のステップは、その日の「スケジュール」を大まかに示す計画を作成することです。初期計画を作成するために、研究では言語モデルにエージェントの一般的な説明 (名前、特徴、最近の経験の概要など) を入力するように指示します。
計画を実行する過程で、生成エージェントは周囲の環境を感知し、認識された観察結果はメモリ ストリームに保存されます。この研究では、これらの観察結果を使用して、言語モデルに、エージェントが現在の計画を続行するべきか、それとも異なる反応をすべきかを決定するよう促します。
この研究では、生成エージェントの 2 つの評価を実施しました。1 つは、エージェントが信頼できる個人の行動を独立して生成できるかどうかをテストするための管理された評価で、もう 1 つは生成エージェントです。エンドツーエンドの評価では、エージェントの安定性と新たな社会的行動を理解するために、複数の生成エージェントが 2 日間のゲーム時間にわたってオープンに対話します。
たとえば、イザベラはバレンタインデー パーティーを主催する予定です。彼女は情報を広め、シミュレーションの終了までに 12 人のキャラクターがそのことを知りました。そのうち 7 人は「未定」で、3 人は別の計画があり、4 人は自分の考えを表明していませんでした。これは人間の付き合い方と同じです。
#技術評価レベルでは、この研究は自然言語を使用してエージェントに「インタビュー」し、エージェントの「人格」、記憶力の維持を評価します。 、計画を立て、正確に反応し反映する能力を備え、アブレーション実験を実施しました。実験結果は、これらの各コンポーネントがエージェントがタスクを適切に実行するために重要であることを示しています。
実験的評価では、エージェントによって発生する最も一般的なエラーは次のとおりです:
以上がホットペーパーが「ウエストワールド」のプロトタイプを作成:25人のAIエージェントが仮想都市で自由に成長の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。