情報革命がデジタル世界を生み出し、デジタル 世界は大規模なモデルを誕生させるためのデータを提供しており、汎用人工知能 (AGI) を実装するのが最も簡単でもあります。
デジタル世界における AGI に向けて、北京知源人工知能研究所、シンガポール南洋理工大学、北京大学が共同で General Computer Control (GCC) # を提案しました。 ##、つまり、エージェントは
人間と同じように画面を表示し、キーボードとマウスを使用してコンピュータ上のすべてのタスクを完了する必要があります。
過去の長い間、人工知能研究はゲームに基づいていましたが、GCC は一般的な 人工知能 研究にシナリオを提供し、大規模モデルと AI の実装と産業化をさらに促進します。エージェント。 この目的のために、研究チームは、エージェントがキーボード、マウス、マウスを直接制御できるようにする
汎用コンピュータ制御エージェント フレームワーク Cradle
を提案しました。内部 API に依存せずに他の機能を利用でき、オープン ソースかクローズド ソースかを問わず、ソフトウェア インタラクションにより、「レッド デッド リデンプション 2」などの商用 AAA ゲームの傑作もプレイできます。 論文タイトル: 一般的なコンピュータ制御に向けて: ケーススタディとしてのレッド・デッド・リデンプション II のマルチモーダル・エージェント
- 論文リンク: https://arxiv.org/abs/2403.03186
- プロジェクトホームページ: https://baai-agents.github.io/Cradle/
- コードリンク: https://github.com/BAAI-Agents/Cradle
大規模な開発ではAI の発展に伴い、Web の閲覧、スマートフォンの操作、ゲームなどのコンピュータ制御に焦点を当てた AI エージェントの研究が増えています。ただし、既存の研究では、事前定義されたアクションの入力と出力を取得するために内部 API に依存しています。コンピュータ上ですべてのタスクを完了できる
ユニバーサル エージェント
を構築するには、最も一般的で標準的な入出力を使用してコンピュータと対話する必要があります。したがって、汎用コンピュータ制御では入力と出力が統一されており、エージェントの汎用性が可能になります。 しかし、その多機能性は運用上の困難をもたらします: (1) コンピュータ画面を入力として使用すると、たとえば内部 API がないため、エージェントのビデオ理解能力に対する要求が高くなります。 、アクションが正常に実行されたかどうかを判断するには視覚情報が必要です; (2) キーボードとマウスの操作を出力として使用すると、エージェントはより高い時空間操作の精度を要求する必要があります。たとえば、キーボードのキーストロークやマウスのクリックには、通常、追加の時間次元が含まれます。これらの問題をどのように解決するかは、
汎用コンピュータ制御エージェント (GCC エージェント)
を構築するという課題です。 「コンピューターとは、ユーザー中心のコンピューティングを指します」 Cradle はキーボードとマウスの操作に重点を置いていますが、コントロール ハンドルやタッチ スクリーンなどに簡単に拡張できます。"
一般 コンピュータ制御エージェント フレームワーク Cradle は、主に 6 つのモジュール (情報収集、内省、タスク推論、スキル管理、行動計画、記憶モジュール) で構成されています。 Cradle の高度な汎用性は、コンピュータとの対話中の元の入出力の合理的なカプセル化と抽象化によって実現されます。画面に表示されたビデオを入力として受け取り、意思決定のためのテキストと視覚情報を抽出し、基盤となるオペレーティング システムにキーボードとマウスの制御信号を出力してコンピュータと対話し、コンピュータがすべてのソフトウェアに依存せずに対話できるようにします。いかなる仮定のもとでも。
「Cradle は主に、情報収集、内省、タスク推論、スキル管理、行動計画、記憶モジュールの 6 つのモジュールで構成されています。その強力な意思決定推論は、「過去を振り返り、現在を要約し、そして」から生まれます。将来の計画"" 同時に、Cradle の強力な意思決定推論モジュールにより、ソフトウェアと自発的に対話してタスクを完了できます。このプロセスは簡単に行うことができます。 過去を振り返り、現在を要約し、将来に向けて計画する。
- 過去を振り返る: 過去の行動プロセスのビデオを入力として使用し、重要なテキスト情報と視覚情報をそれぞれ抽出します。振り返りを通じて、前のアクションが正常に実行されたかどうか、タスクが完了したかどうか、および改善方法を判断します。
- 今すぐ要約: 反省後、現在の状況を要約し、それをもとにタスクの目的を変更するか、タスクの内容を変更するかを決定します。
- 将来の計画: 最後に、現在のタスクと現在の状況に基づいてスキルを生成または更新し、学習したスキルから現在のタスクに関連するスキルを取得します。次に、適切なスキルを選択し、実行するアクションとしてインスタンス化します。
#意思決定と推論を行う間、Cradle は文脈記憶と長期記憶に保存された履歴情報を定期的に要約し、維持します。このプロセスの頭脳は GPT-4V のような大規模なマルチモーダル モデルですが、Cradle はこれに要約、反映、記憶などの機能を追加し、一般的なコンピューター制御のための完全なインテリジェント エージェント フレームワークを形成し、普遍性の問題を効果的に解決します。 . もたらされる問題。 クレイドル: 「レッド デッド リデンプション 2」を最初から探索しましょう
##フレームワークの多用途性と強力な意思決定機能を証明するために、研究チームは、最も困難でほとんど調査されていない商用 AAA ゲームの傑作「レッド デッド リデンプション 2」に Cradle を導入することを選択しました。彼らは、操作が最も難しいソフトウェアである Cradle が AAA ゲームのメイン ストーリーを自由に探索し、完了することができれば、このフレームワークが他のゲームやソフトウェアに一般化できる大きな可能性があることを示していると考えています。 「Minecraft のようなオープンソース ゲームとは異なり、ほとんどの商用ゲーム、特に 3A ゲームは内部 API インターフェイスを提供していないため、Voyager のようなゲームは内部 API に依存して入力とデータを取得します。事前定義されたアクションを出力するフレームワークを他のゲームに移行することはできません。
# GPT-4V に基づいて、Cradle はゲーム内のプロンプトとチュートリアルに基づいて対応する実行可能ファイルを直接生成できます。コードをスキルとして使用して、スキル ライブラリを段階的に強化し、これらのスキルを後続のゲームで再利用します。 間違ったアクションを実行した後、Cradle はリフレクションを通じてエラーを効果的に発見し、修正できます。
クレイドルは、ゲームのガイダンスに従ってゼロから対応するスキルを生成し、40 分のメインストーリーを完了できるだけでなく、自由に探索したり、馬に乗ったり、狩りをしたり、オープンワールドでの戦い、NPCとの会話、小道具の使用、マップの操作、さらにはストアでの買い物もすべて簡単です。これは、商用 AAA ゲームを長時間プレイできる初のロボットです。 ###########################################結論#### ##
オープンソースの Cradle コードは、他のソフトウェアやゲームに簡単に拡張できます。研究チームは、真のユニバーサルコンピュータ制御を実現するために、将来的にはCradleがより多くのソフトウェアやゲームに移植される予定であり、関連する研究チームや業界がさらなる研究と探索を行うことを奨励すると述べた。目標は、インテリジェント エージェントがオープン ソースかクローズ ソースかに関係なく、すべてのソフトウェアと対話できるようにし、普遍性を達成するために継続的に改善し、最終的には一般的な 人工知能
の誕生のゆりかごになることです。 「GCC は AGI のゆりかごです。」
—The Cradle チーム
もう 1 つ: Cradle 技術通訳ライブ ブロードキャスト3 月 14 日 14:30- にて15時30分、論文の筆頭著者であるシンガポールの南洋理工大学博士課程学生タン・ウェイハオ氏がオンライン通訳レポートを行った。下記のQRコードを読み取ってご登録ください。 以上がデジタル世界 AGI への移行!エージェントは「レッド・デッド・リデンプション 2」を最初からプレイし始めましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。