ホームページ > 記事 > テクノロジー周辺機器 > 李飛飛が着目した「身体化された知性」はどこに到達したのか?
2009 年、当時プリンストン大学に勤務していたコンピューター科学者、リー フェイフェイは、人工知能の歴史を変えるデータ セット、ImageNet の構築を主導しました。これには、画像内のオブジェクトを認識するための複雑な機械学習モデルをトレーニングするために使用できるラベル付き画像が数百万枚含まれています。
2015 年、機械の認識能力は人間の認識能力を超えました。リー・フェイフェイさんはすぐに、彼女が別の「北極星」と呼ぶものを見つけるという新たな目標に目を向けた(ここでの「北極星」とは、研究者が解決に焦点を当てている重要な科学的問題を指しており、研究者の熱意を刺激し、画期的な進歩をもたらす可能性がある)。
彼女は、多くの陸上動物種が最初に出現したカンブリア紀の生命爆発までの 5 億 3,000 万年前を振り返ることでインスピレーションを得ました。ある有力な理論は、新種の爆発的な原因の一部は、生物が初めて周囲の世界を見ることを可能にした目の出現によって引き起こされたことを示唆しています。リー・フェイフェイさんは、動物の視覚は単独で発生するものではなく、「急速に変化する環境の中で移動し、ナビゲートし、生き残り、操作し、変化する必要がある全体に深く組み込まれている」と信じている、と彼女は述べた。
現在、Li Feifei 氏の研究は AI エージェントに焦点を当てており、AI エージェントはデータを受信できるだけでなく、一連の静止画像を移動することもできます。 3 次元の仮想世界のシミュレートされた環境で、周囲の環境と対話します。
これが、「身体化型 AI」と呼ばれる新しい分野の大まかな目標です。これは、ロボットが現実世界での身体化された AI エージェントおよび強化学習と物理的に同等であると見なすことができるという点で、ロボット工学と重なっています。 リー・フェイフェイらは、身体化された AI が、画像認識などの機械学習の単純な能力から、フライパンを作るなど複数のステップを経て人間のような複雑なタスクを実行する方法を学習するまで、私たちに大きな変革をもたらす可能性があると考えています。エッグロール。
今日、身体化された AI の仕事には、自身の環境を検出して変更できるあらゆるエージェントが含まれます。ロボット工学では、AI エージェントは常にロボットの本体の中に住んでいますが、実際のシミュレーションのエージェントは仮想の本体を持っているか、移動するカメラの位置を通じて世界を認識し、周囲の環境と対話する場合があります。 「身体化の意味は身体そのものではなく、環境と相互作用し、環境の中で物事を行う際の全体的なニーズと機能です」とリー・フェイフェイ氏は説明した。
この双方向性により、エージェントは世界を理解するための新しい、そして多くの場合より優れた方法を得ることができます。これは、以前は 2 つのオブジェクト間の可能な関係をただ観察していましたが、今ではこの関係を自分で実験して実現できるという事実に相当します。この新たな理解により、アイデアが実践され、より大きな知恵が生まれます。新しい一連の仮想世界が稼働するにつれて、身体化された AI エージェントはこの可能性に気づき始め、新しい環境で大きな進歩を遂げています。
「現時点では、世界との対話によって学習しない知性の存在を示す証拠は何もありません」と、ドイツのオスネブリュック大学の身体化型 AI 研究者であるヴィヴィアン・クレイ氏は述べています。
研究者たちは長い間、AI エージェントが探索できる現実の仮想世界を作成したいと考えてきましたが、それらが作成されてからまだ 5 年ほどしか経っていません。この機能は、映画業界やビデオ ゲーム業界のグラフィックスの向上によってもたらされています。 2017 年、AI エージェントは、自宅にいるかのように室内空間、つまり仮想ではあるが文字通りの「家」を描写できるようになりました。アレン人工知能研究所のコンピューター科学者は、エージェントが自然なキッチン、バスルーム、リビング ルーム、寝室を歩き回れるようにする AI2-Thor と呼ばれるシミュレーターを構築しました。エージェントは、移動に応じて変化する 3 次元ビューを学習でき、詳しく見ようと決めたときにシミュレーターが新しい角度を表示します。
この新しい世界は、エージェントに新しい次元「時間」の変化について考える機会も与えます。サイモン・フレイザー大学のコンピュータグラフィックス研究者マノリス・サヴァ氏は、「これは大きな変化だ。具体化された AI 設定では、制御できる時間的に一貫した情報の流れが得られる。」と述べた。まったく新しいタスクを完了できるようにエージェントをトレーニングするのに十分な性能を備えています。彼らはオブジェクトを認識するだけでなく、それを操作したり、拾い上げたり、その周囲を移動したりすることができます。これらの一見小さなステップは、エージェントがその環境を理解するために必要です。 2020 年、仮想エージェントは視覚を超えて仮想物体が発する音を聞く能力を備えており、物体とそれが世界でどのように動作するかを理解する上で新たな視点を提供します。
仮想世界 (ManipulaTHOR 環境) で実行できる組み込み AI エージェントは、異なる方法で学習するため、より複雑で人間のようなタスクに適している可能性があります。 。ただし、シミュレーターにも独自の制限があります。スタンフォード大学のコンピューター科学者ダニエル・ヤミンズ氏は、「最高のシミュレーターであっても、現実世界よりもはるかに現実的ではありません」と述べています。 Yamins は、MIT および IBM の同僚と共同開発した ThreeDWorld を開発し、このプロジェクトは、液体の挙動や、あるオブジェクトがある領域では硬く、別の領域では硬くなるなど、仮想世界における現実の物理のシミュレーションに重点を置いています。 。 これは、AI が新しい方法で学習する必要がある非常に困難なタスクです。 これまでのところ、身体化された AI の進歩を測定する簡単な方法は、身体化されたエージェントのパフォーマンスを、より単純な静的画像タスクでトレーニングされたエージェントのパフォーマンスと比較することです。研究者らは、これらの比較は完璧ではないと指摘しているが、初期の結果は、身体化された AI が以前の AI とは異なる方法で学習し、場合によってはより優れた学習を行うことを示唆していると述べている。 最近の論文 (「Interactron: Embodied Adaptive Object Detection」) では、研究者らは、具体化された AI エージェントが特定のオブジェクトの検出においてより正確であり、従来の方法よりも 12% 近く優れていることを発見しました。研究共著者でアレン人工知能研究所のコンピュータ科学者ルーズベ・モッタギ氏は、「物体検出の分野がこのレベルの改善を達成するまでに3年以上かかった。そして、私たちは対話するだけで非常に多くのことを達成してきた」と語った。 他の論文では、身体化された AI の形をとり、仮想空間を探索したり、歩き回ってオブジェクトの複数のビューを収集したりすると、アルゴリズムが進歩することが示されています。 研究者らはまた、身体化されたアルゴリズムと従来のアルゴリズムでは学習方法がまったく異なることも発見しました。これを実証するために、すべての身体化されたアルゴリズムと多くの身体化されていないアルゴリズムの学習機能の背後にある基本的な要素であるニューラル ネットワークを考えてみましょう。ニューラル ネットワークは、接続された人工ニューロン ノードの多くの層で構成されており、人間の脳のネットワークを大まかにモデル化しています。 2つの別々の論文で、研究者らは、身体化されたエージェントのニューラルネットワークでは、視覚情報に反応するニューロンの数が少ないこと、つまり個々のニューロンが反応する方法がより選択的であることを発見しました。実体を持たないネットワークは効率がはるかに低く、ほとんどの時間活動を維持するにはより多くのニューロンが必要です。ある研究チーム(ニューヨーク大学の次期教授グレース・リンゼーが率いる)は、身体化されたニューラルネットワークと身体化されていないニューラルネットワークを、生きた脳(マウスの視覚野)のニューロン活動と比較し、身体化されたニューラルネットワークが生きているものに最も近いことを発見しました。体。 リンゼイは、これは必ずしも具現化されたバージョンの方が優れているという意味ではなく、単に異なるだけであるとすぐに指摘しました。物体検出の論文とは異なり、Lindsay らの研究では、同じニューラル ネットワークの潜在的な違いを比較し、エージェントがまったく異なるタスクを完了できるようにしているため、目的を達成するには異なる動作をするニューラル ネットワークが必要になる可能性があります。 身体化されたニューラル ネットワークと身体化されていないニューラル ネットワークを比較することは改善を測定する 1 つの方法ですが、研究者が本当にやりたいのは、既存のタスクに対する身体化されたエージェントのパフォーマンスを向上させることではなく、彼らの本当の目標は、より複雑なことを学習することです。より人間らしいタスク。これは研究者にとって最も興味深いことであり、特にナビゲーションタスクにおいて目覚ましい進歩が見られます。これらのタスクでは、エージェントは目的地の長期的な目標を覚えておきながら、道に迷ったり物にぶつかったりすることなく目的地に到着するための計画を立てる必要があります。 Meta AI の研究ディレクターであり、ジョージア工科大学のコンピューター科学者である Dhruv Batra が率いるチームは、わずか数年で、「ポイント-ゴール ナビゲーション」と呼ばれる特定のナビゲーション タスクに取り組みました。多くの進歩が見られました。このタスクでは、エージェントはまったく新しい環境に置かれ、地図なしで特定の座標 (「北 5 メートル、東 10 メートルの地点に行く」など) に行く必要があります。 Batra 氏によると、「AI ハビタット」と呼ばれるメタ仮想世界でエージェントを訓練し、GPS とコンパスを与えたところ、標準データセットで 99.9% 以上の精度を得ることができたことがわかりました。最近では、コンパスや GPS を使用しない、より困難で現実的なシナリオに結果を拡張することに成功しました。その結果、エージェントは移動中に見たピクセル ストリームのみを使用して位置を推定する精度が 94% に達しました。 Meta AI Dhruv Batra チームが作成した仮想世界「AI Habitat」。彼らは、身体化された AI が実時間でわずか 20 分で 20 年間のシミュレーション経験を達成できるようになるまで、シミュレーションの速度を向上させたいと考えています。 Mottaghi 氏は、「これは大きな改善ですが、ナビゲーションの問題が完全に解決されたことを意味するものではありません。他の多くの種類のナビゲーション タスクでは、次のようなより複雑な言語命令の使用が必要になるためです。」 「キッチンを通り過ぎる」「寝室のベッドサイドテーブルにあるグラスを取りに行きます」とのことですが、その精度はまだ 30% ~ 40% 程度にすぎません。 しかし、エージェントは環境内を移動する際に何も操作する必要がないため、ナビゲーションは依然として、身体化された AI の最も単純なタスクの 1 つです。これまでのところ、身体化された AI エージェントは、オブジェクト関連のタスクを習得するには程遠いです。課題の 1 つは、エージェントが新しいオブジェクトと対話するときに多くのエラーが発生し、そのエラーが積み重なる可能性があることです。現在、ほとんどの研究者は、わずか数ステップのタスクを選択することでこの問題に対処していますが、パンを焼いたり皿を洗ったりするなど、人間に似た活動のほとんどは、複数のオブジェクトに対する長い一連のアクションを必要とします。この目標を達成するには、AI エージェントがさらに進化する必要があります。 この点に関しては、フェイフェイ・リー氏が再び最前線に立つ可能性があり、彼女のチームはシミュレートされたデータセット「BEHAVIOR」を開発し、彼女の ImageNet プロジェクトが物体認識に行ったのと同じように、身体化された AI にも役立つことを期待しています。貢献。 このデータ セットには、エージェントが完了する必要がある 100 を超える人間のアクティビティが含まれており、テストは任意の仮想環境で完了できます。 Fei-Fei Li 氏のチームの新しいデータセットを使用すると、仮想 AI エージェントのタスクを実行するエージェントと、同じタスクを実行する人間の実際のビデオを比較する指標を作成することで、コミュニティが仮想 AI エージェントの進捗状況をより適切に評価できるようになります。 エージェントがこれらの複雑なタスクを正常に完了すると、Li Feifei は、シミュレーションの目的は最終的な操作可能な空間、つまり現実世界に向けてトレーニングすることであると考えます。 「私の意見では、シミュレーションはロボット研究において最も重要で刺激的な分野の 1 つです。」と Li Feifei 氏は言いました。 ロボットは本質的には身体化された知性です。彼らは現実世界の何らかの肉体に生息しており、具現化された AI エージェントの最も極端な形態を表します。しかし、多くの研究者は、そのようなエージェントでも仮想世界でのトレーニングから恩恵を受けることができることを発見しました。 強化学習などのロボット工学の最先端のアルゴリズムでは、意味のあることを学習するために何百万回もの反復が必要になることが多いとモッタギ氏は述べています。したがって、実際のロボットを訓練して困難なタスクを実行するには何年もかかる可能性があります。 #ロボットは、現実世界の不確実な地形をナビゲートできます。新しい研究は、仮想環境でのトレーニングがロボットがこれらのスキルやその他のスキルを習得するのに役立つことを示しています。 しかし、最初に仮想世界でトレーニングすると、速度ははるかに速くなります。数千の異なる部屋で、何千ものエージェントを同時にトレーニングできます。さらに、仮想トレーニングはロボットと人間の両方にとってより安全です。 2018 年、OpenAI 研究者は、仮想世界でエージェントが学習したスキルを現実世界に転送できることを実証したため、多くのロボット工学専門家がシミュレーターに注目し始めました。彼らは、これまでシミュレーションでしか見られなかった立方体を操作できるようにロボットハンドを訓練しました。最近の研究には、ドローンが空中での衝突を避ける方法を学習できるようにすること、2つの異なる大陸の都市環境に自動運転車を導入すること、4本足のロボット犬がスイスアルプスで1時間のハイキングを完走できるようにすることなども含まれています。人間と同じくらいの時間がかかります。) 将来的には、研究者は仮想現実ヘッドセットを通じて人間を仮想空間に送り込み、シミュレーションと現実世界の間のギャップを埋めることもできるかもしれません。 Nvidia のロボット研究シニア ディレクターでワシントン大学教授のディーター フォックス氏は、ロボット研究の重要な目標は、現実世界で人間に役立つロボットを構築することであると指摘しました。しかし、これを行うには、まず人間に触れ、人間との関わり方を学ばなければなりません。 仮想現実テクノロジーを使用して人間をこうした模擬環境に置き、プレゼンテーションを行ったりロボットと対話させたりすることは、非常に強力なアプローチになるだろうとフォックス氏は述べた。 シミュレーションであろうと現実世界であろうと、身体化された AI エージェントは、より人間らしくなり、より人間のタスクに近いタスクを完了することを学習しています。この分野は、新しい世界、新しいタスク、新しい学習アルゴリズムなど、あらゆる面で進歩しています。 「ディープラーニング、ロボット学習、視覚、さらには言語の融合が見られます。今、私は、この身体化された AI の『ムーンショット』または『北極星』を通じて、私たちは学習を行うことができると考えています」と述べました。インテリジェンスの基本テクノロジーは、真に大きな進歩をもたらす可能性があります。」 Li Feifei の記事では、コンピューター ビジョンの「ポラリス」問題について説明しています。リンク: https://www.amacad.org/publication/searching-computer-vision-north-starsニューラル ネットワークとの比較
ロボット研究の新境地
以上が李飛飛が着目した「身体化された知性」はどこに到達したのか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。