ホームページ >テクノロジー周辺機器 >AI >リー・フェイフェイが「空間インテリジェンス」の起業家的な方向性を明らかにする: 視覚化は洞察に変わり、見ることは理解に変わり、理解は行動につながる
スタンフォード大学のリー・フェイフェイ氏は、起業後初めて「空間知能」という新しい概念を明らかにしました。
これは彼女の起業家としての方向性であるだけでなく、彼女を導く「北極星」でもあり、彼女はそれが「人工知能の問題を解決するための重要なパズルのピース」であると考えています。
視覚化は洞察につながり、理解は行動につながります。
リー・フェイフェイの15分間のTEDトークに基づくもので、完全に公開されており、数億年前の生命の進化の起源から始まり、人間がどのように満足していないのかまでが語られています。自然は彼らに人工知能を与え、次のステップで宇宙をインテリジェントに構築する方法を開発しました。
9 年前、同じステージで、リー・フェイフェイは、深層学習爆発のこのラウンドの出発点の 1 つである、新しく生まれた ImageNet を世界に紹介しました。
彼女自身もネチズンを奨励しました:両方のビデオを見れば、過去 10 年間のコンピューター ビジョン、空間知能、AI についてよく理解できるでしょう。
さて、本来の意味を変えずに、李飛飛の演説内容を整理してみます。
何かを見せましょう、正確に言えば、「何も」見せません。
ここは5億4千万年前の世界です。純粋で果てしなく続く闇。光がないから暗いわけではありません。視力が無いので真っ暗です。
太陽光は海面下1,000メートルまで浸透し、熱水噴出孔からの光は生命に満ちた海底まで浸透しますが、これらの古代の海には目は一つもありません。
網膜も角膜も水晶体もありません。したがって、このすべての光、このすべての人生は目に見えないままです。
「見る」という概念が存在しなかった時代。それが実現するまで、それは決して実現されませんでした。
その理由は私たちが理解し始めたばかりですが、光を感知できる最初の生物、三葉虫が現れました。彼らは、私たちが当たり前だと思っている現実を感知できる最初の生き物です。彼らは、自分たち以外の何かが存在することを発見した最初の生き物でした。
初めて、世界はたくさんの「自分」で満たされます。
見る能力は、動物種が大量に化石記録に載ったカンブリア爆発を引き起こしたと考えられています。受動的な経験、つまり光を取り入れるという単純な行為として始まったものは、すぐにより活発になり、神経系が進化し始めます。
ビジョンは洞察力になります。見ることが理解になる。理解は行動につながります。
これらすべてが知性を生み出します。
今日、私たちは自然に与えられた視覚能力にもはや満足していません。好奇心が私たちを駆り立てて、少なくとも私たちと同じくらい、あるいはそれ以上のものを見ることができる機械を作ります。
9年前、このステージで、私はコンピュータービジョンに関する初期の進捗報告書を提出しました。
その時、3 つの強力な力が初めて集まりました:
ニューラルネットワークと呼ばれるアルゴリズムのクラス私たちはそれから現在まで、かなり長い道のりを歩んできました。
当初は画像にラベルを付けるだけで大きな進歩でしたが、アルゴリズムの速度と精度はすぐに向上しました。
この進歩は、私の研究室が主催する毎年恒例の ImageNet Challenge で測定されます。このグラフでは、毎年のモデル機能の向上と、いくつかのマイルストーン モデルを確認できます。
私たちはさらに一歩進んで、視覚オブジェクトをセグメント化したり、視覚オブジェクト間の動的な関係を予測したりできるアルゴリズムを作成しました。これは私の生徒と共同研究者によって行われました。
他にもあります。
前回のスピーチで示した最初のコンピューター ビジョン アルゴリズムを思い出してください。AI は人間の自然言語を使用して写真を記述することができます。それが私が私の優秀な生徒であるアンドレイ・カルパシーとやったことです。
その時、私は大胆にもこう言いました。「アンドレイ、コンピューターに逆のことをさせられますか?」アンドレイは微笑んで言いました。「ははは、それは不可能です。」
そうですね、今日あなたが言ったように、不可能です。が可能になりました。
これは、人間のプロンプトの言葉を写真やビデオに変換してまったく新しいものを作成できる、今日の生成 AI アルゴリズムを強化する一連の拡散モデルのおかげです。
最近、OpenAI の Sora が素晴らしい結果を達成したのを見た方も多いでしょう。しかし、数か月前、GPU があまりない状態で、私の学生と共同研究者は Walt という AI ビデオ生成モデルを開発しました。
△ウォルト 2023年12月出版
ここには改善の余地があります、あの猫の目を見てください、波に一度も濡れませんでした、なんて惨状でしょう〜(猫アストロフィ)。
(同音異義語のミームはお金を差し引きます!)
過去はプロローグであり、私たちはこれらの間違いから学び、想像する未来を創造します。この将来、私たちは AI が私たちの代わりに何かをしたり、私たちが何かをするのを手伝ってくれたりすることを望んでいます。
私は何年も言い続けていますが、写真を撮ることは見て理解することとは同じではありません。今日は、ただ見るだけでは不十分だということをもう一つ付け加えたいと思います。
ほら、行動と学習のために。
3D の時空で行動するとき、私たちは学び、より良く見て物事をより良く行うことを学びます。自然は「空間知性」を通じて見ることと行動することの好循環を生み出します。
空間知性とは何かを説明するために、この写真を見てください。 何かをしたいという衝動を感じたら、手を挙げてください。
あなたの脳は一瞬のうちに、このカップの形状、3D 空間での位置、テーブル、猫、その他すべてのオブジェクトとの関係を観察し、次に何が起こるかを予測することができます。
行動への衝動は、知覚を行動に結び付ける空間知性を持つすべての生き物に内在しています。
AI に現在の能力を超えてもらいたいのであれば、見えて話せる AI だけでなく、行動できる AI も必要です。
実際、私たちは素晴らしい進歩を遂げています。
空間インテリジェンスにおける最新のマイルストーンは、コンピュータに見て、学び、行動すること、そしてより良く見て行動することを学ぶことです。
そしてそれは簡単ではありません。
自然は何百万年もかけて空間知性を進化させてきました。目は光を捉えて網膜に 2D 画像を投影し、脳はこのデータを 3D 情報に変換します。
つい最近、Google の研究者グループが、一連の写真を 3D 空間に変換するアルゴリズムを開発しました。
私の生徒と共同研究者はそれをさらに一歩進めて、単一の画像を 3D 形状に変換するアルゴリズムを作成しました。
ミシガン大学の研究チームは、文章を 3D の部屋のレイアウトに変換する方法を発見しました。
スタンフォード大学の私の同僚とその学生たちは、単一の画像から無限の可能性の空間を生成し、視聴者が探索できるアルゴリズムを開発しました。
これらは将来の可能性のプロトタイプです。この可能性の中で、人間は世界全体をデジタル形式に変換し、その豊かさと繊細さをシミュレートすることができます。
自然が私たちのそれぞれの心の中で暗黙のうちに行っていることと同じことを、空間知能テクノロジーは私たちの集合意識に対しても行うことを約束しています。
空間知能の加速的な進歩により、好循環の中で新たな時代が私たちの目の前に広がりつつあります。このサイクルは、3D 世界を理解し、対話する必要があるあらゆる身体化された知能システムの重要なコンポーネントであるロボット学習を促進します。 10 年前、私の研究室の ImageNet は、コンピューター ビジョンのトレーニングに役立つ数百万枚の高品質の写真のデータベースを可能にしました。 今日、私たちは同様のことを行っており、3D 世界で行動するようにコンピューターとロボットをトレーニングしています。
今回は静止画像を収集する代わりに、コンピューターがアクションの無限の可能性を学習できるように、3D 空間モデルによって駆動されるシミュレーション環境を開発します。 今見たものは、私の研究室が主導する Behavior というプロジェクトで、ロボットを教える小さな例です。 私たちはロボット言語知能においても素晴らしい進歩を遂げています。 大規模な言語モデルに基づく入力を使用して、私の学生と共同研究者は、ロボット アームが口頭の指示に基づいてさまざまなタスクを実行できることを実証した最初のチームの 1 つです。 この引き出しを開けるとか、電話コードを抜くとか。パン、レタス、トマトを使ってサンドイッチを作ったり、ユーザーのためにナプキンを置いたりすることもできます。通常はもう少しボリュームのあるサンドイッチを食べたいところですが、まずはここから始めるのが良いでしょう。 空間知性の応用の展望 古代の原始的な海洋では、環境を見て感知する能力が他の生命体との相互作用のカンブリア紀の爆発を引き起こしました。 今日、その光はデジタル思考に届いています。 空間インテリジェンスにより、マシンは相互に対話するだけでなく、人間や現実または仮想の 3D 世界とも対話できるようになります。 この未来が具体化すると、多くの生活に重大な影響を与えるでしょう。 ヘルスケアを例に考えてみましょう。過去 10 年間、私の研究室では、患者の転帰や医療スタッフの疲労に影響を与える課題に AI を適用するための初期の取り組みを行ってきました。 スタンフォード大学やその他の提携病院の協力者と協力して、臨床医が適切に手を洗わずに病室に入ったかどうかを検出できるスマートセンサーの試験運用を行っています。あるいは、手術器具を追跡したり、患者が転倒などの身体的危険にさらされている場合に医療チームに警告したりすることもできます。 私たちは、これらのテクノロジーを、余分な目のような環境知能の一形態として考えています。
しかし私は、追加の手を切実に必要としている患者、臨床医、介護者のために、もっとインタラクティブな支援を提供したいと考えています。
介護者が患者に集中している間、自律型ロボットが医療用品を輸送したり、拡張現実を使用して外科医をより安全で迅速で侵襲性の低い処置に誘導したりするところを想像してみてください。
重度の麻痺患者が思考でロボットを制御できることをもう一度想像してみてください。そうです、あなたや私が当たり前だと思っている日常のタスクを脳波を使って実行するのです。
これは私の研究室で行われた最近のパイロット研究です。このビデオでは、脳からの電気信号のみによって制御されるロボット アームが日本のすき焼き料理を調理しています。信号はEEGキャップを通じて非侵襲的に収集されます。
5億年前、視覚の出現は暗黒世界を覆し、最も深遠な進化プロセス、つまり動物界における知性の発達を引き起こしました。
過去 10 年間の AI の進歩も同様に驚くべきものです。しかし、私は、自然が私たち全員にそうしてきたのと同じように、コンピューターやロボットに空間知能を与えない限り、このデジタルカンブリア爆発の可能性を最大限に発揮することはできないと信じています。
今は、デジタル仲間たちに、私たちが家と呼ぶこの美しい 3D 空間を推論し、操作する方法を教えると同時に、私たちが探索できる新しい世界をさらに創造する、エキサイティングな時期です。
この未来を達成するのは簡単ではありません。私たち全員が深く考え、常に人を中心に据えたテクノロジーを開発する必要があります。
しかし、私たちが正しく行えば、空間知能を活用したコンピューターやロボットは、有用なツールであるだけでなく、信頼できるパートナーとなり、私たちの生産性を高め、人間性を高め、個人の尊厳を尊重しながら私たちの生活を向上させるでしょう。集団的な繁栄。
私が何よりも興奮している未来は、AI がより知覚力、洞察力、空間認識能力を高め、より良い世界を創造するという私たちの追求に参加する未来です。
(全文完成)
ビデオリプレイ: https://www.ted.com/talks/fei_fei_li_with_spatial_intelligence_ai_will_question_the_real_world/transcript
以上がリー・フェイフェイが「空間インテリジェンス」の起業家的な方向性を明らかにする: 視覚化は洞察に変わり、見ることは理解に変わり、理解は行動につながるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。