コーネル大学コンピューティング学部長、カビタ・バラ氏: 「メタバース」とは何ですか?神の目はAIによって生まれるかもしれない-AI-php.cn

ホームページ

テクノロジー周辺機器

コーネル大学コンピューティング学部長、カビタ・バラ氏: 「メタバース」とは何ですか?神の目はAIによって生まれるかもしれない

王林

Apr 12, 2023 pm 09:58 PM

コンピューターai

康奈尔计算学院院长Kavita Bala：「元宇宙」算什么？上帝之眼或将通过 AI 诞生

この記事は Lei Feng.com から転載されたものです。転載する必要がある場合は、Lei Feng.com の公式 Web サイトにアクセスして許可を申請してください。

過去数年間の私の研究は、ミクロンの解像度から世界クラスの解像度に至るまで、主に視覚的な外観と理解に焦点を当ててきました。スピーチを始める前に、非常に興味深い例を紹介したいと思いますが、この映画の主人公と世界との間の視覚的なインターフェイスは非常に興味深いものです。

この人が現実世界を歩くと、ビジュアルインターフェイスに一連のテキストが表示されることがわかります。主人公は車のファンなので、ビジュアルインターフェイスには車に関する豊富な情報が表示されます。

康奈尔计算学院院长Kavita Bala：「元宇宙」算什么？上帝之眼或将通过 AI 诞生

必要な写真は 1 枚だけです。ビジュアルインターフェイスは、この車に関するすべての情報を伝えることができます。このテクノロジーを進歩させるには、コンピュータービジョンと視覚理解の分野での研究が必要です。

主人公は歩き続けますが、これらのモデルに近づくと、非常に現実的に見えますが、それらが本物の人間ではないことがわかります。このような技術を実現するためには、RealisticAppearance(RealisticAppearance)を研究する必要があります。

康奈尔计算学院院长Kavita Bala：「元宇宙」算什么？上帝之眼或将通过 AI 诞生

その後、主人公はショッピングウィンドウに歩いて行き、ウィンドウ内にあるすべての商品を目にしました。今回のビジュアルインターフェイスには、製品に含まれるすべての情報が表示され、製品を着用した場合の効果もシミュレートされており、主人公は実際に製品に触れることなく製品を体験できます。

康奈尔计算学院院长Kavita Bala：「元宇宙」算什么？上帝之眼或将通过 AI 诞生

このビデオの効果を実現するには、「Inverse Graphics( Inverse graphics」というメソッドが必要です)テクノロジーは商品のあらゆる属性をデジタル化し、それらと相互作用することができます。

私たちが開発しているさまざまなテクノロジーを紹介するために、これらの例を示します。拡張現実/複合現実についてよく聞いたことがあると思います。私が今言及したものはすべて、現在のテクノロジーです。拡張現実の開発を推進します。今日はビジュアルテクノロジーに焦点を当てます。

コンピュータグラフィックスの分野では、本物か偽物かわからないほどリアルに見えるモデルをフォトリアリスティック外観と呼びますが、この分野では別の表現があります。物体の写真と、その写真に写っている物体のすべての属性をどのように理解すればよいでしょうか。そうすれば、これに基づいて世界の属性を理解するための開発を続けることができます。

#今日お話したいのは次の 3 つの主な内容です:

物理ベースの外観モデル (物理ベースの外観モデル)
逆グラフィックス(逆グラフィックス)
世界-スケール Visual Discovery（世界規模の Visual Discovery）

1 物理ベースの外観モデル

物理ベースのグラフィックスから始めましょう。

最初に、有名なテストである Cornell ボックステストを紹介したいと思います。これは、レンダリングされたシーンと同じシーンの実際の写真を比較することによって、レンダリングソフトウェアの精度を判断するように設計されています。私がお見せする 2 つの写真は、1 つは人工的にレンダリングされたもので、もう 1 つは本物です。実際、左側は実際のシーンで、右側は仮想の写真です。

康奈尔计算学院院长Kavita Bala：「元宇宙」算什么？上帝之眼或将通过 AI 诞生

人々は、このテストでは本物か偽物かを検出できない画像を作成するために何年も取り組んできました。しかし、現実の世界はコーネル大学の箱の絵のように単純ではなく、この絵にある布地、皮、木の葉、食べ物など、さまざまな素材が存在します。人々は常に世界と対話し、自分が見ているものが現実であるかどうかを判断しています。下の左側のモデルのリアルな視覚効果をシミュレートしたい場合、これらの複雑なマテリアルをどのように表現するかは大きな課題であり、これは私が長年研究してきた問題でもあります。

康奈尔计算学院院长Kavita Bala：「元宇宙」算什么？上帝之眼或将通过 AI 诞生

それでは、布地や布地の外観を適切にキャプチャする方法について説明します。まず質問ですが、この 2 枚の写真を見てください。人間であれば、左がベルベット、右が光沢のあるシルクのような素材だとすぐにわかりますが、なぜすぐにそれがわかるのでしょうか?ベルベットがベルベットのように見えるのはなぜですか、またシルクがベルベットとは異なりながらシルクのように見えるのはなぜですか?

康奈尔计算学院院长Kavita Bala：「元宇宙」算什么？上帝之眼或将通过 AI 诞生

#答えは「構造」です。

2 つの生地は外観が異なるだけでなく、その本質は、構造の違いにより視覚効果が異なることです。この構造を理解すれば、彼らの視覚的な本質を捉えることができます。

つまり、最初のプロジェクトで私たちが行ったことは、これらの材料のマイクロ CT スキャンを観察することでした。

ベルベットのマイクロ CT スキャンでは、ベルベットが毛皮で覆われた素材であることがわかります。

康奈尔计算学院院长Kavita Bala：「元宇宙」算什么？上帝之眼或将通过 AI 诞生

#シルクの構造はまったく異なります。シルクは非常に密に絡み合っており、経糸と緯糸が特定のパターンを形成しています。非常にタイトなので、シルクに光沢のある効果が与えられます。

康奈尔计算学院院长Kavita Bala：「元宇宙」算什么？上帝之眼或将通过 AI 诞生

そう言えば、材料の微細構造さえ把握できれば、材料の外観モデルは基本的に把握できることがわかります。たとえその素材が非常に複雑であっても、そのルーツに忠実であり続けます。

構造を理解すると、色などの光学的性質を示す情報を把握できるようになります。この情報は完全なモデルを提供するのに十分であり、このマテリアルのリアルな視覚効果を再現することができました。

写真に示すように、2 つの生地の構造的特徴を習得することで、ベルベットとシルクの視覚効果を復元することに成功しました。

康奈尔计算学院院长Kavita Bala：「元宇宙」算什么？上帝之眼或将通过 AI 诞生

私たちは、これらのモデルを実際に推進し、このモデルが実際にどのような応用が可能かを考えるために多くの調査を行ってきました。このツールにより、工業デザイナーやテキスタイルデザイナーなどがデジタルプロトタイピングを容易にし、実際の織物の外観をシミュレートできるようになると考えています。

工業用織機では、実際の糸がボビンに使用され、織りパターンが追加された後、工業用織機は下図の右のような生地を生産します。私たちが作成したい現代的な視覚チューリングテストは、本質的には、CT スキャンと写真を組み合わせて使用し、工業用織機と同じ効果を実現する完全デジタルパイプラインです。

康奈尔计算学院院长Kavita Bala：「元宇宙」算什么？上帝之眼或将通过 AI 诞生 #この仮想的でありながら現実的な視覚効果により、デザイナーは実際に生地を製造することなく重要な決定を下すことができます。

実際に、材料構造をより直観的に表現する低次元モデルと22個のパラメータを作成しました。このツールを使いこなせると、設計者はさらに大きな力を得ることができます。

康奈尔计算学院院长Kavita Bala：「元宇宙」算什么？上帝之眼或将通过 AI 诞生そして、これら 22 のパラメータは、これから説明する 2 番目のトピックである逆グラフィックスにつながります。

逆グラフィックス

私たちが遭遇した 2 番目の問題は、これらのモデルを用意した後、これらのモデルにどのように適応するかということです。これはコンピュータグラフィックスの研究においても重要なテーマです。

光と物体の表面の関係から始めましょう。

#光が金属表面に当たると、光は反射されます。皮膚、食品、布地など、他の物質の表面に光が当たると、光は表面に入り、物体とある程度相互作用します。これを表面下散乱と呼びます。

#上の写真のように、お寿司が美味しいかどうかの判断方法は、見た目のツヤと鮮度で判断します。したがって、特定のオブジェクトの視覚効果をシミュレートしたい場合は、そのようなオブジェクトの表面に光が当たったときに何が起こるかを理解する必要があります。

康奈尔计算学院院长Kavita Bala：「元宇宙」算什么？上帝之眼或将通过 AI 诞生

#キャプション: エンドツーエンドのパイプライン

康奈尔计算学院院长Kavita Bala：「元宇宙」算什么？上帝之眼或将通过 AI 诞生

理想的な条件下, 私たちはある種の学習された表現を持っています. 写真を撮った後, 写真の中のオブジェクトがどのような材料特性と材料パラメータを持っているかを識別することができます. また, 異なる散乱に関連する 3 つのパラメータも知ることができます: 媒体中をどれだけ遠くまで移動するか, どのように移動するかどれだけ拡散するか、散乱したときの物質のアルベドはどれくらいかなど。

そして現在、オブジェクトの表面に光が当たる物理プロセス全体をシミュレートできる非常に優れた物理ベースのレンダラーがあり、この種のレンダリングを作成する能力はすでにあると思います。パイプライン。

物理ベースのレンダラーと学習された表現を組み合わせてこのエンドツーエンドのパイプラインを取得し、出力画像を入力画像と照合して損失を最小限に抑えると、マテリアルプロパティ (つまり、上の図の中央にある材料 π)。

これを効果的に行うには、学習と物理学を効果的に組み合わせ、世界の物理的なレンダリングプロセスを逆さまにして、逆パラメータを取得するよう努める必要があります。

康奈尔计算学院院长Kavita Bala：「元宇宙」算什么？上帝之眼或将通过 AI 诞生

#しかし、形状や材質の復元は非常に困難です。上記のプロセスでは、レンダリングエンジン R が微分可能である必要があります。最近の多くの研究では、この問題を勉強しています。

映画のシーンのような製品の視覚効果を復元できるようにしたい場合は、微分可能なレンダリングパイプラインが必要です。つまり、次のことが必要です。復元したい属性の損失を区別できるようになります。これはマテリアルとジオメトリを復元する例です。チェーンメソッドを使用してサーフェスのエッジをサンプリングするだけで、必要な情報を取得できます。

康奈尔计算学院院长Kavita Bala：「元宇宙」算什么？上帝之眼或将通过 AI 诞生

次に、以下に示すように、オブジェクトの視覚効果を復元するプロセスを思いつきます。まず、携帯電話を使用して復元したいオブジェクトの一連の写真を撮り、次に写真を初期化し、素材と形状を最適化し、微分可能レンダリングを通じて再度最適化します。最後に、オブジェクトは現実的なシミュレーションを表示できます。拡張現実/仮想現実およびその他のアプリケーションで使用できます。

康奈尔计算学院院长Kavita Bala：「元宇宙」算什么？上帝之眼或将通过 AI 诞生

ビジュアルシミュレーションにおいて、表面下散乱は非常に重要な現象です。下の写真は Cubes (正方形) と呼ばれる複数のアーティストによる作品です。実はこれ、98種類の食べ物で作られた一辺2.5センチの正方形なんです。 98 種類の食品のそれぞれの表面は異なっていて複雑であり、それが私たちの探索への興味をそそりました。

康奈尔计算学院院长Kavita Bala：「元宇宙」算什么？上帝之眼或将通过 AI 诞生

#食品の表面は非常に複雑であるため、原材料の特性を復元する際には表面下散乱を考慮する必要があります。この点については、後の論文で説明するように、完全差分レンダリングパイプラインを開発しました。このパイプラインを使用して回復するのは、表面下散乱を中心とした材料特性です。最後に、2 つのフルーツの異なる素材と形状を復元し、キウイとドラゴンフルーツのキューブの視覚効果を表現することに成功しました。

康奈尔计算学院院长Kavita Bala：「元宇宙」算什么？上帝之眼或将通过 AI 诞生

イラスト: キウイとドラゴンフルーツのキューブを復元するプロセス

# #In以上の研究を学習と物理学を組み合わせて行い、重要な点を以下の3点にまとめました。

視覚現象を理解する;
オブジェクトの視覚効果を復元する前に、まずオブジェクトが示す視覚効果を予測します;
ユーザーコントロール。

康奈尔计算学院院长Kavita Bala：「元宇宙」算什么？上帝之眼或将通过 AI 诞生

##3 世界規模のビジュアル発見

主人公が道を歩いていたのを今でも覚えています映画では、現場で彼はウィンドウにある製品を見て、視覚的なインターフェイスが彼に目にした物体に関するすべての情報を伝えます。

これはファイングレインオブジェクト認識 (ファイングレインオブジェクト認識) は、コンピュータビジョンにおける大きな研究分野です。製品識別や不動産などの多くの業界で応用されています。

康奈尔计算学院院长Kavita Bala：「元宇宙」算什么？上帝之眼或将通过 AI 诞生

#キャプション: きめ細かい物体認識によって提供される正確な情報

たとえば、この写真では、きめ細かいオブジェクト認識により、この人が x を持っていることがわかります。この x はハンドバッグを指しているわけではありません (ほとんどの人はこれを認識できます)。しかし、ここでの x は特定のブランドのハンドバッグを指しています。この種の正確な知識は、ほとんどの一般人には手の届かないものです。

本質的には、視覚認識を通じて専門家レベルの情報を提供したり、複数の分野の専門家レベルの情報を提供したりすることができ、この分野の研究は非常に興味深いものだと思います。

康奈尔计算学院院长Kavita Bala：「元宇宙」算什么？上帝之眼或将通过 AI 诞生

この写真はキャンプファイヤーストーブです。見た目だけではこのオブジェクトの目的を判断できない人もいるかもしれません

が、詳しくは粒度の高いオブジェクト認識により、これがキャンプファイヤーストーブであることがわかるだけでなく、アートワークの名前、購入できる場所、デザインしたアーティストに関する情報も得られます。

康奈尔计算学院院长Kavita Bala：「元宇宙」算什么？上帝之眼或将通过 AI 诞生

イラスト: IKEA APP

私たちはIKEAにいますこの利用方法は拡張現実APPで開始されました。視覚認識と仮想レンダリングを拡張現実 APP に統合し、それ以来、ビジュアルインターフェイスに関するこれまでのアイデアが徐々に現実になり始めました。

康奈尔计算学院院长Kavita Bala：「元宇宙」算什么？上帝之眼或将通过 AI 诞生

注: Meta のショッピング AI GrokNet のインターフェイス

Tu の調査実はMetaのショッピングAI「GrokNet」の一部だ。 GrokNet のスローガンは、すべての画像が人々を買い物に導く (買い物可能) ことであり、研究チームと私の目標は、すべての画像を理解できる (理解できる) ようにすることです。

康奈尔计算学院院长Kavita Bala：「元宇宙」算什么？上帝之眼或将通过 AI 诞生

私が上で述べたことは比較的基礎的な研究であり、私たちが現在行っていることは、写真、ビデオ、さらには衛星画像を含む前例のない規模で視覚情報を収集することです。衛星の数はここ数年で大幅に増加しました。現在では約 1,500 個の衛星があります。これらの衛星は毎日 100 テラバイトのデータをアップロードします。衛星画像を理解できれば、全世界の方向を理解することができます。世界で何が起こっているかを知ることは、非常に刺激的な研究の方向性です。

康奈尔计算学院院长Kavita Bala：「元宇宙」算什么？上帝之眼或将通过 AI 诞生

# キャプション: 世界規模の写真を理解できるでしょうか?

#世界レベルでこの全体像を理解できれば、この全体像に関するこれらの質問に答えることができます。「私たちはどのように生きるべきですか?」私たちは何を着ますか？何を食べれば良いか？私たちの行動は時間の経過とともにどのように変化するのでしょうか?地球は時間の経過とともにどのように変化しましたか?

#そこで私たちは、これらの質問に興味を持った人類学者や社会学者とこの質問に取り組み始めました。ただ、強力なツールが欠けています。研究を行うこと。私たちが一緒に仕事をした人類学者の一人は、世界中で衣服がどのように変化したかに非常に興味を持っており、この質問には多くの関連性があることがわかりました。

康奈尔计算学院院长Kavita Bala：「元宇宙」算什么？上帝之眼或将通过 AI 诞生

なぜ地球上のさまざまな地域で人々の服装が異なるのでしょうか?

そこで私たちはこの問題を調査し、世界中の人々の約 800 万枚の画像の分析を開始しました。私たちは、人々が着ている服を識別するための、12 の属性を含む単純な認識アルゴリズムを発明しました。

そして、この調査から何が判明したのでしょうか?

康奈尔计算学院院长Kavita Bala：「元宇宙」算什么？上帝之眼或将通过 AI 诞生

分析から特定のパターンがわかります。たとえば、右上隅の人々は緑色の服を着ている傾向があり、一方、右上隅の人々は緑色の服を着ている傾向があります。左下隅人々は赤い服を着る傾向があります。

ビッグデータの分析により、一部のデータは事前設定と一致していることがわかりました。たとえば、天候は人々の服装に影響を与えます。人々は冬には厚手の服を着ることを選択し、夏には涼しい服を着るということは論理的ですが、いくつかの側面で奇妙なデータ現象が見られます。下の図に示すように、シカゴでは過去数年間、人々の服装選択のピークとなった時期がいくつかありました。緑を着る。

康奈尔计算学院院长Kavita Bala：「元宇宙」算什么？上帝之眼或将通过 AI 诞生