ホームページ > 記事 > テクノロジー周辺機器 > コーネル大学コンピューティング学部長、カビタ・バラ氏: 「メタバース」とは何ですか?神の目はAIによって生まれるかもしれない
この記事は Lei Feng.com から転載されたものです。転載する必要がある場合は、Lei Feng.com の公式 Web サイトにアクセスして許可を申請してください。
過去数年間の私の研究は、ミクロンの解像度から世界クラスの解像度に至るまで、主に視覚的な外観と理解に焦点を当ててきました。スピーチを始める前に、非常に興味深い例を紹介したいと思いますが、この映画の主人公と世界との間の視覚的なインターフェイスは非常に興味深いものです。
この人が現実世界を歩くと、ビジュアル インターフェイスに一連のテキストが表示されることがわかります。主人公は車のファンなので、ビジュアル インターフェイスには車に関する豊富な情報が表示されます。
必要な写真は 1 枚だけです。ビジュアルインターフェイスは、この車に関するすべての情報を伝えることができます。このテクノロジーを進歩させるには、コンピュータービジョンと視覚理解の分野での研究が必要です。
主人公は歩き続けますが、これらのモデルに近づくと、非常に現実的に見えますが、それらが本物の人間ではないことがわかります。このような技術を実現するためには、RealisticAppearance(RealisticAppearance)を研究する必要があります。
その後、主人公はショッピング ウィンドウに歩いて行き、ウィンドウ内にあるすべての商品を目にしました。今回のビジュアル インターフェイスには、製品に含まれるすべての情報が表示され、製品を着用した場合の効果もシミュレートされており、主人公は実際に製品に触れることなく製品を体験できます。
このビデオの効果を実現するには、「Inverse Graphics( Inverse graphics」というメソッドが必要です)テクノロジーは商品のあらゆる属性をデジタル化し、それらと相互作用することができます。
私たちが開発しているさまざまなテクノロジーを紹介するために、これらの例を示します。拡張現実/複合現実についてよく聞いたことがあると思います。私が今言及したものはすべて、現在のテクノロジーです。拡張現実の開発を推進します。今日はビジュアルテクノロジーに焦点を当てます。
コンピュータ グラフィックスの分野では、本物か偽物かわからないほどリアルに見えるモデルをフォトリアリスティック外観と呼びますが、この分野では別の表現があります。物体の写真と、その写真に写っている物体のすべての属性をどのように理解すればよいでしょうか。そうすれば、これに基づいて世界の属性を理解するための開発を続けることができます。
#今日お話したいのは次の 3 つの主な内容です:
物理ベースのグラフィックスから始めましょう。
最初に、有名なテストである Cornell ボックス テストを紹介したいと思います。これは、レンダリングされたシーンと同じシーンの実際の写真を比較することによって、レンダリング ソフトウェアの精度を判断するように設計されています。私がお見せする 2 つの写真は、1 つは人工的にレンダリングされたもので、もう 1 つは本物です。実際、左側は実際のシーンで、右側は仮想の写真です。
人々は、このテストでは本物か偽物かを検出できない画像を作成するために何年も取り組んできました。しかし、現実の世界はコーネル大学の箱の絵のように単純ではなく、この絵にある布地、皮、木の葉、食べ物など、さまざまな素材が存在します。人々は常に世界と対話し、自分が見ているものが現実であるかどうかを判断しています。下の左側のモデルのリアルな視覚効果をシミュレートしたい場合、これらの複雑なマテリアルをどのように表現するかは大きな課題であり、これは私が長年研究してきた問題でもあります。
それでは、布地や布地の外観を適切にキャプチャする方法について説明します。まず質問ですが、この 2 枚の写真を見てください。人間であれば、左がベルベット、右が光沢のあるシルクのような素材だとすぐにわかりますが、なぜすぐにそれがわかるのでしょうか?ベルベットがベルベットのように見えるのはなぜですか、またシルクがベルベットとは異なりながらシルクのように見えるのはなぜですか?
#答えは「構造」です。
2 つの生地は外観が異なるだけでなく、その本質は、構造の違いにより視覚効果が異なることです。この構造を理解すれば、彼らの視覚的な本質を捉えることができます。
つまり、最初のプロジェクトで私たちが行ったことは、これらの材料のマイクロ CT スキャンを観察することでした。
ベルベットのマイクロ CT スキャンでは、ベルベットが毛皮で覆われた素材であることがわかります。
#シルクの構造はまったく異なります。シルクは非常に密に絡み合っており、経糸と緯糸が特定のパターンを形成しています。非常にタイトなので、シルクに光沢のある効果が与えられます。
そう言えば、材料の微細構造さえ把握できれば、材料の外観モデルは基本的に把握できることがわかります。たとえその素材が非常に複雑であっても、そのルーツに忠実であり続けます。
構造を理解すると、色などの光学的性質を示す情報を把握できるようになります。この情報は完全なモデルを提供するのに十分であり、このマテリアルのリアルな視覚効果を再現することができました。
写真に示すように、2 つの生地の構造的特徴を習得することで、ベルベットとシルクの視覚効果を復元することに成功しました。
私たちは、これらのモデルを実際に推進し、このモデルが実際にどのような応用が可能かを考えるために多くの調査を行ってきました。このツールにより、工業デザイナーやテキスタイル デザイナーなどがデジタル プロトタイピングを容易にし、実際の織物の外観をシミュレートできるようになると考えています。
工業用織機では、実際の糸がボビンに使用され、織りパターンが追加された後、工業用織機は下図の右のような生地を生産します。私たちが作成したい現代的な視覚チューリング テストは、本質的には、CT スキャンと写真を組み合わせて使用し、工業用織機と同じ効果を実現する完全デジタル パイプラインです。
#この仮想的でありながら現実的な視覚効果により、デザイナーは実際に生地を製造することなく重要な決定を下すことができます。
実際に、材料構造をより直観的に表現する低次元モデルと22個のパラメータを作成しました。このツールを使いこなせると、設計者はさらに大きな力を得ることができます。
そして、これら 22 のパラメータは、これから説明する 2 番目のトピックである逆グラフィックスにつながります。
2
逆グラフィックス光と物体の表面の関係から始めましょう。
#光が金属表面に当たると、光は反射されます。皮膚、食品、布地など、他の物質の表面に光が当たると、光は表面に入り、物体とある程度相互作用します。これを表面下散乱と呼びます。
#上の写真のように、お寿司が美味しいかどうかの判断方法は、見た目のツヤと鮮度で判断します。したがって、特定のオブジェクトの視覚効果をシミュレートしたい場合は、そのようなオブジェクトの表面に光が当たったときに何が起こるかを理解する必要があります。
#キャプション: エンドツーエンドのパイプライン
理想的な条件下, 私たちはある種の学習された表現を持っています. 写真を撮った後, 写真の中のオブジェクトがどのような材料特性と材料パラメータを持っているかを識別することができます. また, 異なる散乱に関連する 3 つのパラメータも知ることができます: 媒体中をどれだけ遠くまで移動するか, どのように移動するかどれだけ拡散するか、散乱したときの物質のアルベドはどれくらいかなど。
そして現在、オブジェクトの表面に光が当たる物理プロセス全体をシミュレートできる非常に優れた物理ベースのレンダラーがあり、この種のレンダリングを作成する能力はすでにあると思います。パイプライン。物理ベースのレンダラーと学習された表現を組み合わせてこのエンドツーエンドのパイプラインを取得し、出力画像を入力画像と照合して損失を最小限に抑えると、マテリアル プロパティ (つまり、上の図の中央にある材料 π)。 これを効果的に行うには、学習と物理学を効果的に組み合わせ、世界の物理的なレンダリング プロセスを逆さまにして、逆パラメータを取得するよう努める必要があります。 #しかし、形状や材質の復元は非常に困難です。上記のプロセスでは、レンダリング エンジン R が微分可能である必要があります。最近の多くの研究では、この問題を勉強しています。 映画のシーンのような製品の視覚効果を復元できるようにしたい場合は、微分可能なレンダリング パイプラインが必要です。つまり、次のことが必要です。復元したい属性の損失を区別できるようになります。これはマテリアルとジオメトリを復元する例です。チェーン メソッドを使用してサーフェスのエッジをサンプリングするだけで、必要な情報を取得できます。 次に、以下に示すように、オブジェクトの視覚効果を復元するプロセスを思いつきます。まず、携帯電話を使用して復元したいオブジェクトの一連の写真を撮り、次に写真を初期化し、素材と形状を最適化し、微分可能レンダリングを通じて再度最適化します。最後に、オブジェクトは現実的なシミュレーションを表示できます。拡張現実/仮想現実およびその他のアプリケーションで使用できます。 ビジュアル シミュレーションにおいて、表面下散乱は非常に重要な現象です。下の写真は Cubes (正方形) と呼ばれる複数のアーティストによる作品です。実はこれ、98種類の食べ物で作られた一辺2.5センチの正方形なんです。 98 種類の食品のそれぞれの表面は異なっていて複雑であり、それが私たちの探索への興味をそそりました。 #食品の表面は非常に複雑であるため、原材料の特性を復元する際には表面下散乱を考慮する必要があります。この点については、後の論文で説明するように、完全差分レンダリング パイプラインを開発しました。このパイプラインを使用して回復するのは、表面下散乱を中心とした材料特性です。最後に、2 つのフルーツの異なる素材と形状を復元し、キウイとドラゴン フルーツのキューブの視覚効果を表現することに成功しました。 イラスト: キウイとドラゴン フルーツのキューブを復元するプロセス # #In以上の研究を学習と物理学を組み合わせて行い、重要な点を以下の3点にまとめました。 主人公が道を歩いていたのを今でも覚えています映画では、現場で彼はウィンドウにある製品を見て、視覚的なインターフェイスが彼に目にした物体に関するすべての情報を伝えます。 これは ファイングレイン オブジェクト認識 (ファイングレイン オブジェクト認識) は、コンピュータ ビジョンにおける大きな研究分野です。製品識別や不動産などの多くの業界で応用されています。 #キャプション: きめ細かい物体認識によって提供される正確な情報 本質的には、視覚認識を通じて専門家レベルの情報を提供したり、複数の分野の専門家レベルの情報を提供したりすることができ、この分野の研究は非常に興味深いものだと思います。
この写真はキャンプファイヤーストーブです。見た目だけではこのオブジェクトの目的を判断できない人もいるかもしれません が、詳しくは粒度の高いオブジェクト認識により、これがキャンプファイヤーストーブであることがわかるだけでなく、アートワークの名前、購入できる場所、デザインしたアーティストに関する情報も得られます。 イラスト: IKEA APP
注: Meta のショッピング AI GrokNet のインターフェイス
私が上で述べたことは比較的基礎的な研究であり、私たちが現在行っていることは、写真、ビデオ、さらには衛星画像を含む前例のない規模で視覚情報を収集することです。衛星の数はここ数年で大幅に増加しました。現在では約 1,500 個の衛星があります。これらの衛星は毎日 100 テラバイトのデータをアップロードします。 衛星画像を理解できれば、全世界の方向を理解することができます。世界で何が起こっているかを知ることは、非常に刺激的な研究の方向性です。 # キャプション: 世界規模の写真を理解できるでしょうか? #世界レベルでこの全体像を理解できれば、この全体像に関するこれらの質問に答えることができます。「私たちはどのように生きるべきですか?」私たちは何を着ますか?何を食べれば良いか?私たちの行動は時間の経過とともにどのように変化するのでしょうか?地球は時間の経過とともにどのように変化しましたか?
なぜ地球上のさまざまな地域で人々の服装が異なるのでしょうか?
そして、この調査から何が判明したのでしょうか?
分析から特定のパターンがわかります。たとえば、右上隅の人々は緑色の服を着ている傾向があり、一方、右上隅の人々は緑色の服を着ている傾向があります。左下隅 人々は赤い服を着る傾向があります。 ビッグデータの分析により、一部のデータは事前設定と一致していることがわかりました。たとえば、天候は人々の服装に影響を与えます。人々は冬には厚手の服を着ることを選択し、夏には涼しい服を着るということは論理的ですが、いくつかの側面で奇妙なデータ現象が見られます。下の図に示すように、シカゴでは過去数年間、人々の服装選択のピークとなった時期がいくつかありました。緑を着る。
これらの時点はすべて毎年 3 月にあります。調査の結果、これらの時点はシカゴの聖パトリックの日であることが判明しました: #これは非常に重要な地元のお祭りであり、シカゴの人々はこの日に緑色の服を着ることを選択します。地元に住んでいない人は、この文化イベントについて知らないかもしれません。 #注: 文化活動は世界中で評価されており、人々はこれらの活動のためにさまざまな色の服を着ます
元のビデオリンク: https://www.youtube.com/watch?v=kaQSc4iFaxc
##3 世界規模のビジュアル発見
天候は非常に重要な理由です。ここの気候はカリフォルニアよりも涼しいため、私たちは夏にカリフォルニアの人々とは異なる服装をします。 ;
そこで私たちはこの問題を調査し、世界中の人々の約 800 万枚の画像の分析を開始しました。私たちは、人々が着ている服を識別するための、12 の属性を含む単純な認識アルゴリズムを発明しました。
以上がコーネル大学コンピューティング学部長、カビタ・バラ氏: 「メタバース」とは何ですか?神の目はAIによって生まれるかもしれないの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。