ホームページ >テクノロジー周辺機器 >AI >オブジェクトの 3D 表現と生成モデルを透視: NUS チームが X 線を提案

オブジェクトの 3D 表現と生成モデルを透視: NUS チームが X 線を提案

王林転載: 2024-05-06 18:30:131239ブラウズ

プロジェクトのホームページ: https://tau-yihouxiang.github.io/projects/X-Ray/X-Ray.html
ペーパーアドレス: https://arxiv.org/abs/2404.14329
コードアドレス: https://github.com/tau-yihouxiang/ X 線
データセット: https://huggingface.co/datasets/yihouxiang/X-Ray

オブジェクトの 3D 表現と生成モデルを透視: NUS チームが X 線を提案

##現在、人工知能は人間の知能の分野で急速に発展しています。コンピュータービジョンでは、画像とビデオの生成テクノロジがますます成熟しており、Midjourney や Stable Video Diffusion などのモデルが広く使用されています。しかし、3D ビジョン分野の生成モデルは依然として課題に直面しています。

現在の 3D モデル生成テクノロジは、通常、マルチアングルビデオの生成と神経放射場 (NeRF) または3D ガウススムーズモデル (3D ガウススプラッティングテクノロジー) により、3D オブジェクトを段階的に構築します。この方法は主に単純な非セルフオクルージョンの 3 次元オブジェクトの生成に限定されており、オブジェクトの内部構造を表現できないため、生成プロセス全体が複雑かつ不完全になり、この技術の複雑さと限界が示されています。

その理由は、現在、柔軟で効率的かつ簡単に一般化できる 3D 表現 (3D 表現) が不足しているためです。

オブジェクトの 3D 表現と生成モデルを透視: NUS チームが X 線を提案

図 1. X 線によるシリアル化された 3D 表現

シンガポール国立大学 (NUS) Huラン博士は研究チームを率いて、カメラの視点から見た物体の表面形状と質感を逐次表現し、ビデオ生成機能を駆使してモデルを生成できる新しい 3D 表現 - X 線をリリースしました。これらの利点を利用して 3D オブジェクトを生成し、オブジェクトの内部および外部の 3D 構造を同時に生成できます。

この記事では、X 線テクノロジーの原理、利点、幅広い応用の可能性について詳しく説明します。

オブジェクトの 3D 表現と生成モデルを透視: NUS チームが X 線を提案

図 2. レンダリングベースの 3D モデル生成方法との比較。

技術革新：物体の内外面の3次元表現法

X線表現：物体を起点とするH×Wカメラの中心をオブジェクトの方向に向けてマトリックスポイントが光線を放射します。各光線方向において、物体表面との交点に奥行き、法線ベクトル、色などのL個の三次元属性データを1つずつ記録し、L×H×Wの形式に整理します。あらゆる 3D モデルの作成を実現するために、これがチームによって提案された X 線表現方法です。

表現がビデオ形式と同じであるため、ビデオ生成モデルを 3D 生成モデルの作成に使用できることは注目に値します。具体的なプロセスは以下の通りです。

オブジェクトの 3D 表現と生成モデルを透視: NUS チームが X 線を提案

図 3. 異なる層数の X 線サンプル。

1. エンコードプロセス: 3D モデルから X 線への変換

与えられた 3D モデル (通常は 3 次元)グリッドでは、まずモデルを観察するためにカメラを設定し、次にレイキャスティングアルゴリズムを使用して、各カメラの光線がオブジェクトと交差するすべてのサーフェスのプロパティを記録します。

#、法線ベクトルオブジェクトの 3D 表現と生成モデルを透視: NUS チームが X 線を提案 #、色など、説明の便宜上、## を使用します。 # その位置にサーフェスが存在するかどうかを表します。次に、カメラ光線などのすべての交差する表面点を取得することで、次の式と図 3 に示すように、完全な X 線 3D 表現を取得できます。オブジェクトの 3D 表現と生成モデルを透視: NUS チームが X 線を提案

エンコードプロセスを通じて、任意の 3D モデルは、ビデオ形式と同じでフレーム数が異なる X-Ray に変換されます。通常、フレーム数 L=8 で十分です。 3Dオブジェクトを表現します。

2. デコードプロセス: X 線から 3D モデルへの変換

X 線があれば、次のこともできます。デコード処理を経て 3D モデルに戻されるため、X-Ray を生成するだけで 3D モデルを生成できます。具体的な処理には、点群生成処理と点群表面再構成処理の２つの処理が含まれる。

X 線から点群へ: 3D 点の位置座標に加えて、各点には色もありますそして法線ベクトル情報。

オブジェクトの 3D 表現と生成モデルを透視: NUS チームが X 線を提案

ここで、r_0 と r_d はそれぞれカメラレイの開始点と正規化された方向です。各カメラレイを処理することで、A が得られます。完全な点群を取得できます。

点群から 3 次元メッシュへ: 次のステップは、点群を 3 次元メッシュに変換することです。これは長年研究されてきた技術で、これらの点群は法線ベクトルを持っているため、スクリーンドポアソンアルゴリズムを使用して点群を最終的な 3D モデルである 3 次元メッシュモデルに直接変換します。

X 線表現に基づく 3D モデル生成

高解像度で多様な 3D X 線モデルを生成するには、チームは、ビデオ形式と同様のビデオ拡散モデルアーキテクチャを使用しました。このアーキテクチャは、連続 3D 情報を処理し、アップサンプリングモジュールを通じて X 線の品質を向上させ、高精度の 3D 出力を生成します。拡散モデルはノイズの多いデータから詳細な 3D 画像を段階的に生成する役割を果たし、アップサンプリングモジュールは画像の解像度と詳細を強化して高品質基準を満たすようにします。具体的な構造を図4に示します。

X 線拡散生成モデル

拡散モデルは X 線生成で潜在空間を使用し、通常はベクトル量子化 - 変分法のカスタム開発が必要です。オートエンコーダ (VQ-VAE) [3] はデータ圧縮を実行しますが、このプロセスには既製のモデルがなく、トレーニングの負担が増大します。

高解像度ジェネレーターを効果的にトレーニングするために、チームはカスケード合成戦略を採用し、限られた環境に適応するために Imagen や Stable Cascaded などのテクノロジーを通じて低解像度から高解像度まで段階的にトレーニングしました。コンピューティングリソースを活用し、X 線画像の品質を向上させます。

具体的には、Stable Video Diffusion の 3D U-Net アーキテクチャが、低解像度の X 線を生成する拡散モデルとして使用され、時空間的注意を通じて 2D フレームと 1D 時間から生成されます。メカニズムシーケンスから特徴を抽出して、高品質の結果に不可欠な X 線の処理と解釈を強化します。

X 線アップサンプリングモデル

前段階の拡散モデルでは、低解像度の放射線画像しか生成できません。その後の段階では、これらの低解像度の X 線をより高い解像度にアップグレードすることに重点が置かれます。

チームは、点群アップサンプリングとビデオアップサンプリングという 2 つの主要なアプローチを検討しました。

形状と外観の大まかな表現が得られたため、このデータを色と法線を使用して点群にエンコードするのは簡単なプロセスです。

ただし、点群表現の構造は緩すぎるため、密な予測には適していません。従来の点群アップサンプリング手法は通常、単にポイントの数を増やすだけであり、次のような点を改善するのに役立ちます。テクスチャとカラーが十分に有効ではない可能性があります。プロセスを簡素化し、パイプライン全体の一貫性を確保するために、ビデオアップサンプリングモデルが選択されました。

このモデルは、Stable Video Diffusion (SVD) の時空間 VAE デコーダから適応されており、合成 X 線フレームのオリジナルを維持しながら 4 倍にアップサンプリングするために最初から特別にトレーニングされています。層。デコーダは、フレームレベルと階層レベルで独立してアテンション操作を実行できます。この二重層のアテンションメカニズムにより、解像度が向上するだけでなく、画像全体の品質も大幅に向上します。これらの機能により、ビデオアップサンプリングモデルは、高解像度 X 線生成において、より調整された効率的なソリューションになります。

オブジェクトの 3D 表現と生成モデルを透視: NUS チームが X 線を提案

図 4: X 線拡散モデルと X 線アップサンプリングモデルを含む、X 線表現に基づく 3D モデル生成フレームワーク。

実験

1. データセット:

実験的使用Objaverse データセットのフィルタリングされたサブセットが作成され、そこからテクスチャの不足やヒントが不十分なエントリが削除されました。

このサブセットには 60,000 を超える 3D オブジェクトが含まれています。オブジェクトごとに、方位角 -180 ～ 180 度、仰角 -45 ～ 45 度をカバーする 4 つのカメラビューがランダムに選択され、カメラからオブジェクトの中心までの距離は 1.5 に固定されます。

次に、Blender ソフトウェアを使用してレンダリングし、trimesh ライブラリによって提供されるレイキャスティングアルゴリズムを通じて対応する X 線を生成します。これらのプロセスを通じて、生成モデルをトレーニングするために 240,000 を超える画像と X 線データセットのペアを作成できます。

2. 実装の詳細:

X 線拡散モデルは、Stable Video Diffusion (SVD) で使用される時空間 UNet アーキテクチャに基づいており、若干の調整が加えられています。モデルは、8 つのチャネル (ヒットチャネル 1 つ、深度チャネル 1 つ、および 6 つのチャネル) を合成するように構成されています。元のネットワークの 4 チャネルと比較して、通常のチャネル。

X 線画像と従来のビデオの間には大きな違いがあるため、モデルは X 線とビデオのフィールド間の大きなギャップを埋めるためにゼロからトレーニングされました。トレーニングは 8 台の NVIDIA A100 GPU サーバーで 1 週間にわたって実施されました。この期間中、AdamW オプティマイザーを使用して学習率は 0.0001 に維持されました。

X 線ごとにレイヤー数が異なるため、バッチ処理とトレーニングを向上させるために同じ 8 レイヤーにパッドまたはクロップします。各レイヤーのフレームサイズは 64×64 です。アップサンプリングモデルの場合、L 層の出力は依然として 8 ですが、各フレームの解像度は 256 × 256 に増加し、拡大された X 線の詳細と明瞭さが向上します。結果を図 5 と 6 に示します。。

オブジェクトの 3D 表現と生成モデルを透視: NUS チームが X 線を提案