ホームページ >テクノロジー周辺機器 >AI >3D 点群、分類、検索、字幕、画像生成のオープンワールドの理解
ロッキングチェアと馬の 3 次元形状を入力すると、何が得られるでしょうか?
##木製カートと馬?馬車と電動馬、バナナと帆船を手に入れましょうか?バナナヨットを手に入れましょう。卵とデッキチェアはいかがですか?エッグチェアを手に入れましょう。
UCSD、上海交通大学、クアルコムのチームの研究者らは、最新の 3 次元表現モデル OpenShape を提案しました。 3次元形状のオープンワールド。
#三次元形状ゼロショット分類
##OpenShape はゼロショット三次元形状分類をサポートします。追加のトレーニングや微調整を行わなくても、OpenShape は一般的に使用される ModelNet40 ベンチマーク (40 の一般的なカテゴリを含む) でトップ 1 の精度 85.3% を達成し、既存のゼロショット手法を 24 パーセントポイント上回り、完全に監視された一部の手法と同等のパフォーマンスを達成します。初めて 。OpenShape の ModelNet40 でのトップ 3 とトップ 5 の精度は、それぞれ 96.5% と 98.0% に達しました。
主にいくつかの一般的なオブジェクト カテゴリに限定されている既存のメソッドとは異なり、OpenShape は広範囲のオブジェクトを分類できます。オープンワールドのカテゴリー。 Objaverse-LVIS ベンチマーク (1156 のオブジェクト カテゴリを含む) では、OpenShape は 46.8% というトップ 1 の精度を達成し、既存のゼロショット手法の最高精度であるわずか 6.2% をはるかに上回っています。これらの結果は、OpenShape がオープンワールドで 3D 形状を効果的に認識する機能を備えていることを示しています。
マルチモーダル 3D 形状検索
画像入力の三次元形状検索
# #
上の図は、入力イメージと取得された 2 つの 3D 形状を示しています。
#テキスト入力の 3 次元形状検索
上の画像は、入力テキストと取得された 3 次元形状を示しています。 OpenShape は、幅広い視覚的および意味論的な概念を学習し、きめ細かいサブカテゴリ (最初の 2 行) と属性制御 (色、形状、スタイル、およびそれらの組み合わせなどの最後の 2 行) を可能にします。
#3D 点群入力の 3D 形状取得
上の図は、入力 3D 点群と 2 つの取得された 3D 形状を示しています。
上の図は 2 つの 3D 形状を入力として受け取り、その OpenShape 表現を使用して両方の入力に最も近い 3D 形状を同時に取得します。取得された形状は、両方の入力形状からの意味要素と幾何学的要素を巧みに組み合わせています。
3 次元形状ベースのテキストおよび画像の生成
OpenShape の 3 次元形状表現は CLIP の画像およびテキスト表現空間に合わせて配置されているため、これらを使用することができます。 CLIP からの派生モデルに基づく多くは、さまざまなクロスモーダル アプリケーションをサポートするために結合されます。
#3 次元点群の字幕生成
既製の画像字幕モデル (ClipCap) と組み合わせることで、OpenShape は 3D 点群の字幕生成を実装します。
#3 次元点群に基づく画像生成
既製のテキストから画像への拡散モデル (Stable unCLIP) と組み合わせることで、OpenShape は 3D 点群に基づく画像生成を実装します (オプションのテキスト ヒントをサポート)。
3 次元点群に基づく画像生成のその他の例
トレーニングの詳細対比学習に基づくマルチモーダル表現の調整: OpenShape は、3D 点群は次のような 3D ネイティブ エンコーダーをトレーニングします。 3D 形状の表現を抽出するための入力として使用されます。以前の研究に続いて、マルチモーダル対比学習を活用して、CLIP の画像およびテキスト表現空間と整合させます。以前の研究とは異なり、OpenShape は、より一般的でスケーラブルなジョイント表現空間を学習することを目的としています。研究の焦点は主に、オープンワールドでの 3D 形状理解を真に実現するために、3D 表現学習の規模を拡大し、対応する課題に対処することです。
複数の 3D 形状データセットの統合: 大規模な 3D 形状表現の学習にはトレーニング データの規模と多様性が重要な役割を果たすため、この研究では、現在公開されている最大のデータセットに関する 4 つのトレーニングを統合しました。 3D データセット。以下の図に示すように、調査されたトレーニング データには 876,000 のトレーニング シェイプが含まれています。 4 つのデータセットのうち、ShapeNetCore、3D-FUTURE、および ABO には人間が検証した高品質の 3D 形状が含まれていますが、限られた数の形状と数十のカテゴリのみをカバーしています。 Objaverse データセットは、最近リリースされた 3D データセットで、より多くの 3D 形状が含まれ、より多様なオブジェクト クラスをカバーしています。しかし、Objaverse の形状は主にインターネット ユーザーによってアップロードされており、手動による検証が行われていないため、品質が不均一であり、配布が非常に不均一であり、さらなる処理が必要です。
テキスト フィルタリングとエンリッチメント: 3D 形状と 2D 画像の間でのみ検出された研究 対照学習の適用大規模なデータセットでトレーニングした場合でも、3D 形状とテキスト空間の位置合わせを推進するには不十分です。研究によると、これは CLIP の言語空間と画像表現空間に固有のドメイン ギャップが原因であると推測されています。したがって、研究では 3D 形状をテキストと明示的に位置合わせする必要があります。ただし、元の 3D データ セットからのテキスト アノテーションは、コンテンツが欠落している、間違っている、粗い、単一のコンテンツであるなどの問題に直面することがよくあります。この目的を達成するために、この文書では、テキストをフィルタリングおよび強化してテキスト注釈の品質を向上させるための 3 つの戦略を提案します。GPT-4 を使用したテキスト フィルタリング、字幕生成、および 3D モデルの 2D レンダリングの画像取得です。
#調査では、自動的にフィルタリングして強化するための 3 つの戦略が提案されました。生のデータセット内のノイズの多いテキスト。
テキスト フィルタリングとエンリッチメントの例
各例の左側のセクションには、サムネイル、元の形状名、GPT-4 フィルター処理された結果が表示されます。右上部分には 2 つのキャプション モデルからの画像キャプションが表示され、右下部分には取得された画像とそれに対応するテキストが表示されます。
三次元基幹ネットワークを拡充します。 3D 点群学習に関する以前の研究は主に ShapeNet のような小規模な 3D データ セットを対象としていたため、これらのバックボーン ネットワークは大規模な 3D トレーニングに直接適用できない可能性があり、それに応じてバックボーン ネットワークの規模を拡張する必要があります。 。この研究では、異なる 3D バックボーン ネットワークは、異なるサイズのデータセットでトレーニングされた場合に異なる動作とスケーラビリティを示すことがわかりました。その中でも、Transformer ベースの PointBERT と 3 次元畳み込みベースの SparseConv がより強力なパフォーマンスとスケーラビリティを示すため、3 次元バックボーン ネットワークとして選択されました。
#統合データセット上の 3D バックボーン モデルのサイズをスケールアップすると、パフォーマンスが低下します。スケーラビリティの比較。
困難な負の例マイニング:この研究のアンサンブル データセットは、高度なクラスの不均衡を示しています。建築などの一部の一般的なカテゴリは数万の形状を占める場合がありますが、セイウチや財布などの他の多くのカテゴリは数十、またはさらに少ない形状しか含まれておらず、過小評価されています。したがって、対照学習用にバッチがランダムに構築される場合、混同されやすい 2 つのカテゴリ (リンゴとサクランボなど) の形状が同じバッチ内に出現して対比される可能性は低くなります。この目的を達成するために、この論文では、トレーニングの効率とパフォーマンスを向上させるための、オフラインでの困難なネガティブ サンプル マイニング戦略を提案します。 HuggingFace のインタラクティブなデモへようこそ。
以上が3D 点群、分類、検索、字幕、画像生成のオープンワールドの理解の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。