検索
ホームページテクノロジー周辺機器AI3D 点群、分類、検索、字幕、画像生成のオープンワールドの理解

ロッキングチェアと馬の 3 次元形状を入力すると、何が得られるでしょうか?

3D 点群、分類、検索、字幕、画像生成のオープンワールドの理解

3D 点群、分類、検索、字幕、画像生成のオープンワールドの理解

##木製カートと馬?馬車と電動馬、バナナと帆船を手に入れましょうか?バナナヨットを手に入れましょう。卵とデッキチェアはいかがですか?エッグチェアを手に入れましょう。

3D 点群、分類、検索、字幕、画像生成のオープンワールドの理解

UCSD、上海交通大学、クアルコムのチームの研究者らは、最新の 3 次元表現モデル OpenShape を提案しました。 3次元形状のオープンワールド。

  • #論文アドレス: https://arxiv.org/pdf/2305.10764.pdf
  • プロジェクトのホームページ: https://colin97.github.io/OpenShape/
  • インタラクティブ デモ: https://huggingface.co/spaces/OpenShape/openshape-demo
  • コード アドレス: https://github.com/Colin97/OpenShape_code
マルチモーダル データ (点群 - テキスト - 画像) 上の 3D 点群のネイティブ エンコーダーを学習することにより、OpenShape は 3D 形状の表現空間を構築し、それを CLIP のテキストおよび画像空間と位置合わせします。大規模で多様な 3D 事前トレーニングのおかげで、OpenShape は初めて 3D 形状のオープンワールド理解を達成し、ゼロショット 3D 形状分類、マルチモーダル 3D 形状検索 (テキスト/画像/点群入力) をサポートし、 3D 点群の字幕と画像生成、3D 点群ベースの画像生成などのクロスモーダル タスク。

#三次元形状ゼロショット分類

3D 点群、分類、検索、字幕、画像生成のオープンワールドの理解

##OpenShape はゼロショット三次元形状分類をサポートします。追加のトレーニングや微調整を行わなくても、OpenShape は一般的に使用される ModelNet40 ベンチマーク (40 の一般的なカテゴリを含む) でトップ 1 の精度 85.3% を達成し、既存のゼロショット手法を 24 パーセントポイント上回り、完全に監視された一部の手法と同等のパフォーマンスを達成します。初めて 。

OpenShape の ModelNet40 でのトップ 3 とトップ 5 の精度は、それぞれ 96.5% と 98.0% に達しました。

3D 点群、分類、検索、字幕、画像生成のオープンワールドの理解

主にいくつかの一般的なオブジェクト カテゴリに限定されている既存のメソッドとは異なり、OpenShape は広範囲のオブジェクトを分類できます。オープンワールドのカテゴリー。 Objaverse-LVIS ベンチマーク (1156 のオブジェクト カテゴリを含む) では、OpenShape は 46.8% というトップ 1 の精度を達成し、既存のゼロショット手法の最高精度であるわずか 6.2% をはるかに上回っています。これらの結果は、OpenShape がオープンワールドで 3D 形状を効果的に認識する機能を備えていることを示しています。

マルチモーダル 3D 形状検索

OpenShape のマルチモーダル表現を使用すると、ユーザーは画像、テキスト、または点群入力に対して 3D 形状検索を実行できます。入力表現と 3D 形状表現の間のコサイン類似度を計算し、kNN を見つけることにより、統合データセットからの 3D 形状の取得を研究します。

3D 点群、分類、検索、字幕、画像生成のオープンワールドの理解

画像入力の三次元形状検索

# #

上の図は、入力イメージと取得された 2 つの 3D 形状を示しています。

3D 点群、分類、検索、字幕、画像生成のオープンワールドの理解

#テキスト入力の 3 次元形状検索

上の画像は、入力テキストと取得された 3 次元形状を示しています。 OpenShape は、幅広い視覚的および意味論的な概念を学習し、きめ細かいサブカテゴリ (最初の 2 行) と属性制御 (色、形状、スタイル、およびそれらの組み合わせなどの最後の 2 行) を可能にします。

3D 点群、分類、検索、字幕、画像生成のオープンワールドの理解

#3D 点群入力の 3D 形状取得

上の図は、入力 3D 点群と 2 つの取得された 3D 形状を示しています。


3D 点群、分類、検索、字幕、画像生成のオープンワールドの理解

##二重入力三次元形状検索

上の図は 2 つの 3D 形状を入力として受け取り、その OpenShape 表現を使用して両方の入力に最も近い 3D 形状を同時に取得します。取得された形状は、両方の入力形状からの意味要素と幾何学的要素を巧みに組み合わせています。

3 次元形状ベースのテキストおよび画像の生成

OpenShape の 3 次元形状表現は CLIP の画像およびテキスト表現空間に合わせて配置されているため、これらを使用することができます。 CLIP からの派生モデルに基づく多くは、さまざまなクロスモーダル アプリケーションをサポートするために結合されます。

#3 次元点群の字幕生成3D 点群、分類、検索、字幕、画像生成のオープンワールドの理解

既製の画像字幕モデル (ClipCap) と組み合わせることで、OpenShape は 3D 点群の字幕生成を実装します。

#3 次元点群に基づく画像生成3D 点群、分類、検索、字幕、画像生成のオープンワールドの理解

既製のテキストから画像への拡散モデル (Stable unCLIP) と組み合わせることで、OpenShape は 3D 点群に基づく画像生成を実装します (オプションのテキスト ヒントをサポート)。


3 次元点群に基づく画像生成のその他の例

3D 点群、分類、検索、字幕、画像生成のオープンワールドの理解

トレーニングの詳細

対比学習に基づくマルチモーダル表現の調整: OpenShape は、3D 点群は次のような 3D ネイティブ エンコーダーをトレーニングします。 3D 形状の表現を抽出するための入力として使用されます。以前の研究に続いて、マルチモーダル対比学習を活用して、CLIP の画像およびテキスト表現空間と整合させます。以前の研究とは異なり、OpenShape は、より一般的でスケーラブルなジョイント表現空間を学習することを目的としています。研究の焦点は主に、オープンワールドでの 3D 形状理解を真に実現するために、3D 表現学習の規模を拡大し、対応する課題に対処することです。

複数の 3D 形状データセットの統合: 大規模な 3D 形状表現の学習にはトレーニング データの規模と多様性が重要な役割を果たすため、この研究では、現在公開されている最大のデータセットに関する 4 つのトレーニングを統合しました。 3D データセット。以下の図に示すように、調査されたトレーニング データには 876,000 のトレーニング シェイプが含まれています。 4 つのデータセットのうち、ShapeNetCore、3D-FUTURE、および ABO には人間が検証した高品質の 3D 形状が含まれていますが、限られた数の形状と数十のカテゴリのみをカバーしています。 Objaverse データセットは、最近リリースされた 3D データセットで、より多くの 3D 形状が含まれ、より多様なオブジェクト クラスをカバーしています。しかし、Objaverse の形状は主にインターネット ユーザーによってアップロードされており、手動による検証が行われていないため、品質が不均一であり、配布が非常に不均一であり、さらなる処理が必要です。

3D 点群、分類、検索、字幕、画像生成のオープンワールドの理解

テキスト フィルタリングとエンリッチメント: 3D 形状と 2D 画像の間でのみ検出された研究 対照学習の適用大規模なデータセットでトレーニングした場合でも、3D 形状とテキスト空間の位置合わせを推進するには不十分です。研究によると、これは CLIP の言語空間と画像表現空間に固有のドメイン ギャップが原因であると推測されています。したがって、研究では 3D 形状をテキストと明示的に位置合わせする必要があります。ただし、元の 3D データ セットからのテキスト アノテーションは、コンテンツが欠落している、間違っている、粗い、単一のコンテンツであるなどの問題に直面することがよくあります。この目的を達成するために、この文書では、テキストをフィルタリングおよび強化してテキスト注釈の品質を向上させるための 3 つの戦略を提案します。GPT-4 を使用したテキスト フィルタリング、字幕生成、および 3D モデルの 2D レンダリングの画像取得です。


3D 点群、分類、検索、字幕、画像生成のオープンワールドの理解

#調査では、自動的にフィルタリングして強化するための 3 つの戦略が提案されました。生のデータセット内のノイズの多いテキスト。

3D 点群、分類、検索、字幕、画像生成のオープンワールドの理解

テキスト フィルタリングとエンリッチメントの例

各例の左側のセクションには、サムネイル、元の形状名、GPT-4 フィルター処理された結果が表示されます。右上部分には 2 つのキャプション モデルからの画像キャプションが表示され、右下部分には取得された画像とそれに対応するテキストが表示されます。

三次元基幹ネットワークを拡充します。 3D 点群学習に関する以前の研究は主に ShapeNet のような小規模な 3D データ セットを対象としていたため、これらのバックボーン ネットワークは大規模な 3D トレーニングに直接適用できない可能性があり、それに応じてバックボーン ネットワークの規模を拡張する必要があります。 。この研究では、異なる 3D バックボーン ネットワークは、異なるサイズのデータ​​セットでトレーニングされた場合に異なる動作とスケーラビリティを示すことがわかりました。その中でも、Transformer ベースの PointBERT と 3 次元畳み込みベースの SparseConv がより強力なパフォーマンスとスケーラビリティを示すため、3 次元バックボーン ネットワークとして選択されました。

3D 点群、分類、検索、字幕、画像生成のオープンワールドの理解

#統合データセット上の 3D バックボーン モデルのサイズをスケールアップすると、パフォーマンスが低下します。スケーラビリティの比較。

困難な負の例マイニング:

この研究のアンサンブル データセットは、高度なクラスの不均衡を示しています。建築などの一部の一般的なカテゴリは数万の形状を占める場合がありますが、セイウチや財布などの他の多くのカテゴリは数十、またはさらに少ない形状しか含まれておらず、過小評価されています。したがって、対照学習用にバッチがランダムに構築される場合、混同されやすい 2 つのカテゴリ (リンゴとサクランボなど) の形状が同じバッチ内に出現して対比される可能性は低くなります。この目的を達成するために、この論文では、トレーニングの効率とパフォーマンスを向上させるための、オフラインでの困難なネガティブ サンプル マイニング戦略を提案します。 HuggingFace のインタラクティブなデモへようこそ。

以上が3D 点群、分類、検索、字幕、画像生成のオープンワールドの理解の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
迅速なエンジニアリングにおける思考のグラフは何ですか迅速なエンジニアリングにおける思考のグラフは何ですかApr 13, 2025 am 11:53 AM

導入 迅速なエンジニアリングでは、「思考のグラフ」とは、グラフ理論を使用してAIの推論プロセスを構造化および導く新しいアプローチを指します。しばしば線形sを含む従来の方法とは異なります

Genaiエージェントとの電子メールマーケティングを組織に最適化しますGenaiエージェントとの電子メールマーケティングを組織に最適化しますApr 13, 2025 am 11:44 AM

導入 おめでとう!あなたは成功したビジネスを運営しています。ウェブページ、ソーシャルメディアキャンペーン、ウェビナー、会議、無料リソース、その他のソースを通じて、毎日5000の電子メールIDを収集します。次の明白なステップはです

Apache Pinotによるリアルタイムアプリのパフォーマンス監視Apache Pinotによるリアルタイムアプリのパフォーマンス監視Apr 13, 2025 am 11:40 AM

導入 今日のペースの速いソフトウェア開発環境では、最適なアプリケーションパフォーマンスが重要です。応答時間、エラーレート、リソース利用などのリアルタイムメトリックを監視することで、メインに役立ちます

ChatGptは10億人のユーザーにヒットしますか? 「わずか数週間で2倍になりました」とOpenai CEOは言いますChatGptは10億人のユーザーにヒットしますか? 「わずか数週間で2倍になりました」とOpenai CEOは言いますApr 13, 2025 am 11:23 AM

「ユーザーは何人いますか?」彼は突き出した。 「私たちが最後に言ったのは毎週5億人のアクティブであり、非常に急速に成長していると思います」とアルトマンは答えました。 「わずか数週間で2倍になったと言った」とアンダーソンは続けた。 「私はそのprivと言いました

PIXTRAL -12B:Mistral AI'の最初のマルチモーダルモデル-Analytics VidhyaPIXTRAL -12B:Mistral AI'の最初のマルチモーダルモデル-Analytics VidhyaApr 13, 2025 am 11:20 AM

導入 Mistralは、最初のマルチモーダルモデル、つまりPixtral-12B-2409をリリースしました。このモデルは、Mistralの120億個のパラメーターであるNemo 12bに基づいて構築されています。このモデルを際立たせるものは何ですか?これで、画像とTexの両方を採用できます

生成AIアプリケーションのエージェントフレームワーク - 分析Vidhya生成AIアプリケーションのエージェントフレームワーク - 分析VidhyaApr 13, 2025 am 11:13 AM

クエリに応答するだけでなく、情報を自律的に収集し、タスクを実行し、テキスト、画像、コードなどの複数のタイプのデータを処理するAIを搭載したアシスタントがいることを想像してください。未来的に聞こえますか?これでa

金融セクターにおける生成AIの応用金融セクターにおける生成AIの応用Apr 13, 2025 am 11:12 AM

導入 金融業界は、効率的な取引と信用の可用性を促進することにより経済成長を促進するため、あらゆる国の発展の基礎となっています。取引の容易さとクレジット

オンライン学習とパッシブアグレッシブアルゴリズムのガイドオンライン学習とパッシブアグレッシブアルゴリズムのガイドApr 13, 2025 am 11:09 AM

導入 データは、ソーシャルメディア、金融取引、eコマースプラットフォームなどのソースから前例のないレートで生成されています。この連続的な情報ストリームを処理することは課題ですが、

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

SublimeText3 英語版

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター