3D 点群、分類、検索、字幕、画像生成のオープンワールドの理解-AI-php.cn

ホームページ

テクノロジー周辺機器

3D 点群、分類、検索、字幕、画像生成のオープンワールドの理解

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 04, 2023 pm 03:04 PM

ai検索

ロッキングチェアと馬の 3 次元形状を入力すると、何が得られるでしょうか?

3D 点群、分類、検索、字幕、画像生成のオープンワールドの理解

##木製カートと馬?馬車と電動馬、バナナと帆船を手に入れましょうか？バナナヨットを手に入れましょう。卵とデッキチェアはいかがですか?エッグチェアを手に入れましょう。

3D 点群、分類、検索、字幕、画像生成のオープンワールドの理解

UCSD、上海交通大学、クアルコムのチームの研究者らは、最新の 3 次元表現モデル OpenShape を提案しました。 3次元形状のオープンワールド。

#論文アドレス: https://arxiv.org/pdf/2305.10764.pdf
プロジェクトのホームページ: https://colin97.github.io/OpenShape/
インタラクティブデモ: https://huggingface.co/spaces/OpenShape/openshape-demo
コードアドレス: https://github.com/Colin97/OpenShape_code

マルチモーダルデータ (点群 - テキスト - 画像) 上の 3D 点群のネイティブエンコーダーを学習することにより、OpenShape は 3D 形状の表現空間を構築し、それを CLIP のテキストおよび画像空間と位置合わせします。大規模で多様な 3D 事前トレーニングのおかげで、OpenShape は初めて 3D 形状のオープンワールド理解を達成し、ゼロショット 3D 形状分類、マルチモーダル 3D 形状検索 (テキスト/画像/点群入力) をサポートし、 3D 点群の字幕と画像生成、3D 点群ベースの画像生成などのクロスモーダルタスク。

#三次元形状ゼロショット分類

3D 点群、分類、検索、字幕、画像生成のオープンワールドの理解

##OpenShape はゼロショット三次元形状分類をサポートします。追加のトレーニングや微調整を行わなくても、OpenShape は一般的に使用される ModelNet40 ベンチマーク (40 の一般的なカテゴリを含む) でトップ 1 の精度 85.3% を達成し、既存のゼロショット手法を 24 パーセントポイント上回り、完全に監視された一部の手法と同等のパフォーマンスを達成します。初めて。

OpenShape の ModelNet40 でのトップ 3 とトップ 5 の精度は、それぞれ 96.5% と 98.0% に達しました。

3D 点群、分類、検索、字幕、画像生成のオープンワールドの理解

主にいくつかの一般的なオブジェクトカテゴリに限定されている既存のメソッドとは異なり、OpenShape は広範囲のオブジェクトを分類できます。オープンワールドのカテゴリー。 Objaverse-LVIS ベンチマーク (1156 のオブジェクトカテゴリを含む) では、OpenShape は 46.8% というトップ 1 の精度を達成し、既存のゼロショット手法の最高精度であるわずか 6.2% をはるかに上回っています。これらの結果は、OpenShape がオープンワールドで 3D 形状を効果的に認識する機能を備えていることを示しています。

マルチモーダル 3D 形状検索

OpenShape のマルチモーダル表現を使用すると、ユーザーは画像、テキスト、または点群入力に対して 3D 形状検索を実行できます。入力表現と 3D 形状表現の間のコサイン類似度を計算し、kNN を見つけることにより、統合データセットからの 3D 形状の取得を研究します。

3D 点群、分類、検索、字幕、画像生成のオープンワールドの理解

画像入力の三次元形状検索

# #

上の図は、入力イメージと取得された 2 つの 3D 形状を示しています。

3D 点群、分類、検索、字幕、画像生成のオープンワールドの理解

#テキスト入力の 3 次元形状検索

上の画像は、入力テキストと取得された 3 次元形状を示しています。 OpenShape は、幅広い視覚的および意味論的な概念を学習し、きめ細かいサブカテゴリ (最初の 2 行) と属性制御 (色、形状、スタイル、およびそれらの組み合わせなどの最後の 2 行) を可能にします。

3D 点群、分類、検索、字幕、画像生成のオープンワールドの理解

#3D 点群入力の 3D 形状取得

上の図は、入力 3D 点群と 2 つの取得された 3D 形状を示しています。

3D 点群、分類、検索、字幕、画像生成のオープンワールドの理解

##二重入力三次元形状検索

上の図は 2 つの 3D 形状を入力として受け取り、その OpenShape 表現を使用して両方の入力に最も近い 3D 形状を同時に取得します。取得された形状は、両方の入力形状からの意味要素と幾何学的要素を巧みに組み合わせています。

3 次元形状ベースのテキストおよび画像の生成

OpenShape の 3 次元形状表現は CLIP の画像およびテキスト表現空間に合わせて配置されているため、これらを使用することができます。 CLIP からの派生モデルに基づく多くは、さまざまなクロスモーダルアプリケーションをサポートするために結合されます。

#3 次元点群の字幕生成 3D 点群、分類、検索、字幕、画像生成のオープンワールドの理解

既製の画像字幕モデル (ClipCap) と組み合わせることで、OpenShape は 3D 点群の字幕生成を実装します。

#3 次元点群に基づく画像生成 3D 点群、分類、検索、字幕、画像生成のオープンワールドの理解

既製のテキストから画像への拡散モデル (Stable unCLIP) と組み合わせることで、OpenShape は 3D 点群に基づく画像生成を実装します (オプションのテキストヒントをサポート)。

3 次元点群に基づく画像生成のその他の例

3D 点群、分類、検索、字幕、画像生成のオープンワールドの理解

トレーニングの詳細

対比学習に基づくマルチモーダル表現の調整: OpenShape は、3D 点群は次のような 3D ネイティブエンコーダーをトレーニングします。 3D 形状の表現を抽出するための入力として使用されます。以前の研究に続いて、マルチモーダル対比学習を活用して、CLIP の画像およびテキスト表現空間と整合させます。以前の研究とは異なり、OpenShape は、より一般的でスケーラブルなジョイント表現空間を学習することを目的としています。研究の焦点は主に、オープンワールドでの 3D 形状理解を真に実現するために、3D 表現学習の規模を拡大し、対応する課題に対処することです。

複数の 3D 形状データセットの統合: 大規模な 3D 形状表現の学習にはトレーニングデータの規模と多様性が重要な役割を果たすため、この研究では、現在公開されている最大のデータセットに関する 4 つのトレーニングを統合しました。 3D データセット。以下の図に示すように、調査されたトレーニングデータには 876,000 のトレーニングシェイプが含まれています。 4 つのデータセットのうち、ShapeNetCore、3D-FUTURE、および ABO には人間が検証した高品質の 3D 形状が含まれていますが、限られた数の形状と数十のカテゴリのみをカバーしています。 Objaverse データセットは、最近リリースされた 3D データセットで、より多くの 3D 形状が含まれ、より多様なオブジェクトクラスをカバーしています。しかし、Objaverse の形状は主にインターネットユーザーによってアップロードされており、手動による検証が行われていないため、品質が不均一であり、配布が非常に不均一であり、さらなる処理が必要です。

3D 点群、分類、検索、字幕、画像生成のオープンワールドの理解

テキストフィルタリングとエンリッチメント: 3D 形状と 2D 画像の間でのみ検出された研究対照学習の適用大規模なデータセットでトレーニングした場合でも、3D 形状とテキスト空間の位置合わせを推進するには不十分です。研究によると、これは CLIP の言語空間と画像表現空間に固有のドメインギャップが原因であると推測されています。したがって、研究では 3D 形状をテキストと明示的に位置合わせする必要があります。ただし、元の 3D データセットからのテキストアノテーションは、コンテンツが欠落している、間違っている、粗い、単一のコンテンツであるなどの問題に直面することがよくあります。この目的を達成するために、この文書では、テキストをフィルタリングおよび強化してテキスト注釈の品質を向上させるための 3 つの戦略を提案します。GPT-4 を使用したテキストフィルタリング、字幕生成、および 3D モデルの 2D レンダリングの画像取得です。

3D 点群、分類、検索、字幕、画像生成のオープンワールドの理解

#調査では、自動的にフィルタリングして強化するための 3 つの戦略が提案されました。生のデータセット内のノイズの多いテキスト。

3D 点群、分類、検索、字幕、画像生成のオープンワールドの理解

テキストフィルタリングとエンリッチメントの例

各例の左側のセクションには、サムネイル、元の形状名、GPT-4 フィルター処理された結果が表示されます。右上部分には 2 つのキャプションモデルからの画像キャプションが表示され、右下部分には取得された画像とそれに対応するテキストが表示されます。

三次元基幹ネットワークを拡充します。 3D 点群学習に関する以前の研究は主に ShapeNet のような小規模な 3D データセットを対象としていたため、これらのバックボーンネットワークは大規模な 3D トレーニングに直接適用できない可能性があり、それに応じてバックボーンネットワークの規模を拡張する必要があります。。この研究では、異なる 3D バックボーンネットワークは、異なるサイズのデータセットでトレーニングされた場合に異なる動作とスケーラビリティを示すことがわかりました。その中でも、Transformer ベースの PointBERT と 3 次元畳み込みベースの SparseConv がより強力なパフォーマンスとスケーラビリティを示すため、3 次元バックボーンネットワークとして選択されました。

3D 点群、分類、検索、字幕、画像生成のオープンワールドの理解

#統合データセット上の 3D バックボーンモデルのサイズをスケールアップすると、パフォーマンスが低下します。スケーラビリティの比較。

困難な負の例マイニング:

この研究のアンサンブルデータセットは、高度なクラスの不均衡を示しています。建築などの一部の一般的なカテゴリは数万の形状を占める場合がありますが、セイウチや財布などの他の多くのカテゴリは数十、またはさらに少ない形状しか含まれておらず、過小評価されています。したがって、対照学習用にバッチがランダムに構築される場合、混同されやすい 2 つのカテゴリ (リンゴとサクランボなど) の形状が同じバッチ内に出現して対比される可能性は低くなります。この目的を達成するために、この論文では、トレーニングの効率とパフォーマンスを向上させるための、オフラインでの困難なネガティブサンプルマイニング戦略を提案します。 HuggingFace のインタラクティブなデモへようこそ。

以上が3D 点群、分類、検索、字幕、画像生成のオープンワールドの理解の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

AIゲーム開発は、激動の夢想家ポータルでエージェントの時代に入りますMay 02, 2025 am 11:17 AM

激動ゲーム：AIエージェントとのゲーム開発に革命をもたらします BlizzardやObsidianなどの業界の巨人の退役軍人で構成されるゲーム開発スタジオであるUpheavalは、革新的なAIを搭載したPlatforでゲームの作成に革命をもたらす態勢を整えています。

UberはあなたのRobotaxiショップになりたいと思っています、プロバイダーはそれらを許可しますか？May 02, 2025 am 11:16 AM

UberのRobotaxi戦略：自動運転車用の乗車エコシステム最近のCurbivore Conferenceで、UberのRichard Willderは、Robotaxiプロバイダーの乗車プラットフォームになるための戦略を発表しました。で支配的な位置を活用します

ビデオゲームをプレイするAIエージェントは、将来のロボットを変革しますMay 02, 2025 am 11:15 AM

ビデオゲームは、特に自律的なエージェントと現実世界のロボットの開発において、最先端のAI研究のための非常に貴重なテストの根拠であることが証明されています。 a

スタートアップインダストリアルコンプレックス、VC 3.0、およびジェームズクーリエのマニフェストMay 02, 2025 am 11:14 AM

進化するベンチャーキャピタルの景観の影響は、メディア、財務報告、日常の会話で明らかです。ただし、投資家、スタートアップ、資金に対する特定の結果はしばしば見落とされています。ベンチャーキャピタル3.0：パラダイム

AdobeはAdobe Max London 2025でクリエイティブクラウドとホタルを更新しますMay 02, 2025 am 11:13 AM

Adobe Max London 2025は、アクセシビリティと生成AIへの戦略的シフトを反映して、Creative Cloud and Fireflyに大幅な更新を提供しました。この分析には、イベント以前のブリーフィングからの洞察がAdobeのリーダーシップを取り入れています。（注：ADOB

すべてのメタがラマコンで発表しましたMay 02, 2025 am 11:12 AM

MetaのLlamaconアナウンスは、Openaiのような閉じたAIシステムと直接競合するように設計された包括的なAI戦略を紹介し、同時にオープンソースモデルの新しい収益ストリームを作成します。この多面的なアプローチはBOをターゲットにします

AIは単なる通常のテクノロジーに過ぎないという提案に関する醸造論争May 02, 2025 am 11:10 AM

この結論に関して、人工知能の分野には深刻な違いがあります。「皇帝の新しい服」を暴露する時が来たと主張する人もいれば、人工知能は普通の技術であるという考えに強く反対する人もいます。それについて議論しましょう。この革新的なAIブレークスルーの分析は、AIの分野での最新の進歩をカバーする私の進行中のForbesコラムの一部です。一般的な技術としての人工知能第一に、この重要な議論の基礎を築くためには、いくつかの基本的な知識が必要です。現在、人工知能をさらに発展させることに専念する大量の研究があります。全体的な目標は、人工的な一般情報（AGI）を達成し、さらには可能な人工スーパーインテリジェンス（AS）を達成することです