自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。-AI-php.cn

ホームページ

テクノロジー周辺機器

自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。

PHPz

Apr 13, 2023 pm 07:31 PM

自然言語

NeRF (Neural Radiance Fields) は、神経放射場としても知られ、提案されて以来すぐに最も人気のある研究分野の 1 つとなり、その結果は驚くべきものです。ただし、NeRF の直接出力は色付きの密度フィールドのみであり、研究者にほとんど情報を提供しません。コンテキストの欠如は、直面する必要がある問題の 1 つです。その影響は、3D とのインタラクティブインターフェイスの構築に直接影響します。シーン。

しかし、自然言語は異なり、自然言語は 3D シーンと非常に直観的に対話します。図 1 のキッチンのシーンを使用して、カトラリーがどこにあるかを尋ねたり、かき混ぜるために使用した道具がどこにあるかを尋ねたりすることで、キッチンで物体が見つかることを説明できます。ただし、このタスクを完了するには、モデルのクエリ機能だけでなく、複数のスケールでセマンティクスを組み込む機能も必要です。

この記事では、UC バークレーの研究者が新しい方法を提案し、それを LERF (Language Embedded Radiance Fields) と名付けました。これは、CLIP (Contrastive Language-Image Pre-training) を組み合わせたもので、 NeRF により、この種の 3D オープン言語クエリが可能になります。 LERF は CLIP を直接使用します。COCO などのデータセットによる微調整や、マスクされた領域の提案に依存する必要はありません。 LERF は、複数のスケールで CLIP 埋め込みの整合性を維持し、図 1 に示すように、視覚的属性 (例: 黄色)、抽象概念 (例: 電流)、テキストなどを含むさまざまな言語クエリを処理することもできます。。

自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。

論文アドレス: https://arxiv.org/pdf/2303.09553v1.pdf

プロジェクトホームページ: https://www.lerf.io/

LERF は対話的に言語を提供できます。リアルタイム 3D 関連図を抽出するよう求めるプロンプト。たとえば、子羊と水のカップが置かれたテーブルで、子羊または水のカップを入力すると、LERF は関連する 3D 画像を表示します。

自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。

# #複雑な花束の場合、LERF は次のこともできます:

自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。 # キッチン内のさまざまなオブジェクト:

#手法

自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。

本研究では、NeRFと共同で言語分野を最適化することにより、新しい手法LERFを構築しました。 LERF は位置と物理スケールを入力として受け取り、単一の CLIP ベクトルを出力します。トレーニング中、フィールドは、トレーニングビューの画像クロップから生成された CLIP 埋め込みを含むマルチスケール特徴ピラミッドを使用して監視されます。これにより、CLIP エンコーダはさまざまなスケールで画像コンテキストをキャプチャできるため、同じ 3D 位置をさまざまなスケールでの言語埋め込みに関連付けることができます。 LERF は、テスト中に任意のスケールで言語フィールドをクエリして、3D 相関マップを取得できます。

#CLIP 埋め込みは複数のスケールの複数のビューから抽出されるため、LERF の 3D CLIP 埋め込みによって取得されたテキストクエリの相関マッピングは、 2D CLIP 埋め込みによって取得されたものは、より局所的で 3D の一貫性があり、複数のビューをレンダリングせずに 3D フィールドで直接クエリできます。自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。

#LERF では、サンプルポイントを中心としたボリューム上の言語埋め込みフィールドを学習する必要があります。具体的には、このフィールドの出力は、指定されたボリュームの画像クロップを含むすべてのトレーニングビューの平均 CLIP 埋め込みです。 LERF は、クエリを点からボリュームに再構築することにより、入力画像の粗いクロップからの密なフィールドを効果的に監視できます。これは、特定の体積スケールで条件付けすることにより、ピクセルに合わせてレンダリングできます。

自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。

#LERF 自体は一貫した結果を生成しますが、結果として得られる相関マップは、以下の図 5 に示すように不完全で、外れ値を含む場合があります。

自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。

最適化された言語分野を標準化するために、この研究では共有ボトルネックを介した自己教師あり DINO を導入します。

アーキテクチャの観点から見ると、3D での言語埋め込みの最適化は、基礎となるシーン表現の密度分布に影響を与えるべきではないため、この調査では 2 つの独立したネットワークをトレーニングすることで LERF の帰納的バイアスを捉えています。 (誘導バイアス): 1 つは特徴ベクトル (DINO、CLIP) 用、もう 1 つは標準 NeRF 出力 (色、濃度) 用です。

実験

実世界のデータを処理する LERF の能力を実証するために、この研究では食料品店、キッチン、書店、置物などを含む 13 のシーンを収集しました。図 3 は、自然言語を処理する LERF の能力を示す 5 つの代表的なシナリオを選択しています。

自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。

##図 3

図 7 は 3D ですLERF と LSeg の視覚的比較キャリブレーションボウル内の卵では、LSeg は LERF より劣っています:

自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。

図 8 は、限られたセグメンテーションデータの下での結果を示しています。セットでトレーニングされた LSeg には、自然言語を効果的に表現する能力がありません。代わりに、図 7 に示すように、トレーニングセット分布内の共通オブジェクトでのみ良好なパフォーマンスを発揮します。

自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。

ただし、LERF 法はまだ完全ではありません。以下に失敗例を示します。たとえば、ズッキーニの野菜をキャリブレーションすると、他の野菜が表示されます。

自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。

以上が自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Excelの丸い関数は何ですか？ - 分析VidhyaApr 17, 2025 am 10:56 AM

正確な数値データのためのMicrosoft Excelのラウンド関数のマスター数字はスプレッドシートの基本ですが、精度と読みやすさを達成するには、生データだけではありません。 Microsoft Excelのラウンド機能は、TRAの強力なツールです

Llamaindexを使用した反射エージェントのガイドApr 17, 2025 am 10:41 AM

AI Intelligenceの強化：LlamainDexを使用して反射性AIエージェントに深く飛び込む問題を解決するだけでなく、改善する独自の思考プロセスを反映しているAIを想像してください。これは反射性AIエージェントの領域であり、この記事では

ラングチェーンでベクトル埋め込みを計算して保存する方法は？Apr 17, 2025 am 10:37 AM

強化されたコンテンツの取得のためのラングチェーンとベクトルの埋め込みを活用します以前の記事では、クエリ関連のコンテンツ抽出のためのデータの読み込みと分割技術をカバーしました。この記事は、ベクトル埋め込みを使用して高度なデータ検索を掘り下げています

2025年にデータサイエンスフレッシュを雇用する上位13社Apr 17, 2025 am 10:30 AM

データサイエンスキャリア：2024年の成功のためのトップ企業とヒント最近のデータサイエンス卒業生と多国籍企業（MNC）を目指している最終年のエンジニアリング学生には、多くの選択肢があります。このガイドは、データを採用する大手企業を強調しています

Genaiで魅力的な顧客体験を作成する方法は？Apr 17, 2025 am 10:27 AM

生成AIでの顧客体験の強化：戦略的アプローチ顧客満足度は最重要であり、企業は並外れた体験を提供する必要性をますます認識しています。顧客の70％以上がパーソナライズされたサービスを望んでいます

Flux.1、Gemma 2、Sam 2などをフィーチャーしたAIブレークスルーApr 17, 2025 am 10:26 AM

AI週刊ダイジェスト：画期的な革新と倫理的考慮事項 AV BYTESへようこそ、最もエキサイティングなAIの進歩の毎週のまとめ！今週のハイライトは、テキストからイメージの生成、モデルエフィシーの驚くべき進歩を披露します

データサイエンスとコンピューターサイエンスApr 17, 2025 am 10:25 AM

導入志を同じくする仲間、影響力のある技術者、そしてIT愛好家に囲まれた技術会議に参加していると想像してください。群衆の中で、あなたは誤って2人の専門家が自分の仕事について議論しているのを聞きました。つまり、病気の予測における機械学習の適用に情熱を傾けるデータ科学者です。また、ソフトウェア向けに設計した新しいアーキテクチャを説明することに興奮しているコンピューター科学者。注意深く聞くと、彼らの目標はすべてテクノロジー関連ですが、使用する戦略とツールは非常に異なることがわかります。この発見はあなたの好奇心に影響を与えました：データサイエンスとコンピューターサイエンスの違いは何ですか？これらの2つの魅力的な領域、それらの特定のコンテンツと将来の技術者が行くところについての洞察を得るために、この旅に一緒に出演しましょう