検索
ホームページテクノロジー周辺機器AI自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。

NeRF (Neural Radiance Fields) は、神経放射場としても知られ、提案されて以来すぐに最も人気のある研究分野の 1 つとなり、その結果は驚くべきものです。ただし、NeRF の直接出力は色付きの密度フィールドのみであり、研究者にほとんど情報を提供しません。コンテキストの欠如は、直面する必要がある問題の 1 つです。その影響は、3D とのインタラクティブ インターフェイスの構築に直接影響します。シーン。

しかし、自然言語は異なり、自然言語は 3D シーンと非常に直観的に対話します。図 1 のキッチンのシーンを使用して、カトラリーがどこにあるかを尋ねたり、かき混ぜるために使用した道具がどこにあるかを尋ねたりすることで、キッチンで物体が見つかることを説明できます。ただし、このタスクを完了するには、モデルのクエリ機能だけでなく、複数のスケールでセマンティクスを組み込む機能も必要です。

この記事では、UC バークレーの研究者が新しい方法を提案し、それを LERF (Language Embedded Radiance Fields) と名付けました。これは、CLIP (Contrastive Language-Image Pre-training) を組み合わせたもので、 NeRF により、この種の 3D オープン言語クエリが可能になります。 LERF は CLIP を直接使用します。COCO などのデータセットによる微調整や、マスクされた領域の提案に依存する必要はありません。 LERF は、複数のスケールで CLIP 埋め込みの整合性を維持し、図 1 に示すように、視覚的属性 (例: 黄色)、抽象概念 (例: 電流)、テキストなどを含むさまざまな言語クエリを処理することもできます。 。

自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。

論文アドレス: https://arxiv.org/pdf/2303.09553v1.pdf

プロジェクト ホームページ: https://www.lerf.io/

LERF は対話的に言語を提供できます。リアルタイム 3D 関連図を抽出するよう求めるプロンプト。たとえば、子羊と水のカップが置かれたテーブルで、子羊または水のカップを入力すると、LERF は関連する 3D 画像を表示します。

自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。

# #複雑な花束の場合、LERF は次のこともできます:

自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。# キッチン内のさまざまなオブジェクト:

#手法

自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。

本研究では、NeRFと共同で言語分野を最適化することにより、新しい手法LERFを構築しました。 LERF は位置と物理スケールを入力として受け取り、単一の CLIP ベクトルを出力します。トレーニング中、フィールドは、トレーニング ビューの画像クロップから生成された CLIP 埋め込みを含むマルチスケール特徴ピラミッドを使用して監視されます。これにより、CLIP エンコーダはさまざまなスケールで画像コンテキストをキャプチャできるため、同じ 3D 位置をさまざまなスケールでの言語埋め込みに関連付けることができます。 LERF は、テスト中に任意のスケールで言語フィールドをクエリして、3D 相関マップを取得できます。

#CLIP 埋め込みは複数のスケールの複数のビューから抽出されるため、LERF の 3D CLIP 埋め込みによって取得されたテキスト クエリの相関マッピングは、 2D CLIP 埋め込みによって取得されたものは、より局所的で 3D の一貫性があり、複数のビューをレンダリングせずに 3D フィールドで直接クエリできます。 自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。

#LERF では、サンプル ポイントを中心としたボリューム上の言語埋め込みフィールドを学習する必要があります。具体的には、このフィールドの出力は、指定されたボリュームの画像クロップを含むすべてのトレーニング ビューの平均 CLIP 埋め込みです。 LERF は、クエリを点からボリュームに再構築することにより、入力画像の粗いクロップからの密なフィールドを効果的に監視できます。これは、特定の体積スケールで条件付けすることにより、ピクセルに合わせてレンダリングできます。

自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。

自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。

#LERF 自体は一貫した結果を生成しますが、結果として得られる相関マップは、以下の図 5 に示すように不完全で、外れ値を含む場合があります。

自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。

最適化された言語分野を標準化するために、この研究では共有ボトルネックを介した自己教師あり DINO を導入します。

アーキテクチャの観点から見ると、3D での言語埋め込みの最適化は、基礎となるシーン表現の密度分布に影響を与えるべきではないため、この調査では 2 つの独立したネットワークをトレーニングすることで LERF の帰納的バイアスを捉えています。 (誘導バイアス): 1 つは特徴ベクトル (DINO、CLIP) 用、もう 1 つは標準 NeRF 出力 (色、濃度) 用です。

実験

実世界のデータを処理する LERF の能力を実証するために、この研究では食料品店、キッチン、書店、置物などを含む 13 のシーンを収集しました。図 3 は、自然言語を処理する LERF の能力を示す 5 つの代表的なシナリオを選択しています。

自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。

##図 3

図 7 は 3D ですLERF と LSeg の視覚的比較 キャリブレーション ボウル内の卵では、LSeg は LERF より劣っています:

自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。

図 8 は、限られたセグメンテーション データの下での結果を示しています。セットでトレーニングされた LSeg には、自然言語を効果的に表現する能力がありません。代わりに、図 7 に示すように、トレーニング セット分布内の共通オブジェクトでのみ良好なパフォーマンスを発揮します。

自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。

ただし、LERF 法はまだ完全ではありません。以下に失敗例を示します。たとえば、ズッキーニの野菜をキャリブレーションすると、他の野菜が表示されます。

自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。

以上が自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
Excelの丸い関数は何ですか? - 分析VidhyaExcelの丸い関数は何ですか? - 分析VidhyaApr 17, 2025 am 10:56 AM

正確な数値データのためのMicrosoft Excelのラウンド関数のマスター 数字はスプレッドシートの基本ですが、精度と読みやすさを達成するには、生データだけではありません。 Microsoft Excelのラウンド機能は、TRAの強力なツールです

Llamaindexを使用した反射エージェントのガイドLlamaindexを使用した反射エージェントのガイドApr 17, 2025 am 10:41 AM

AI Intelligenceの強化:LlamainDexを使用して反射性AIエージェントに深く飛び込む 問題を解決するだけでなく、改善する独自の思考プロセスを反映しているAIを想像してください。これは反射性AIエージェントの領域であり、この記事では

ラングチェーンでベクトル埋め込みを計算して保存する方法は?ラングチェーンでベクトル埋め込みを計算して保存する方法は?Apr 17, 2025 am 10:37 AM

強化されたコンテンツの取得のためのラングチェーンとベクトルの埋め込みを活用します 以前の記事では、クエリ関連のコンテンツ抽出のためのデータの読み込みと分割技術をカバーしました。 この記事は、ベクトル埋め込みを使用して高度なデータ検索を掘り下げています

2025年にデータサイエンスフレッシュを雇用する上位13社2025年にデータサイエンスフレッシュを雇用する上位13社Apr 17, 2025 am 10:30 AM

データサイエンスキャリア:2024年の成功のためのトップ企業とヒント 最近のデータサイエンス卒業生と多国籍企業(MNC)を目指している最終年のエンジニアリング学生には、多くの選択肢があります。 このガイドは、データを採用する大手企業を強調しています

Genaiで魅力的な顧客体験を作成する方法は?Genaiで魅力的な顧客体験を作成する方法は?Apr 17, 2025 am 10:27 AM

生成AIでの顧客体験の強化:戦略的アプローチ 顧客満足度は最重要であり、企業は並外れた体験を提供する必要性をますます認識しています。 顧客の70%以上がパーソナライズされたサービスを望んでいます

Flux.1、Gemma 2、Sam 2などをフィーチャーしたAIブレークスルーFlux.1、Gemma 2、Sam 2などをフィーチャーしたAIブレークスルーApr 17, 2025 am 10:26 AM

AI週刊ダイジェスト:画期的な革新と倫理的考慮事項 AV BYTESへようこそ、最もエキサイティングなAIの進歩の毎週のまとめ!今週のハイライトは、テキストからイメージの生成、モデルエフィシーの驚くべき進歩を披露します

データサイエンスとコンピューターサイエンスデータサイエンスとコンピューターサイエンスApr 17, 2025 am 10:25 AM

導入 志を同じくする仲間、影響力のある技術者、そしてIT愛好家に囲まれた技術会議に参加していると想像してください。群衆の中で、あなたは誤って2人の専門家が自分の仕事について議論しているのを聞きました。つまり、病気の予測における機械学習の適用に情熱を傾けるデータ科学者です。また、ソフトウェア向けに設計した新しいアーキテクチャを説明することに興奮しているコンピューター科学者。注意深く聞くと、彼らの目標はすべてテクノロジー関連ですが、使用する戦略とツールは非常に異なることがわかります。この発見はあなたの好奇心に影響を与えました:データサイエンスとコンピューターサイエンスの違いは何ですか?これらの2つの魅力的な領域、それらの特定のコンテンツと将来の技術者が行くところについての洞察を得るために、この旅に一緒に出演しましょう

拡散モデルのさまざまなコンポーネントは何ですか?拡散モデルのさまざまなコンポーネントは何ですか?Apr 17, 2025 am 10:23 AM

安定した拡散:AI画像生成に深く潜ります 安定した拡散により、AI画像生成が革新され、ノイズまたはテキストプロンプトから高品質の画像の作成が可能になりました。この強力な生成モデルは、いくつかの重要なコンポーネントを活用します

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

WebStorm Mac版

WebStorm Mac版

便利なJavaScript開発ツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター