NeRF (Neural Radiance Fields) は、神経放射場としても知られ、提案されて以来すぐに最も人気のある研究分野の 1 つとなり、その結果は驚くべきものです。ただし、NeRF の直接出力は色付きの密度フィールドのみであり、研究者にほとんど情報を提供しません。コンテキストの欠如は、直面する必要がある問題の 1 つです。その影響は、3D とのインタラクティブ インターフェイスの構築に直接影響します。シーン。
しかし、自然言語は異なり、自然言語は 3D シーンと非常に直観的に対話します。図 1 のキッチンのシーンを使用して、カトラリーがどこにあるかを尋ねたり、かき混ぜるために使用した道具がどこにあるかを尋ねたりすることで、キッチンで物体が見つかることを説明できます。ただし、このタスクを完了するには、モデルのクエリ機能だけでなく、複数のスケールでセマンティクスを組み込む機能も必要です。
この記事では、UC バークレーの研究者が新しい方法を提案し、それを LERF (Language Embedded Radiance Fields) と名付けました。これは、CLIP (Contrastive Language-Image Pre-training) を組み合わせたもので、 NeRF により、この種の 3D オープン言語クエリが可能になります。 LERF は CLIP を直接使用します。COCO などのデータセットによる微調整や、マスクされた領域の提案に依存する必要はありません。 LERF は、複数のスケールで CLIP 埋め込みの整合性を維持し、図 1 に示すように、視覚的属性 (例: 黄色)、抽象概念 (例: 電流)、テキストなどを含むさまざまな言語クエリを処理することもできます。 。
論文アドレス: https://arxiv.org/pdf/2303.09553v1.pdf
プロジェクト ホームページ: https://www.lerf.io/
LERF は対話的に言語を提供できます。リアルタイム 3D 関連図を抽出するよう求めるプロンプト。たとえば、子羊と水のカップが置かれたテーブルで、子羊または水のカップを入力すると、LERF は関連する 3D 画像を表示します。
# キッチン内のさまざまなオブジェクト:
#手法
#CLIP 埋め込みは複数のスケールの複数のビューから抽出されるため、LERF の 3D CLIP 埋め込みによって取得されたテキスト クエリの相関マッピングは、 2D CLIP 埋め込みによって取得されたものは、より局所的で 3D の一貫性があり、複数のビューをレンダリングせずに 3D フィールドで直接クエリできます。
#LERF では、サンプル ポイントを中心としたボリューム上の言語埋め込みフィールドを学習する必要があります。具体的には、このフィールドの出力は、指定されたボリュームの画像クロップを含むすべてのトレーニング ビューの平均 CLIP 埋め込みです。 LERF は、クエリを点からボリュームに再構築することにより、入力画像の粗いクロップからの密なフィールドを効果的に監視できます。これは、特定の体積スケールで条件付けすることにより、ピクセルに合わせてレンダリングできます。
#LERF 自体は一貫した結果を生成しますが、結果として得られる相関マップは、以下の図 5 に示すように不完全で、外れ値を含む場合があります。
最適化された言語分野を標準化するために、この研究では共有ボトルネックを介した自己教師あり DINO を導入します。
アーキテクチャの観点から見ると、3D での言語埋め込みの最適化は、基礎となるシーン表現の密度分布に影響を与えるべきではないため、この調査では 2 つの独立したネットワークをトレーニングすることで LERF の帰納的バイアスを捉えています。 (誘導バイアス): 1 つは特徴ベクトル (DINO、CLIP) 用、もう 1 つは標準 NeRF 出力 (色、濃度) 用です。
実験
実世界のデータを処理する LERF の能力を実証するために、この研究では食料品店、キッチン、書店、置物などを含む 13 のシーンを収集しました。図 3 は、自然言語を処理する LERF の能力を示す 5 つの代表的なシナリオを選択しています。
##図 3
図 7 は 3D ですLERF と LSeg の視覚的比較 キャリブレーション ボウル内の卵では、LSeg は LERF より劣っています:
図 8 は、限られたセグメンテーション データの下での結果を示しています。セットでトレーニングされた LSeg には、自然言語を効果的に表現する能力がありません。代わりに、図 7 に示すように、トレーニング セット分布内の共通オブジェクトでのみ良好なパフォーマンスを発揮します。
ただし、LERF 法はまだ完全ではありません。以下に失敗例を示します。たとえば、ズッキーニの野菜をキャリブレーションすると、他の野菜が表示されます。
以上が自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

正確な数値データのためのMicrosoft Excelのラウンド関数のマスター 数字はスプレッドシートの基本ですが、精度と読みやすさを達成するには、生データだけではありません。 Microsoft Excelのラウンド機能は、TRAの強力なツールです

AI Intelligenceの強化:LlamainDexを使用して反射性AIエージェントに深く飛び込む 問題を解決するだけでなく、改善する独自の思考プロセスを反映しているAIを想像してください。これは反射性AIエージェントの領域であり、この記事では

強化されたコンテンツの取得のためのラングチェーンとベクトルの埋め込みを活用します 以前の記事では、クエリ関連のコンテンツ抽出のためのデータの読み込みと分割技術をカバーしました。 この記事は、ベクトル埋め込みを使用して高度なデータ検索を掘り下げています

データサイエンスキャリア:2024年の成功のためのトップ企業とヒント 最近のデータサイエンス卒業生と多国籍企業(MNC)を目指している最終年のエンジニアリング学生には、多くの選択肢があります。 このガイドは、データを採用する大手企業を強調しています

生成AIでの顧客体験の強化:戦略的アプローチ 顧客満足度は最重要であり、企業は並外れた体験を提供する必要性をますます認識しています。 顧客の70%以上がパーソナライズされたサービスを望んでいます

AI週刊ダイジェスト:画期的な革新と倫理的考慮事項 AV BYTESへようこそ、最もエキサイティングなAIの進歩の毎週のまとめ!今週のハイライトは、テキストからイメージの生成、モデルエフィシーの驚くべき進歩を披露します

導入 志を同じくする仲間、影響力のある技術者、そしてIT愛好家に囲まれた技術会議に参加していると想像してください。群衆の中で、あなたは誤って2人の専門家が自分の仕事について議論しているのを聞きました。つまり、病気の予測における機械学習の適用に情熱を傾けるデータ科学者です。また、ソフトウェア向けに設計した新しいアーキテクチャを説明することに興奮しているコンピューター科学者。注意深く聞くと、彼らの目標はすべてテクノロジー関連ですが、使用する戦略とツールは非常に異なることがわかります。この発見はあなたの好奇心に影響を与えました:データサイエンスとコンピューターサイエンスの違いは何ですか?これらの2つの魅力的な領域、それらの特定のコンテンツと将来の技術者が行くところについての洞察を得るために、この旅に一緒に出演しましょう

安定した拡散:AI画像生成に深く潜ります 安定した拡散により、AI画像生成が革新され、ノイズまたはテキストプロンプトから高品質の画像の作成が可能になりました。この強力な生成モデルは、いくつかの重要なコンポーネントを活用します


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

WebStorm Mac版
便利なJavaScript開発ツール

メモ帳++7.3.1
使いやすく無料のコードエディター

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

SublimeText3 中国語版
中国語版、とても使いやすい

VSCode Windows 64 ビットのダウンロード
Microsoft によって発売された無料で強力な IDE エディター
