たった一行の文字で3Dフェイスチェンジが実現！カリフォルニア大学バークレー校、大作レベルのレンダリングをたった 1 文で完了する「Chat-NeRF」を提案

たった一行の文字で3Dフェイスチェンジが実現！カリフォルニア大学バークレー校、大作レベルのレンダリングをたった 1 文で完了する「Chat-NeRF」を提案

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 12, 2023 pm 02:37 PM

3d顔の変化uc

ニューラル 3D 再構成テクノロジーの開発のおかげで、現実世界の 3D シーンの特徴表現をキャプチャすることがかつてないほど簡単になりました。

しかし、これを超える 3D シーン編集のシンプルで効果的なソリューションはこれまでありませんでした。

最近、カリフォルニア大学バークレー校の研究者は、以前の研究である InstructPix2Pix に基づいて、テキスト命令を使用して NeRF シーンを編集する方法、Instruct-NeRF2NeRF を提案しました。

紙のアドレス: https://arxiv.org/abs/2303.12789

#Instruct-NeRF2NeRF を使用すると、大規模な現実世界のシーンをたった 1 文で編集でき、以前の作品よりも現実的で的を絞ったものにすることができます。

たとえば、彼にひげを生やしたい場合は、彼の顔にひげの束が現れます。

あるいは、頭を変えて、数秒でアインシュタインになってみましょう。

#さらに、モデルは新しい編集された画像でデータセットを継続的に更新できるため、シーンの再構成は徐々に改善されます。

NeRF InstructPix2Pix = Instruct-NeRF2NeRF

具体的には、人間には入力画像と、モデルに何をすべきかを指示する書面による指示が与えられ、モデルはそれに従うことになります。これらの命令は画像を編集するために使用されます。

実装手順は次のとおりです。

トレーニングパースペクティブでシーンから画像をレンダリングします。

InstructPix2Pix モデルを使用して、グローバルテキスト命令に基づいてこの画像を編集します。
トレーニングデータセット内の元の画像を編集された画像に置き換えます。
NeRF モデルは通常どおりトレーニングを続けます。

実装

比較NeRF2NeRF は、従来の 3D 編集とは異なり、新しい 3D シーン編集手法であり、最大のハイライトは「反復データセット更新」技術の使用です。

編集は 3D シーンで実行されますが、データは 3D 生成モデルのトレーニングに使用されるため、論文では形状と外観の事前分布を抽出するために 3D 拡散モデルではなく 2D が使用されています。非常に限られております。

この 2D 拡散モデルは、研究チームが少し前に開発した InstructPix2Pix で、コマンドテキストに基づいた 2D 画像編集モデルです。画像とテキストコマンドを入力すると、編集結果を出力できます。後の画像。

しかし、この 2D モデルではシーンのさまざまな角度で不均一な変化が発生するため、NeRF の「入力画像データ」を交互に変更する「反復データセット更新」技術が登場しました。 . Set」を実行し、基礎となる 3D 表現を更新します。

これは、テキストガイド付き拡散モデル (InstructPix2Pix) が指示に従って新しい画像バリエーションを生成し、これらの新しい画像を NeRF モデルトレーニングの入力として使用することを意味します。したがって、再構築された 3D シーンは、新しいテキストガイド付き編集に基づいたものになります。

最初の反復では、InstructPix2Pix はさまざまなビュー間で一貫した編集を実行できないことがよくありますが、NeRF の再レンダリングと更新中に、グローバルに一貫したシーンに収束します。

要約すると、NeRF2NeRF メソッドは、画像コンテンツを繰り返し更新し、これらの更新されたコンテンツを 3D シーンに統合することで、3D シーンの編集効率を向上させると同時に、シーンの一貫性とリアリズムを維持します。

カリフォルニア大学バークレー校の研究チームのこの研究は、以前の InstructPix2Pix の拡張版であると言えます。NeRF と InstructPix2Pix を組み合わせて「反復的なデータセット更新」を行うことで、 "、キー編集は 3D シーンでもプレイできます。

まだ制限はありますが、欠陥は隠されていません

ただし、Instruct-NeRF2NeRF は以前の InstructPix2Pix に基づいているため、後者の多くの制限を継承しています。大規模な宇宙運用ができないなど。

さらに、DreamFusion と同様、Instruct-NeRF2NeRF は一度に 1 つのビューでのみ拡散モデルを使用できるため、同様のアーティファクトの問題が発生する可能性があります。

次の図は、2 種類の失敗ケースを示しています。

(1) Pix2Pix は 2D での編集を実行できないため、NeRF2NeRF は 2D での編集を実行できません。 3D も失敗しました;

(2) Pix2Pix は 2D では編集が完了しますが、3D では大きな矛盾があり、NeRF2NeRF も失敗しました。

もう 1 つの例は、以下の「パンダ」です。これは非常に獰猛に見えるだけではありません (プロトタイプの像は非常に獰猛です)。、毛皮の色はやや奇妙で、画面内で動くときの目は明らかに「形が崩れています」。

ChatGPT、Diffusion、NeRF が注目を集めているため、この記事は 3 つの利点を最大限に活用していると言えます。、「AI文章「単語描画」」から「3DシーンのAI一文編集」へ進化しました。

この方法にはいくつかの制限がありますが、依然として欠陥があり、NeRF 開発のマイルストーンとなることが期待される 3D フィーチャー編集のためのシンプルで実行可能なソリューションを提供します。

3D シーンを一文で編集する

最後に、作者が公開したエフェクトを見てみましょう。

このワンクリック PS 3D シーン編集成果物が、コマンド理解能力と画像のリアルさの点で期待に沿っていることは、難しくありません。学者の間で人気の選択肢となり、ネチズンの間で「新たなお気に入り」が ChatGPT の後に Chat-NeRF を作成しました。

# 環境背景、季節性、天候が変わっても与えられた新しいイメージも現実の論理と完全に一致しています。

元画像:

##秋:

雪の日:

たった一行の文字で3Dフェイスチェンジが実現！カリフォルニア大学バークレー校、大作レベルのレンダリングをたった 1 文で完了する「Chat-NeRF」を提案 ## 砂漠:

# ＃＃＃＃＃＃＃＃＃＃＃＃＃嵐：＃＃＃＃＃＃

参考: https://www 。 php.cn/link/ebeb300882677f350ea818c8f333f5b9

以上がたった一行の文字で3Dフェイスチェンジが実現！カリフォルニア大学バークレー校、大作レベルのレンダリングをたった 1 文で完了する「Chat-NeRF」を提案の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

10生成AIコーディング拡張機能とコードのコードを探る必要がありますApr 13, 2025 am 01:14 AM

ねえ、忍者をコーディング！その日はどのようなコーディング関連のタスクを計画していますか？このブログにさらに飛び込む前に、コーディング関連のすべての問題について考えてほしいです。終わり？ - ＆＃8217を見てみましょう

革新を調理する：人工知能がフードサービスを変革する方法Apr 12, 2025 pm 12:09 PM

食品の準備を強化するAI まだ初期の使用中ですが、AIシステムは食品の準備にますます使用されています。 AI駆動型のロボットは、ハンバーガーの製造、SAの組み立てなど、食品の準備タスクを自動化するためにキッチンで使用されています

Pythonネームスペースと可変スコープに関する包括的なガイドApr 12, 2025 pm 12:00 PM

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

ビジョン言語モデル（VLM）の包括的なガイドApr 12, 2025 am 11:58 AM

導入鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか？あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか？

MediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますApr 12, 2025 am 11:52 AM

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

今週のAIで：Walmartがファッションのトレンドを設定する前に設定しますApr 12, 2025 am 11:51 AM

＃1 GoogleはAgent2Agentを起動しました物語：月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

生成AIは精神障害に会いますApr 12, 2025 am 11:50 AM

私はあなたがそうであるに違いないと思います。私たちは皆、精神障害がさまざまな心理学の用語を混ぜ合わせ、しばしば理解できないか完全に無意味であることが多い、さまざまなおしゃべりで構成されていることを知っているようです。 FOを吐き出すために必要なことはすべてです

プロトタイプ：科学者は紙をプラスチックに変えますApr 12, 2025 am 11:49 AM

今週公開された新しい研究によると、2022年に製造されたプラスチックの9.5％のみがリサイクル材料から作られていました。一方、プラスチックは埋め立て地や生態系に積み上げられ続けています。しかし、助けが近づいています。エンジンのチーム

See all articles

ホットAIツール

ホットツール

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。