ホームページ > 記事 > テクノロジー周辺機器 > たった一行の文字で3Dフェイスチェンジが実現!カリフォルニア大学バークレー校、大作レベルのレンダリングをたった 1 文で完了する「Chat-NeRF」を提案
ニューラル 3D 再構成テクノロジーの開発のおかげで、現実世界の 3D シーンの特徴表現をキャプチャすることがかつてないほど簡単になりました。
しかし、これを超える 3D シーン編集のシンプルで効果的なソリューションはこれまでありませんでした。
最近、カリフォルニア大学バークレー校の研究者は、以前の研究である InstructPix2Pix に基づいて、テキスト命令を使用して NeRF シーンを編集する方法、Instruct-NeRF2NeRF を提案しました。
紙のアドレス: https://arxiv.org/abs/2303.12789
#Instruct-NeRF2NeRF を使用すると、大規模な現実世界のシーンをたった 1 文で編集でき、以前の作品よりも現実的で的を絞ったものにすることができます。たとえば、彼にひげを生やしたい場合は、彼の顔にひげの束が現れます。
あるいは、頭を変えて、数秒でアインシュタインになってみましょう。
#さらに、モデルは新しい編集された画像でデータセットを継続的に更新できるため、シーンの再構成は徐々に改善されます。
NeRF InstructPix2Pix = Instruct-NeRF2NeRF
具体的には、人間には入力画像と、モデルに何をすべきかを指示する書面による指示が与えられ、モデルはそれに従うことになります。これらの命令は画像を編集するために使用されます。実装手順は次のとおりです。
トレーニング パースペクティブでシーンから画像をレンダリングします。
編集は 3D シーンで実行されますが、データは 3D 生成モデルのトレーニングに使用されるため、論文では形状と外観の事前分布を抽出するために 3D 拡散モデルではなく 2D が使用されています。非常に限られております。
この 2D 拡散モデルは、研究チームが少し前に開発した InstructPix2Pix で、コマンド テキストに基づいた 2D 画像編集モデルです。画像とテキスト コマンドを入力すると、編集結果を出力できます。後の画像。
しかし、この 2D モデルではシーンのさまざまな角度で不均一な変化が発生するため、NeRF の「入力画像データ」を交互に変更する「反復データセット更新」技術が登場しました。 . Set」を実行し、基礎となる 3D 表現を更新します。
これは、テキスト ガイド付き拡散モデル (InstructPix2Pix) が指示に従って新しい画像バリエーションを生成し、これらの新しい画像を NeRF モデル トレーニングの入力として使用することを意味します。したがって、再構築された 3D シーンは、新しいテキストガイド付き編集に基づいたものになります。
最初の反復では、InstructPix2Pix はさまざまなビュー間で一貫した編集を実行できないことがよくありますが、NeRF の再レンダリングと更新中に、グローバルに一貫したシーンに収束します。
要約すると、NeRF2NeRF メソッドは、画像コンテンツを繰り返し更新し、これらの更新されたコンテンツを 3D シーンに統合することで、3D シーンの編集効率を向上させると同時に、シーンの一貫性とリアリズムを維持します。
カリフォルニア大学バークレー校の研究チームのこの研究は、以前の InstructPix2Pix の拡張版であると言えます。NeRF と InstructPix2Pix を組み合わせて「反復的なデータセット更新」を行うことで、 "、キー編集は 3D シーンでもプレイできます。 ただし、Instruct-NeRF2NeRF は以前の InstructPix2Pix に基づいているため、後者の多くの制限を継承しています。大規模な宇宙運用ができないなど。 さらに、DreamFusion と同様、Instruct-NeRF2NeRF は一度に 1 つのビューでのみ拡散モデルを使用できるため、同様のアーティファクトの問題が発生する可能性があります。 次の図は、2 種類の失敗ケースを示しています。 (1) Pix2Pix は 2D での編集を実行できないため、NeRF2NeRF は 2D での編集を実行できません。 3D も失敗しました; (2) Pix2Pix は 2D では編集が完了しますが、3D では大きな矛盾があり、NeRF2NeRF も失敗しました。 まだ制限はありますが、欠陥は隠されていません
もう 1 つの例は、以下の「パンダ」です。これは非常に獰猛に見えるだけではありません (プロトタイプの像は非常に獰猛です)。 、毛皮の色はやや奇妙で、画面内で動くときの目は明らかに「形が崩れています」。
ChatGPT、Diffusion、NeRF が注目を集めているため、この記事は 3 つの利点を最大限に活用していると言えます。 、「AI文章「単語描画」」から「3DシーンのAI一文編集」へ進化しました。
この方法にはいくつかの制限がありますが、依然として欠陥があり、NeRF 開発のマイルストーンとなることが期待される 3D フィーチャー編集のためのシンプルで実行可能なソリューションを提供します。
最後に、作者が公開したエフェクトを見てみましょう。
このワンクリック PS 3D シーン編集成果物が、コマンド理解能力と画像のリアルさの点で期待に沿っていることは、難しくありません。学者の間で人気の選択肢となり、ネチズンの間で「新たなお気に入り」が ChatGPT の後に Chat-NeRF を作成しました。
# 環境背景、季節性、天候が変わっても与えられた新しいイメージも現実の論理と完全に一致しています。
元画像:
##秋:
## 砂漠:
# #############嵐:######
参考: https://www 。 php.cn/link/ebeb300882677f350ea818c8f333f5b9
以上がたった一行の文字で3Dフェイスチェンジが実現!カリフォルニア大学バークレー校、大作レベルのレンダリングをたった 1 文で完了する「Chat-NeRF」を提案の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。