ホームページ  >  記事  >  テクノロジー周辺機器  >  Anything in Any Scene: リアルなオブジェクトの挿入 (さまざまな走行データの合成を支援するため)

Anything in Any Scene: リアルなオブジェクトの挿入 (さまざまな走行データの合成を支援するため)

王林
王林転載
2024-03-06 22:10:02457ブラウズ

元のタイトル: Anything in Any Scene: Photorealistic Video Object Insertion

論文リンク: https://arxiv.org/pdf/2401.17509.pdf

コード リンク: https ://github.com/AnythingInAnyScene/anything_in_anyscene

著者の所属: Xpeng Motors

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

#論文のアイデア

#Realisticビデオ シミュレーションは、仮想現実から映画制作に至るまでのアプリケーションにおいて大きな可能性を示しています。特に、現実世界でビデオをキャプチャすることが非現実的であるか、費用がかかる場合はそうです。ビデオ シミュレーションの既存の方法では、照明環境を正確にモデル化したり、オブジェクトのジオメトリを表現したり、高レベルのフォトリアリズムを達成したりできないことがよくあります。この論文は、既存のダイナミック ビデオに任意のオブジェクトをシームレスに挿入し、物理的なリアリズムを強調できる、斬新で多用途なリアル ビデオ シミュレーション フレームワークである

Anything in Any Scene を提案します。この論文で提案する全体的なフレームワークには、3 つの重要なプロセスが含まれています: 1) 現実のオブジェクトを特定のシーン ビデオに統合し、それらを適切な位置に配置して幾何学的なリアリズムを確保する; 2) 空と周囲の照明分布を推定し、実際の影をシミュレートして光のリアリズムを強化する; 3) スタイル転送ネットワークを使用して最終的なビデオ出力を調整し、写真のリアリズムを最大限に高めます。この記事では、Anything in Any Scene フレームワークが優れた幾何学的リアリズム、照明リアリズム、フォト リアリズムを備えたシミュレーション ビデオを生成できることを実験的に証明します。ビデオ データ生成に関連する課題を大幅に軽減することで、当社のフレームワークは、高品質のビデオを取得するための効率的でコスト効率の高いソリューションを提供します。さらに、そのアプリケーションはビデオ データの拡張をはるかに超えて拡張されており、仮想現実、ビデオ編集、その他のさまざまなビデオ中心のアプリケーションにおいて有望な可能性を示しています。

主な貢献

この論文では、あらゆるオブジェクトをあらゆる動的なシーン ビデオに統合できる、斬新で拡張可能な Anything in Any Scene ビデオ シミュレーション フレームワークを紹介します。

この記事は独自に構成されており、出力結果の高品質と信頼性を確保するために、ビデオ シミュレーションにおけるジオメトリ、ライティング、フォトリアリズムを維持することに重点を置いています。

広範な検証の結果、このフレームワークには非常に現実的なビデオ シミュレーションを生成する機能があり、この分野の適用範囲と開発の可能性が大幅に拡大されることがわかりました。

論文デザイン

画像とビデオのシミュレーションは、仮想現実から映画制作に至るまで、さまざまなアプリケーションで成功を収めています。フォトリアリスティックな画像とビデオのシミュレーションを通じて多様で高品質のビジュアル コンテンツを生成できる機能は、これらの分野を進歩させ、新しい可能性とアプリケーションを導入する可能性を秘めています。現実世界で撮影された画像やビデオの信頼性は非常に貴重ですが、ロングテール配信によって制限されることがよくあります。これにより、一般的なシナリオが過剰に表現され、まれではあるが重大な状況が過小評価されることになり、分布外問題として知られる課題が生じます。ビデオのキャプチャと編集を通じてこれらの制限に対処する従来の方法は、考えられるすべてのシナリオをカバーすることが困難であるため、非現実的であるか、または法外なコストがかかることが判明しました。これらの課題を克服するには、特に既存のビデオと新しく挿入されたオブジェクトを統合することによるビデオ シミュレーションの重要性が重要になります。ビデオ シミュレーションは、大規模で多様かつリアルなビジュアル コンテンツを生成することで、仮想現実、ビデオ編集、およびビデオ データ拡張におけるアプリケーションの拡張に役立ちます。

しかし、物理的なリアリズムを考慮したリアルなシミュレーション ビデオを生成することは、依然として困難な未解決の問題です。既存の方法は、特定の設定、特に屋内環境に焦点を当てているため、制限が生じることがよくあります [9、26、45、46、57]。これらの方法では、さまざまな照明条件や高速で移動する物体などの屋外シーンの複雑さに十分に対処できない場合があります。 3D モデルの登録に依存する方法は、オブジェクトの限られたクラスの統合に限定されます [12、32、40、42]。多くの方法では、照明環境のモデリング、正しいオブジェクトの配置、リアリズムの達成などの重要な要素が無視されています [12、36]。失敗したケースを図 1 に示します。したがって、これらの制限により、自動運転やロボット工学など、拡張性が高く、幾何学的に一貫性があり、現実的なシーンのビデオ シミュレーションが必要な分野での応用が大幅に制限されます。

このペーパーでは、これらの課題に対処する、Anything in Any Scene にフォトリアリスティックなビデオ オブジェクトを挿入するための包括的なフレームワークを提案します。このフレームワークは多用途で屋内および屋外のシーンに適するように設計されており、幾何学的なリアリズム、照明のリアリズム、フォトリアリズムの点で物理的な精度を保証します。この論文の目標は、機械学習における視覚データの拡張に役立つだけでなく、仮想現実やビデオ編集などのさまざまなビデオ アプリケーションにも適したビデオ シミュレーションを作成することです。

この記事の Anything in Any Scene フレームワークの概要を図 2 に示します。このペーパーでは、セクション 3 でシーン ビデオとオブジェクト メッシュの多様なアセット ライブラリを構築するための斬新でスケーラブルなパイプラインについて詳しく説明します。この文書では、説明的なキーワードを使用してビジュアル クエリから関連するビデオ クリップを効率的に取得するように設計されたビジュアル データ クエリ エンジンを紹介します。次に、この論文では、既存の 3D アセットとマルチビュー画像再構成を活用して 3D メッシュを生成する 2 つの方法を提案します。これにより、たとえそれが非常に不規則であったり、意味的に弱い場合でも、任意の目的のオブジェクトを無制限に挿入できます。セクション 4 では、物理的なリアリズムの維持に焦点を当て、オブジェクトを動的なシーン ビデオに統合する方法について詳しく説明します。この論文では、挿入されたオブジェクトが連続するビデオ フレームに安定して固定されるように、セクション 4.1 で説明されているオブジェクトの配置と安定化の方法を設計します。リアルな照明と影の効果を作成するという課題に対処するために、このペーパーでは、セクション 4.2 で説明されているように、空と環境の照明を推定し、レンダリング中にリアルな影を生成します。生成されたシミュレートされたビデオ フレームには、ノイズ レベル、色の忠実度、シャープネスなどの画質の違いなど、実際にキャプチャされたビデオとは異なる非現実的なアーチファクトが必然的に含まれます。この論文では、セクション 4.3 でスタイル転送ネットワークを使用して写真のリアリズムを強化します。

セクション 5.3 で示したように、この論文で提案したフレームワークから生成されたシミュレーション ビデオは、高度な照明リアリズム、幾何学的リアリズム、フォト リアリズムを実現し、質と量の両方で他のビデオを上回っています。この記事では、セクション 5.4 の知覚アルゴリズムのトレーニングにおけるこの記事のシミュレーション ビデオの適用をさらに実証し、その実用的な価値を検証します。 Anything in Any Scene フレームワークを使用すると、時間効率と現実的な視覚品質を備えたデータ拡張のための大規模で低コストのビデオ データセットの作成が可能になり、これによりビデオ データ生成の負担が軽減され、ロングテールとアウトオブビデオが改善される可能性があります。配布の課題。一般的なフレームワーク設計により、Anything in Any Scene フレームワークは、改良された 3D メッシュ再構成方法などの改良されたモデルと新しいモジュールを簡単に統合して、ビデオ シミュレーションのパフォーマンスをさらに向上させることができます。

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)図 1. 照明環境の推定が不正確、オブジェクトの配置が不正確、テクスチャ スタイルが非現実的であるシミュレートされたビデオ フレームの例 これらの問題により、画像に物理的なリアリズムが欠けています。 Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)図 2. フォトリアリスティックなビデオ オブジェクト挿入のための Anything in Any Scene フレームワークの概要 Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)図 3. オブジェクト配置のための運転シーン ビデオの例。各画像内の赤い点は、オブジェクトが挿入された場所です。

実験結果

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

図 4. 元の空の画像、再構成された HDR 画像、およびそれらに関連する太陽照度分布マップの例

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

図 5. 元の HDR 環境パノラマ画像と再構築された HDR 環境のパノラマ画像の例

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

図 6. 挿入されたオブジェクトの影の例

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

# 図 7. さまざまなスタイルの転送ネットワークを使用して PandaSet データセットからシミュレートされたビデオ フレームの定性的比較。

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

図 8. さまざまなレンダリング条件下で PandaSet データセットからシミュレートされたビデオ フレームの定性的比較。

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

要約:

この文書では、リアルなビデオ シミュレーションとデザインのために設計された、革新的で拡張可能なフレームワーク「あらゆるシーンのあらゆるもの」を提案します。この論文で提案されているフレームワークは、さまざまなオブジェクトをさまざまなダイナミック ビデオにシームレスに統合し、幾何学的なリアリズム、照明のリアリズム、写真のリアリズムを確実に維持します。このペーパーでは、広範なデモンストレーションを通じて、ビデオ データの収集と生成に関連する課題を軽減する有効性を示し、さまざまなシナリオに対して費用対効果が高く、時間を節約できるソリューションを提供します。私たちのフレームワークを適用すると、下流の認識タスク、特に物体検出におけるロングテール分布問題の解決において大幅な改善が見られます。当社のフレームワークの柔軟性により、各モジュールの改善されたモデルを直接統合することができ、当社のフレームワークは、リアルなビデオ シミュレーションの分野における将来の探求と革新のための強固な基盤を築きます。

引用:

Bai C、Shao Z、Zhang G、他、「Anything in Any Scene: Photorealistic Video Object Insertion」[J]、arXiv プレプリント arXiv:2401.17509 、2024.

以上がAnything in Any Scene: リアルなオブジェクトの挿入 (さまざまな走行データの合成を支援するため)の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。