検索
ホームページテクノロジー周辺機器AIAnything in Any Scene: リアルなオブジェクトの挿入 (さまざまな走行データの合成を支援するため)

元のタイトル: Anything in Any Scene: Photorealistic Video Object Insertion

論文リンク: https://arxiv.org/pdf/2401.17509.pdf

コード リンク: https ://github.com/AnythingInAnyScene/anything_in_anyscene

著者の所属: Xpeng Motors

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

#論文のアイデア

#Realisticビデオ シミュレーションは、仮想現実から映画制作に至るまでのアプリケーションにおいて大きな可能性を示しています。特に、現実世界でビデオをキャプチャすることが非現実的であるか、費用がかかる場合はそうです。ビデオ シミュレーションの既存の方法では、照明環境を正確にモデル化したり、オブジェクトのジオメトリを表現したり、高レベルのフォトリアリズムを達成したりできないことがよくあります。この論文は、既存のダイナミック ビデオに任意のオブジェクトをシームレスに挿入し、物理的なリアリズムを強調できる、斬新で多用途なリアル ビデオ シミュレーション フレームワークである

Anything in Any Scene を提案します。この論文で提案する全体的なフレームワークには、3 つの重要なプロセスが含まれています: 1) 現実のオブジェクトを特定のシーン ビデオに統合し、それらを適切な位置に配置して幾何学的なリアリズムを確保する; 2) 空と周囲の照明分布を推定し、実際の影をシミュレートして光のリアリズムを強化する; 3) スタイル転送ネットワークを使用して最終的なビデオ出力を調整し、写真のリアリズムを最大限に高めます。この記事では、Anything in Any Scene フレームワークが優れた幾何学的リアリズム、照明リアリズム、フォト リアリズムを備えたシミュレーション ビデオを生成できることを実験的に証明します。ビデオ データ生成に関連する課題を大幅に軽減することで、当社のフレームワークは、高品質のビデオを取得するための効率的でコスト効率の高いソリューションを提供します。さらに、そのアプリケーションはビデオ データの拡張をはるかに超えて拡張されており、仮想現実、ビデオ編集、その他のさまざまなビデオ中心のアプリケーションにおいて有望な可能性を示しています。

主な貢献

この論文では、あらゆるオブジェクトをあらゆる動的なシーン ビデオに統合できる、斬新で拡張可能な Anything in Any Scene ビデオ シミュレーション フレームワークを紹介します。

この記事は独自に構成されており、出力結果の高品質と信頼性を確保するために、ビデオ シミュレーションにおけるジオメトリ、ライティング、フォトリアリズムを維持することに重点を置いています。

広範な検証の結果、このフレームワークには非常に現実的なビデオ シミュレーションを生成する機能があり、この分野の適用範囲と開発の可能性が大幅に拡大されることがわかりました。

論文デザイン

画像とビデオのシミュレーションは、仮想現実から映画制作に至るまで、さまざまなアプリケーションで成功を収めています。フォトリアリスティックな画像とビデオのシミュレーションを通じて多様で高品質のビジュアル コンテンツを生成できる機能は、これらの分野を進歩させ、新しい可能性とアプリケーションを導入する可能性を秘めています。現実世界で撮影された画像やビデオの信頼性は非常に貴重ですが、ロングテール配信によって制限されることがよくあります。これにより、一般的なシナリオが過剰に表現され、まれではあるが重大な状況が過小評価されることになり、分布外問題として知られる課題が生じます。ビデオのキャプチャと編集を通じてこれらの制限に対処する従来の方法は、考えられるすべてのシナリオをカバーすることが困難であるため、非現実的であるか、または法外なコストがかかることが判明しました。これらの課題を克服するには、特に既存のビデオと新しく挿入されたオブジェクトを統合することによるビデオ シミュレーションの重要性が重要になります。ビデオ シミュレーションは、大規模で多様かつリアルなビジュアル コンテンツを生成することで、仮想現実、ビデオ編集、およびビデオ データ拡張におけるアプリケーションの拡張に役立ちます。

しかし、物理的なリアリズムを考慮したリアルなシミュレーション ビデオを生成することは、依然として困難な未解決の問題です。既存の方法は、特定の設定、特に屋内環境に焦点を当てているため、制限が生じることがよくあります [9、26、45、46、57]。これらの方法では、さまざまな照明条件や高速で移動する物体などの屋外シーンの複雑さに十分に対処できない場合があります。 3D モデルの登録に依存する方法は、オブジェクトの限られたクラスの統合に限定されます [12、32、40、42]。多くの方法では、照明環境のモデリング、正しいオブジェクトの配置、リアリズムの達成などの重要な要素が無視されています [12、36]。失敗したケースを図 1 に示します。したがって、これらの制限により、自動運転やロボット工学など、拡張性が高く、幾何学的に一貫性があり、現実的なシーンのビデオ シミュレーションが必要な分野での応用が大幅に制限されます。

このペーパーでは、これらの課題に対処する、Anything in Any Scene にフォトリアリスティックなビデオ オブジェクトを挿入するための包括的なフレームワークを提案します。このフレームワークは多用途で屋内および屋外のシーンに適するように設計されており、幾何学的なリアリズム、照明のリアリズム、フォトリアリズムの点で物理的な精度を保証します。この論文の目標は、機械学習における視覚データの拡張に役立つだけでなく、仮想現実やビデオ編集などのさまざまなビデオ アプリケーションにも適したビデオ シミュレーションを作成することです。

この記事の Anything in Any Scene フレームワークの概要を図 2 に示します。このペーパーでは、セクション 3 でシーン ビデオとオブジェクト メッシュの多様なアセット ライブラリを構築するための斬新でスケーラブルなパイプラインについて詳しく説明します。この文書では、説明的なキーワードを使用してビジュアル クエリから関連するビデオ クリップを効率的に取得するように設計されたビジュアル データ クエリ エンジンを紹介します。次に、この論文では、既存の 3D アセットとマルチビュー画像再構成を活用して 3D メッシュを生成する 2 つの方法を提案します。これにより、たとえそれが非常に不規則であったり、意味的に弱い場合でも、任意の目的のオブジェクトを無制限に挿入できます。セクション 4 では、物理的なリアリズムの維持に焦点を当て、オブジェクトを動的なシーン ビデオに統合する方法について詳しく説明します。この論文では、挿入されたオブジェクトが連続するビデオ フレームに安定して固定されるように、セクション 4.1 で説明されているオブジェクトの配置と安定化の方法を設計します。リアルな照明と影の効果を作成するという課題に対処するために、このペーパーでは、セクション 4.2 で説明されているように、空と環境の照明を推定し、レンダリング中にリアルな影を生成します。生成されたシミュレートされたビデオ フレームには、ノイズ レベル、色の忠実度、シャープネスなどの画質の違いなど、実際にキャプチャされたビデオとは異なる非現実的なアーチファクトが必然的に含まれます。この論文では、セクション 4.3 でスタイル転送ネットワークを使用して写真のリアリズムを強化します。

セクション 5.3 で示したように、この論文で提案したフレームワークから生成されたシミュレーション ビデオは、高度な照明リアリズム、幾何学的リアリズム、フォト リアリズムを実現し、質と量の両方で他のビデオを上回っています。この記事では、セクション 5.4 の知覚アルゴリズムのトレーニングにおけるこの記事のシミュレーション ビデオの適用をさらに実証し、その実用的な価値を検証します。 Anything in Any Scene フレームワークを使用すると、時間効率と現実的な視覚品質を備えたデータ拡張のための大規模で低コストのビデオ データセットの作成が可能になり、これによりビデオ データ生成の負担が軽減され、ロングテールとアウトオブビデオが改善される可能性があります。配布の課題。一般的なフレームワーク設計により、Anything in Any Scene フレームワークは、改良された 3D メッシュ再構成方法などの改良されたモデルと新しいモジュールを簡単に統合して、ビデオ シミュレーションのパフォーマンスをさらに向上させることができます。

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)図 1. 照明環境の推定が不正確、オブジェクトの配置が不正確、テクスチャ スタイルが非現実的であるシミュレートされたビデオ フレームの例 これらの問題により、画像に物理的なリアリズムが欠けています。 Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)図 2. フォトリアリスティックなビデオ オブジェクト挿入のための Anything in Any Scene フレームワークの概要 Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)図 3. オブジェクト配置のための運転シーン ビデオの例。各画像内の赤い点は、オブジェクトが挿入された場所です。

実験結果

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

図 4. 元の空の画像、再構成された HDR 画像、およびそれらに関連する太陽照度分布マップの例

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

図 5. 元の HDR 環境パノラマ画像と再構築された HDR 環境のパノラマ画像の例

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

図 6. 挿入されたオブジェクトの影の例

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

# 図 7. さまざまなスタイルの転送ネットワークを使用して PandaSet データセットからシミュレートされたビデオ フレームの定性的比較。

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

図 8. さまざまなレンダリング条件下で PandaSet データセットからシミュレートされたビデオ フレームの定性的比較。

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

要約:

この文書では、リアルなビデオ シミュレーションとデザインのために設計された、革新的で拡張可能なフレームワーク「あらゆるシーンのあらゆるもの」を提案します。この論文で提案されているフレームワークは、さまざまなオブジェクトをさまざまなダイナミック ビデオにシームレスに統合し、幾何学的なリアリズム、照明のリアリズム、写真のリアリズムを確実に維持します。このペーパーでは、広範なデモンストレーションを通じて、ビデオ データの収集と生成に関連する課題を軽減する有効性を示し、さまざまなシナリオに対して費用対効果が高く、時間を節約できるソリューションを提供します。私たちのフレームワークを適用すると、下流の認識タスク、特に物体検出におけるロングテール分布問題の解決において大幅な改善が見られます。当社のフレームワークの柔軟性により、各モジュールの改善されたモデルを直接統合することができ、当社のフレームワークは、リアルなビデオ シミュレーションの分野における将来の探求と革新のための強固な基盤を築きます。

引用:

Bai C、Shao Z、Zhang G、他、「Anything in Any Scene: Photorealistic Video Object Insertion」[J]、arXiv プレプリント arXiv:2401.17509 、2024.

以上がAnything in Any Scene: リアルなオブジェクトの挿入 (さまざまな走行データの合成を支援するため)の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
ChatGPTが使えない!原因とすぐ試せる対処法を解説【2025年最新】ChatGPTが使えない!原因とすぐ試せる対処法を解説【2025年最新】May 14, 2025 am 05:04 AM

ChatGptはアクセスできませんか?この記事では、さまざまな実用的なソリューションを提供しています!多くのユーザーは、ChatGPTを毎日使用する場合、アクセス不能や応答が遅いなどの問題に遭遇する可能性があります。この記事では、さまざまな状況に基づいてこれらの問題を段階的に解決するように導きます。 ChatGPTのアクセス不能性と予備的なトラブルシューティングの原因 まず、問題がOpenaiサーバー側にあるのか、ユーザー自身のネットワークまたはデバイスの問題にあるのかを判断する必要があります。 以下の手順に従って、トラブルシューティングしてください。 ステップ1:OpenAIの公式ステータスを確認してください OpenAIステータスページ(status.openai.com)にアクセスして、ChatGPTサービスが正常に実行されているかどうかを確認してください。赤または黄色のアラームが表示されている場合、それは開くことを意味します

ASIのリスクを計算することは、人間の心から始まりますASIのリスクを計算することは、人間の心から始まりますMay 14, 2025 am 05:02 AM

2025年5月10日、MIT物理学者のMax Tegmarkは、AI Labsが人工的なスーパーインテリジェンスを解放する前にOppenheimerの三位一体計算をエミュレートすべきだとGuardianに語った。 「私の評価では、「コンプトン定数」、競争が

ChatGPTで作詞・作曲する方法とおすすめツールをわかりやすく解説ChatGPTで作詞・作曲する方法とおすすめツールをわかりやすく解説May 14, 2025 am 05:01 AM

AI Music Creation Technologyは、1日ごとに変化しています。この記事では、ChatGPTなどのAIモデルを例として使用して、AIを使用して音楽の作成を支援し、実際のケースで説明する方法を詳細に説明します。 Sunoai、Hugging Face、PythonのMusic21 Libraryを通じて音楽を作成する方法を紹介します。 これらのテクノロジーを使用すると、誰もがオリジナルの音楽を簡単に作成できます。ただし、AIに生成されたコンテンツの著作権問題は無視できないことに注意する必要があります。使用する際には注意する必要があります。 音楽分野でのAIの無限の可能性を一緒に探りましょう! Openaiの最新のAIエージェント「Openai Deep Research」が紹介します。 [chatgpt] ope

ChatGPT-4とは?できることや料金、GPT-3.5との違いを徹底解説!ChatGPT-4とは?できることや料金、GPT-3.5との違いを徹底解説!May 14, 2025 am 05:00 AM

ChATGPT-4の出現により、AIアプリケーションの可能性が大幅に拡大しました。 GPT-3.5と比較して、CHATGPT-4は大幅に改善されました。強力なコンテキスト理解能力を備えており、画像を認識して生成することもできます。普遍的なAIアシスタントです。それは、ビジネス効率の改善や創造の支援など、多くの分野で大きな可能性を示しています。ただし、同時に、その使用における予防策にも注意を払わなければなりません。 この記事では、ChATGPT-4の特性を詳細に説明し、さまざまなシナリオの効果的な使用方法を紹介します。この記事には、最新のAIテクノロジーを最大限に活用するためのスキルが含まれています。参照してください。 Openaiの最新のAIエージェント、「Openai Deep Research」の詳細については、以下のリンクをクリックしてください

ChatGPTのアプリの使い方を解説!日本語対応で音声会話機能もChatGPTのアプリの使い方を解説!日本語対応で音声会話機能もMay 14, 2025 am 04:59 AM

ChatGPTアプリ:AIアシスタントで創造性を解き放つ!初心者向けガイド ChatGPTアプリは、文章作成、翻訳、質問応答など、多様なタスクに対応する革新的なAIアシスタントです。創作活動や情報収集にも役立つ、無限の可能性を秘めたツールです。 この記事では、ChatGPTスマホアプリのインストール方法から、音声入力機能やプラグインといったアプリならではの機能、そしてアプリ利用上の注意点まで、初心者にも分かりやすく解説します。プラグインの制限やデバイス間の設定同期についてもしっかりと触れていきま

ChatGPTの中文版の利用方法は?登録手順や料金について解説ChatGPTの中文版の利用方法は?登録手順や料金について解説May 14, 2025 am 04:56 AM

Chatgpt中国語版:中国語のAIの対話の新しい体験のロックを解除する ChatGptは世界中で人気がありますが、中国語版も提供していることをご存知ですか?この強力なAIツールは、毎日の会話をサポートするだけでなく、プロのコンテンツを処理し、簡素化された伝統的な中国語と互換性があります。中国のユーザーであろうと、中国語を学んでいる友人であろうと、あなたはそれから利益を得ることができます。 この記事では、アカウント設定、中国語の迅速な単語入力、フィルターの使用、さまざまなパッケージの選択を含むChatGpt中国語のバージョンの使用方法を詳細に紹介し、潜在的なリスクと対応戦略を分析します。さらに、ChatGpt中国語版を他の中国のAIツールと比較して、その利点とアプリケーションシナリオをよりよく理解するのに役立ちます。 Openaiの最新のAIインテリジェンス

5 AIエージェントの神話あなたは今信じるのをやめる必要があります5 AIエージェントの神話あなたは今信じるのをやめる必要がありますMay 14, 2025 am 04:54 AM

これらは、生成AIの分野で次の飛躍と考えることができ、ChatGptやその他の大規模なモデルのチャットボットを提供しました。単に質問に答えたり情報を生成したりするのではなく、彼らは私たちに代わって行動を起こすことができます。

ChatGPTで複数アカウントを作成・管理する不法をわかりやすく解説ChatGPTで複数アカウントを作成・管理する不法をわかりやすく解説May 14, 2025 am 04:50 AM

ChatGPTを活用した効率的な複数アカウント管理術|ビジネスとプライベートの使い分けも徹底解説! 様々な場面で活用されているChatGPTですが、複数アカウントの管理に頭を悩ませている方もいるのではないでしょうか。この記事では、ChatGPTの複数アカウント作成方法、利用上の注意点、そして安全かつ効率的な運用方法を詳しく解説します。ビジネス利用とプライベート利用の使い分け、OpenAIの利用規約遵守といった重要な点にも触れ、複数アカウントを安全に活用するためのガイドを提供します。 OpenAI

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

SecLists

SecLists

SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

DVWA

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター