検索
ホームページテクノロジー周辺機器AI高解像度のビデオは本物ではありません。複数の写真でレンダリングされた 3D シーンにより、本物かどうかを区別するのが難しくなります。

高解像度のビデオは本物ではありません。複数の写真でレンダリングされた 3D シーンにより、本物かどうかを区別するのが難しくなります。
高解像度のビデオは本物ではありません。複数の写真でレンダリングされた 3D シーンにより、本物かどうかを区別するのが難しくなります。
上記のアニメーションは完全に複数の写真からレンダリングされた 3D シーンであることに注意してください。人間は自分の欠点を見つけるのが難しいのです。

それでは、このシナリオがどのように実現されるかを見てみましょう。

グリッドとポイントは最も一般的な 3D シーン表現であり、明示的であるため、高速な GPU/CUDA ベースのラスタライゼーションに適しています。対照的に、最先端の神経放射場 (NeRF) 手法は連続シーン表現に基づいて構築されており、多くの場合、ボリューム レイ レンダリングに最適化された多層パーセプトロン (MLP) を使用して、キャプチャされたシーンに新しい視点を合成します。これらのメソッドの連続性は最適化に役立ちますが、レンダリングに必要なランダム サンプリングはコストが高く、ノイズが多くなります。

フレンチ リビエラ大学の研究者らは、これら 2 つの方法の利点を組み合わせた新しい方法を導入しました。3D ガウス表現は SOAT の視覚的品質を備え、トレーニング時間も最適化されますが、タイルベースの雪だるま式アルゴリズム (タイルベースのスプラッティング) は、いくつかのデータ セット上で 1080p 解像度での SOTA リアルタイム レンダリングを実現します。
高解像度のビデオは本物ではありません。複数の写真でレンダリングされた 3D シーンにより、本物かどうかを区別するのが難しくなります。
論文のアドレス: https://huggingface.co/papers/2308.04079
高解像度のビデオは本物ではありません。複数の写真でレンダリングされた 3D シーンにより、本物かどうかを区別するのが難しくなります。
研究チームは、複数の写真で撮影されたシーンをリアルタイムでレンダリングし、典型的な実際のシーンで最速の時間を達成するという目標を設定しました。最適化。 Fridovich-Kei らが以前に提案した手法は高速なトレーニングを実現しましたが、現在の SOTA NeRF 手法で達成される視覚的な品質を達成することは困難であり、トレーニングに最大 48 時間を要しました。シーンに応じたインタラクティブなレンダリング(1秒あたり10~15フレーム)を実現する高速だが低品質の放射線場法も提案されているが、この方法では高解像度でのリアルタイムレンダリングは実現できない。

次に、この記事がどのように実装されるかを見てみましょう。研究チームのソリューションは主に 3 つの部分で構成されています。

まず、柔軟で表現力豊かなシーン表現として 3D ガウシアンを紹介します。入力は NeRF 法と似ています。つまり、カメラは Structure-from-Motion (SfM) を使用して校正され、3D ガウス アンサンブルは SfM プロセスから導出された疎な点群を使用して初期化されます。さらに、この研究では SfM ポイントのみを入力として使用して高品質の結果を得ることができました。 NeRF 合成データセットの場合、私たちの方法はランダムな初期化でも高品質の結果を取得できることに注意してください。研究によると、3D ガウスが良い選択であることがわかっています。
2 番目に、3D ガウス プロパティ、つまり 3D 位置、不透明度、異方性共分散、球面調和関数 (SH) 係数を最適化します。最適化プロセスにより、かなりコンパクトで構造化されていない正確なシーンの表現が生成されます。

3 番目のリアルタイム レンダリング ソリューションでは、この研究では高速 GPU ソート アルゴリズムを使用します。ただし、3D ガウス表現により、ソートとブレンディングのおかげで、可視性の順序を尊重しながら異方性スプライシングを実行することができます。また、必要な数のソートされたスプライスのトラバースを追跡することで、高速かつ正確に後方に渡すことができます。

手法の概要

要約すると、この論文は次のような貢献をします:

高解像度のビデオは本物ではありません。複数の写真でレンダリングされた 3D シーンにより、本物かどうかを区別するのが難しくなります。 放射線場の高品質で非構造化表現としての異方性 3D ガウスの導入。
適応密度制御と組み合わされた 3D ガウス プロパティの最適化手法により、キャプチャされたシーンの高品質な表現を作成します。

可視性を考慮した GPU 用の高速微分可能なレンダリング手法。 -高品質の新しいビューの合成。
高解像度のビデオは本物ではありません。複数の写真でレンダリングされた 3D シーンにより、本物かどうかを区別するのが難しくなります。
実験

次の図は、この記事の方法と以前の方法の効果の比較を示しています。
高解像度のビデオは本物ではありません。複数の写真でレンダリングされた 3D シーンにより、本物かどうかを区別するのが難しくなります。
高解像度のビデオは本物ではありません。複数の写真でレンダリングされた 3D シーンにより、本物かどうかを区別するのが難しくなります。
シーンは上から下まで、Mip-NeRF360 データセットの自転車、庭園、カウンター、部屋、ディープ ハイブリッド データセットのゲーム ルームです (詳細な比較については、元の記事をお読みください)。自転車のスポーク、庭の端にある家のガラス、鉄かごのポール、テディベアなど、さまざまな方法によって生じた大きな違いが図に示されています。

この記事の方法には、以前の方法よりも詳細な点で多くの利点があることがわかります。

高解像度のビデオは本物ではありません。複数の写真でレンダリングされた 3D シーンにより、本物かどうかを区別するのが難しくなります。
ビデオでより明らかな違いを確認できます

さらに、図 6 では、7K の反復 (約 5 分) であっても、この記事の方法では電車の細部までよく捉えています。 30K の反復 (約 35 分) で、背景のアーティファクトが大幅に減少します。庭園のシーンでは、違いはほとんど目立たず、7K の反復 (約 8 分) ですでに非常に高品質です。
高解像度のビデオは本物ではありません。複数の写真でレンダリングされた 3D シーンにより、本物かどうかを区別するのが難しくなります。
研究チームは Mip-NeRF360 によって提案された方法を採用し、データセットをトレーニング/テスト部分に分割し、8 枚ごとに写真をテストして一貫性のある有意義な比較を行い、それによってエラー指標を生成し、最も一般的に使用される文献に記載されている標準 PSNR、L-PIPS、および SSIM インジケーターの詳細データを表 1 に示します。
高解像度のビデオは本物ではありません。複数の写真でレンダリングされた 3D シーンにより、本物かどうかを区別するのが難しくなります。
表 1 は、3 つのデータセットにわたって計算された以前の研究と比較した、新しい手法の定量的評価を示しています。 「†」が付いた結果は原論文からそのまま採用され、その他の結果は実験チームによる実験結果です。
高解像度のビデオは本物ではありません。複数の写真でレンダリングされた 3D シーンにより、本物かどうかを区別するのが難しくなります。
合成 NeRF の PSNR スコア。この記事の方法では、ほとんどの場合にスコアが向上し、最適レベルに達することさえあることがわかります。

アブレーション実験

研究チームは、行われたさまざまな貢献とアルゴリズムの選択を分離し、その効果を測定するための一連の実験を構築しました。アルゴリズムの次の側面がテストされました: SfM からの初期化、高密度化戦略、異方性共分散、勾配のある無制限の数のパッチの許可、および球面調和関数の使用。以下の表は、各オプションの定量的な効果をまとめたものです。
高解像度のビデオは本物ではありません。複数の写真でレンダリングされた 3D シーンにより、本物かどうかを区別するのが難しくなります。
より直感的なエフェクトを見てみましょう。
高解像度のビデオは本物ではありません。複数の写真でレンダリングされた 3D シーンにより、本物かどうかを区別するのが難しくなります。
初期化に SfM ポイントを使用すると、より良い結果が得られます。
高解像度のビデオは本物ではありません。複数の写真でレンダリングされた 3D シーンにより、本物かどうかを区別するのが難しくなります。
クローンと分割の両方のケースにおけるアブレーション高密度化戦略
高解像度のビデオは本物ではありません。複数の写真でレンダリングされた 3D シーンにより、本物かどうかを区別するのが難しくなります。
視覚的な品質に大きな影響を与える、グラデーションを受け入れるポイントの数を制限します。左: 受信した勾配を制限する 10 のガウス ポイント。右: この記事の完全な方法論。

詳しくは元記事をお読みください。

以上が高解像度のビデオは本物ではありません。複数の写真でレンダリングされた 3D シーンにより、本物かどうかを区別するのが難しくなります。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
AIのスキルギャップは、サプライチェーンのダウンを遅くしていますAIのスキルギャップは、サプライチェーンのダウンを遅くしていますApr 26, 2025 am 11:13 AM

「AI-Ready労働力」という用語は頻繁に使用されますが、サプライチェーン業界ではどういう意味ですか? サプライチェーン管理協会(ASCM)のCEOであるAbe Eshkenaziによると、批評家ができる専門家を意味します

1つの会社がAIを永遠に変えるために静かに取り組んでいる方法1つの会社がAIを永遠に変えるために静かに取り組んでいる方法Apr 26, 2025 am 11:12 AM

分散型AI革命は静かに勢いを増しています。 今週の金曜日、テキサス州オースティンでは、ビテンサーのエンドゲームサミットは極めて重要な瞬間を示し、理論から実用的な応用に分散したAI(DEAI)を移行します。 派手なコマーシャルとは異なり

Nvidiaは、AIエージェント開発を合理化するためにNEMOマイクロサービスをリリースしますNvidiaは、AIエージェント開発を合理化するためにNEMOマイクロサービスをリリースしますApr 26, 2025 am 11:11 AM

エンタープライズAIはデータ統合の課題に直面しています エンタープライズAIの適用は、ビジネスデータを継続的に学習することで正確性と実用性を維持できるシステムを構築する大きな課題に直面しています。 NEMOマイクロサービスは、NVIDIAが「データフライホイール」と呼んでいるものを作成することにより、この問題を解決し、AIシステムがエンタープライズ情報とユーザーインタラクションへの継続的な露出を通じて関連性を維持できるようにします。 この新しく発売されたツールキットには、5つの重要なマイクロサービスが含まれています。 NEMOカスタマイザーは、より高いトレーニングスループットを備えた大規模な言語モデルの微調整を処理します。 NEMO評価者は、カスタムベンチマークのAIモデルの簡素化された評価を提供します。 Nemo Guardrailsは、コンプライアンスと適切性を維持するためにセキュリティ管理を実装しています

aiは芸術とデザインの未来のために新しい絵を描きますaiは芸術とデザインの未来のために新しい絵を描きますApr 26, 2025 am 11:10 AM

AI:芸術とデザインの未来 人工知能(AI)は、前例のない方法で芸術とデザインの分野を変えており、その影響はもはやアマチュアに限定されませんが、より深く影響を与えています。 AIによって生成されたアートワークとデザインスキームは、広告、ソーシャルメディアの画像生成、Webデザインなど、多くのトランザクションデザインアクティビティで従来の素材画像とデザイナーに迅速に置き換えられています。 ただし、プロのアーティストやデザイナーもAIの実用的な価値を見つけています。 AIを補助ツールとして使用して、新しい美的可能性を探求し、さまざまなスタイルをブレンドし、新しい視覚効果を作成します。 AIは、アーティストやデザイナーが繰り返しタスクを自動化し、さまざまなデザイン要素を提案し、創造的な入力を提供するのを支援します。 AIはスタイル転送をサポートします。これは、画像のスタイルを適用することです

エージェントAIとのズームがどのように革命を起こしているか:会議からマイルストーンまでエージェントAIとのズームがどのように革命を起こしているか:会議からマイルストーンまでApr 26, 2025 am 11:09 AM

最初はビデオ会議プラットフォームで知られていたZoomは、エージェントAIの革新的な使用で職場革命をリードしています。 ZoomのCTOであるXD Huangとの最近の会話は、同社の野心的なビジョンを明らかにしました。 エージェントAIの定義 huang d

大学に対する実存的な脅威大学に対する実存的な脅威Apr 26, 2025 am 11:08 AM

AIは教育に革命をもたらしますか? この質問は、教育者と利害関係者の間で深刻な反省を促しています。 AIの教育への統合は、機会と課題の両方をもたらします。 Tech Edvocate NotesのMatthew Lynch、Universitとして

プロトタイプ:アメリカの科学者は海外の仕事を探していますプロトタイプ:アメリカの科学者は海外の仕事を探していますApr 26, 2025 am 11:07 AM

米国における科学的研究と技術の開発は、おそらく予算削減のために課題に直面する可能性があります。 Natureによると、海外の雇用を申請するアメリカの科学者の数は、2024年の同じ期間と比較して、2025年1月から3月まで32%増加しました。以前の世論調査では、調査した研究者の75%がヨーロッパとカナダでの仕事の検索を検討していることが示されました。 NIHとNSFの助成金は過去数か月で終了し、NIHの新しい助成金は今年約23億ドル減少し、3分の1近く減少しました。リークされた予算の提案は、トランプ政権が科学機関の予算を急激に削減していることを検討しており、最大50%の削減の可能性があることを示しています。 基礎研究の分野での混乱は、米国の主要な利点の1つである海外の才能を引き付けることにも影響を与えています。 35

オープンAIの最新のGPT 4.1ファミリ - 分析VidhyaオープンAIの最新のGPT 4.1ファミリ - 分析VidhyaApr 26, 2025 am 10:19 AM

Openaiは、強力なGPT-4.1シリーズを発表しました。実際のアプリケーション向けに設計された3つの高度な言語モデルのファミリー。 この大幅な飛躍は、より速い応答時間、理解の強化、およびTと比較した大幅に削減されたコストを提供します

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

PhpStorm Mac バージョン

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

mPDF

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

MantisBT

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません