「花果山の名場面」には高解像度版があり、NTUはビデオ超解像度フレームワークUpscale-A-Videoを提案-AI-php.cn

ホームページ

テクノロジー周辺機器

「花果山の名場面」には高解像度版があり、NTUはビデオ超解像度フレームワークUpscale-A-Videoを提案

王林

Jan 11, 2024 pm 07:57 PM

プロジェクト

拡散モデルは画像生成において目覚ましい成功を収めていますが、それをビデオの超解像度に適用するにはまだ課題があります。ビデオの超解像度には出力の忠実性と時間的一貫性が必要ですが、拡散モデルの固有の確率性によってこれが複雑になります。したがって、ビデオ超解像度に拡散モデルを効果的に適用することは依然として困難な課題です。

南洋理工大学 S-Lab の研究チームは、ビデオ超解像度のための Upscale-A-Video と呼ばれるテキストガイドによる潜在拡散フレームワークを提案しました。このフレームワークは、2 つの主要なメカニズムを通じて時間的一貫性を保証します。まず、ローカルスケールで、時間レイヤーを U-Net と VAE-Decoder に統合して、短いシーケンスの一貫性を維持します。第 2 に、フレームワークはグローバルスケールで、トレーニングなしでシーケンス全体にわたって潜在を伝播および融合するフローガイドによる再帰的潜在伝播モジュールを導入し、ビデオ全体の安定性を向上させます。このフレームワークの提案は、時間的一貫性と全体的な安定性が向上した、ビデオ超解像度の新しいソリューションを提供します。

「花果山の名場面」には高解像度版があり、NTUはビデオ超解像度フレームワークUpscale-A-Videoを提案

論文アドレス: https://arxiv.org/abs/2312.06640

拡散パラダイムを通じて、Upscale-A-Video は優れた柔軟性を獲得しました。テキストプロンプトを使用してテクスチャ作成をガイドでき、ノイズレベルを調整して復元と生成の間の忠実度と品質のバランスを取ることができます。この機能により、テクノロジーは元のコンテンツの意味を維持しながら詳細を微調整できるため、より正確な結果が得られます。

実験結果は、Upscale-A-Video が合成ベンチマークと現実世界のベンチマークで既存の手法を上回り、印象的な視覚的リアリズムと時間的一貫性を示していることを示しています。

まず、具体的な例をいくつか見てみましょう。たとえば、Upscale-A-Video の助けを借りて、「花果山の名シーン」には高解像度バージョンがあります:

「花果山の名場面」には高解像度版があり、NTUはビデオ超解像度フレームワークUpscale-A-Videoを提案

StableSR と比較すると、Upscale-A-Video ではビデオ内のリスの毛のテクスチャがはっきりと見えます:

方法の紹介

一部の研究では、時間的一貫性戦略を導入することで、ビデオタスクに適応する画像拡散モデルを最適化しています。これらの戦略には、次の 2 つの方法が含まれます。1 つは、3D 畳み込みや時間的アテンションなどの時間レイヤーを通じてビデオモデルを微調整し、ビデオ処理パフォーマンスを向上させることです。 2 番目に、クロスフレームアテンションやフローガイドアテンションなどのゼロショットメカニズムを使用して、事前トレーニングされたモデルを調整し、ビデオタスクのパフォーマンスを向上させます。これらの方法の導入により、画像拡散モデルがビデオタスクをより適切に処理できるようになり、ビデオ処理の効果が向上します。

これらのソリューションはビデオの安定性を大幅に向上させますが、次の 2 つの主な問題が残っています:

現在のメソッドは U-Net 機能または潜在スペースで動作します。低レベルの一貫性を維持するのが難しい、問題があります。テクスチャのちらつきのようなものが持続します。
既存の時間レイヤーとアテンションメカニズムは、短いローカル入力シーケンスに制約を課すことしかできず、長いビデオでグローバルな時間的一貫性を確保する能力が制限されています。

これらの問題を解決するために、Upscale-A-Video はローカル/グローバル戦略を採用し、きめの細かいテクスチャと全体的な一貫性に重点を置き、ビデオ再構成の時間的一貫性を維持します。この研究では、ローカルビデオクリップについて、ビデオデータに追加の時間レイヤーを使用して、事前トレーニングされた画像×4 超解像度モデルを微調整することを検討します。

具体的には、潜在拡散フレームワーク内で、この研究はまず統合された 3D 畳み込み層と時間的注意層を使用して U-Net を微調整し、次にビデオ条件付き入力と 3D 畳み込みを使用して VAE デコードデバイスを調整します。前者はローカルシーケンスの構造安定性を大幅に達成し、後者は低レベルの一貫性をさらに改善し、テクスチャのちらつきを軽減します。世界規模で、この研究は、推論中にフレームごとの伝播と両方向の潜在融合を実行し、長いビデオの全体的な安定性を促進する、新しいトレーニング不要のフローガイド付き再帰的潜在伝播モジュールを導入します。

Upscale-A-Video モデルでは、図 1 に示すように、テキストプロンプトをオプションの条件として利用して、より現実的で高品質の詳細を生成するようにモデルをガイドできます。

Upscale-A-Video は、ビデオをセグメントに分割し、時間レイヤーを備えた U-Net を使用してそれらを処理し、セグメント内の一貫性を実現します。再帰的潜在伝播モジュールは、ユーザー指定のグローバルリファインメント拡散中にセグメント間の一貫性を強化するために使用されます。最後に、微調整された VAE デコーダによりフリッカーアーティファクトが軽減され、低レベルの一貫性が実現されます。

#実験結果

Upscale-A-Video は既存のベンチマークで SOTA パフォーマンスを達成し、優れたビジュアルを実証しますリアリズムと時間的一貫性。

定量的な評価。表 1 に示すように、Upscale-A-Video は 4 つの合成データセットすべてで最高の PSNR を達成しており、その優れた再構成機能が示されています。

「花果山の名場面」には高解像度版があり、NTUはビデオ超解像度フレームワークUpscale-A-Videoを提案 #定性的評価。この研究では、合成ビデオと現実世界のビデオの視覚的な結果をそれぞれ図 4 と図 5 に示します。 Upscale-A-Video は、アーティファクトの除去とディテールの生成の両方において、既存の CNN および拡散ベースの手法を大幅に上回ります。

「花果山の名場面」には高解像度版があり、NTUはビデオ超解像度フレームワークUpscale-A-Videoを提案

以上が「花果山の名場面」には高解像度版があり、NTUはビデオ超解像度フレームワークUpscale-A-Videoを提案の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Huggingface smollmであなたの個人的なAIアシスタントを構築する方法Apr 18, 2025 am 11:52 AM

オンデバイスAIの力を活用：個人的なチャットボットCLIの構築最近では、個人的なAIアシスタントの概念はサイエンスフィクションのように見えました。ハイテク愛好家のアレックスを想像して、賢くて地元のAI仲間を夢見ています。

メンタルヘルスのためのAIは、スタンフォード大学でのエキサイティングな新しいイニシアチブによって注意深く分析されますApr 18, 2025 am 11:49 AM

AI4MHの最初の発売は2025年4月15日に開催され、有名な精神科医および神経科学者であるLuminary Dr. Tom Insel博士がキックオフスピーカーを務めました。 Insel博士は、メンタルヘルス研究とテクノでの彼の傑出した仕事で有名です

2025年のWNBAドラフトクラスは、成長し、オンラインハラスメントの成長と戦いに参加しますApr 18, 2025 am 11:44 AM

「私たちは、WNBAが、すべての人、プレイヤー、ファン、企業パートナーが安全であり、大切になり、力を与えられたスペースであることを保証したいと考えています」とエンゲルバートは述べ、女性のスポーツの最も有害な課題の1つになったものに取り組んでいます。アノ

Pythonビルトインデータ構造の包括的なガイド-AnalyticsVidhyaApr 18, 2025 am 11:43 AM

導入 Pythonは、特にデータサイエンスと生成AIにおいて、プログラミング言語として優れています。大規模なデータセットを処理する場合、効率的なデータ操作（ストレージ、管理、アクセス）が重要です。以前に数字とstをカバーしてきました

Openaiの新しいモデルからの代替案からの第一印象Apr 18, 2025 am 11:41 AM

潜る前に、重要な注意事項：AIパフォーマンスは非決定論的であり、非常にユースケース固有です。簡単に言えば、走行距離は異なる場合があります。この（または他の）記事を最終的な単語として撮影しないでください。これらのモデルを独自のシナリオでテストしないでください

AIポートフォリオ| AIキャリアのためにポートフォリオを構築する方法は？Apr 18, 2025 am 11:40 AM

傑出したAI/MLポートフォリオの構築：初心者と専門家向けガイド説得力のあるポートフォリオを作成することは、人工知能（AI）と機械学習（ML）で役割を確保するために重要です。このガイドは、ポートフォリオを構築するためのアドバイスを提供します

エージェントAIがセキュリティ運用にとって何を意味するのかApr 18, 2025 am 11:36 AM

結果？燃え尽き症候群、非効率性、および検出とアクションの間の隙間が拡大します。これは、サイバーセキュリティで働く人にとってはショックとしてはありません。しかし、エージェントAIの約束は潜在的なターニングポイントとして浮上しています。この新しいクラス

Google対Openai：学生のためのAIの戦いApr 18, 2025 am 11:31 AM

即時の影響と長期パートナーシップ？ 2週間前、Openaiは強力な短期オファーで前進し、2025年5月末までに米国およびカナダの大学生にChatGpt Plusに無料でアクセスできます。このツールにはGPT ‑ 4o、Aが含まれます。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。