ビデオを 14 秒で再構築し、キャラクターを変更することができ、メタによりビデオ合成が 44 倍高速化されます。-AI-php.cn

ホームページ

テクノロジー周辺機器

ビデオを 14 秒で再構築し、キャラクターを変更することができ、メタによりビデオ合成が 44 倍高速化されます。

王林

Dec 27, 2023 pm 06:35 PM

プロジェクトfairy

Meta の新しいビデオ合成フレームワークは私たちにいくつかの驚きをもたらしました

今日の人工知能の開発レベルについて、たとえば、テキストベースの写真、写真ベースのビデオ、および画像/ビデオスタイルの転送は難しくありません。

Generative AI には、コンテンツを簡単に作成または変更できる機能が備わっています。特に画像編集は、10億規模のデータセットで事前トレーニングされたテキストから画像への拡散モデルによって大幅な成長を遂げています。この波により、大量の画像編集アプリやコンテンツ作成アプリが誕生しました。

画像ベースの生成モデルの成果を踏まえ、次の課題は、これに「時間次元」を加え、リラックスしたクリエイティブな動画を実現することです。編集。

簡単な戦略は、画像モデルを使用してビデオをフレームごとに処理することですが、生成画像編集は本質的に、同じテキストプロンプトに基づいている場合でも、ばらつきが大きくなります。特定の画像を編集する方法は無数にあります。各フレームを個別に編集すると、時間的な一貫性を維持することが困難になります。

最近の論文で、Meta GenAI チームの研究者は、画像編集拡散モデルの「単純な適応」である Fairy を提案しました。これにより、AI のパフォーマンスが大幅に向上します。ビデオ編集。

#以下は Fairy の編集ビデオエフェクト表示です:

ビデオを 14 秒で再構築し、キャラクターを変更することができ、メタによりビデオ合成が 44 倍高速化されます。

##Fairy は、120 フレームの 512×384 ビデオ (4 秒、30 FPS) をわずか 14 秒で生成します。これは、以前の方法より少なくとも 44 倍高速です。生成された 1,000 個のサンプルを含む包括的なユーザー調査により、提案された方法が高品質を生成し、既存の方法を大幅に上回ることが確認されました。

どうやってやったのですか？

論文によると、Fairy はアンカーポイントに基づくクロスフレームアテンションの概念に基づいており、このメカニズムによりフレーム間で拡散特徴を暗黙的に伝播し、時間的一貫性を確保できます。忠実度の高い複合エフェクト。 Fairy は、メモリと処理速度の点で以前のモデルの制限を解決するだけでなく、モデルをソース画像とターゲット画像のアフィン変換と同等にする独自のデータ拡張戦略を通じて時間的一貫性を向上させます。

ビデオを 14 秒で再構築し、キャラクターを変更することができ、メタによりビデオ合成が 44 倍高速化されます。

#メソッド

フェアリーは、拡散モデルの特性に関連して、以前の追跡と伝播のパラダイムを再検討します。特に、この調査では、対応推定を使用してフレーム間の注意をブリッジし、モデルが拡散モデル内の中間特徴を追跡および伝播できるようにします。

クロスフレームアテンションマップは、各フレーム内のトークン間の対応関係を評価するための類似性の尺度として解釈できます。セマンティック領域の特徴により、より高い注意が割り当てられます。以下の図 3 に示すように、他のフレームにも同様の意味領域があります。

したがって、現在の特徴表現は、フレーム間の類似領域の加重和に焦点を当てることによって洗練され、伝播され、それによってフレーム間の特徴の違いが効果的に最小限に抑えられます。

一連の操作により、Fairy のコアコンポーネントであるアンカーベースのモデルが生成されます。

生成されたビデオの時間的一貫性を確保するために、この研究では K 個のアンカーフレームをサンプリングして拡散特徴を抽出し、抽出された特徴は伝播されるセットとして定義されました。連続フレームのグローバル特徴に適用されます。この調査では、新しいフレームが生成されるたびに、アンカーフレームのキャッシュされた特徴に対するセルフアテンションレイヤーをクロスフレームアテンションに置き換えます。クロスフレームアテンションを通じて、各フレーム内のトークンは、アンカーフレーム内で同様の意味論的コンテンツを示す特徴を採用し、それによって一貫性が向上します。

ビデオを 14 秒で再構築し、キャラクターを変更することができ、メタによりビデオ合成が 44 倍高速化されます。

#実験評価

実験部分では、研究者は主にコマンドに基づいて、ベースの画像編集モデルを使用して Fairy を実装し、モデルの自己注意をフレーム間注意に置き換えます。アンカーフレームの数を 3 に設定します。モデルは、異なるアスペクト比の入力を受け入れ、アスペクト比を変更せずに、長いサイズの入力解像度を 512 に再スケーリングできます。研究者らは、入力ビデオのすべてのフレームをダウンサンプリングせずに編集しました。すべての計算は 8 つの A100 GPU に分散されます。

定性的評価

研究者は、以下に示すように、Fairy の定性的結果を最初に示しました。 5 に示すように、Fairy はさまざまなテーマを編集できます。

ビデオを 14 秒で再構築し、キャラクターを変更することができ、メタによりビデオ合成が 44 倍高速化されます。

以下の図 6 では、研究者は、Fairy がテキストの指示に従って、様式化、役割の変更など、さまざまな種類の編集を実行できることを示しています。、部分編集、属性編集など。

ビデオを 14 秒で再構築し、キャラクターを変更することができ、メタによりビデオ合成が 44 倍高速化されます。

以下の図 9 は、Fairy が指示に従ってソースキャラクターをさまざまなターゲットキャラクターに変換できることを示しています。

ビデオを 14 秒で再構築し、キャラクターを変更することができ、メタによりビデオ合成が 44 倍高速化されます。

#定量的評価

研究者は全体的な品質の比較結果を図 7 に示します。Fairy によって生成されたビデオの人気が高くなります。

ビデオを 14 秒で再構築し、キャラクターを変更することができ、メタによりビデオ合成が 44 倍高速化されます。以下の図 10 は、ベースラインモデルとの視覚的な比較結果を示しています。

ビデオを 14 秒で再構築し、キャラクターを変更することができ、メタによりビデオ合成が 44 倍高速化されます。技術的な詳細と実験結果については、元の論文を参照してください。

以上がビデオを 14 秒で再構築し、キャラクターを変更することができ、メタによりビデオ合成が 44 倍高速化されます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Gemma Scope：AI＆＃039;の思考プロセスを覗くためのGoogle＆＃039;の顕微鏡Apr 17, 2025 am 11:55 AM

ジェマの範囲で言語モデルの内部の仕組みを探る AI言語モデルの複雑さを理解することは、重要な課題です。包括的なツールキットであるGemma ScopeのGoogleのリリースは、研究者に掘り下げる強力な方法を提供します

ビジネスインテリジェンスアナリストは誰で、どのようになるか？Apr 17, 2025 am 11:44 AM

ビジネスの成功のロック解除：ビジネスインテリジェンスアナリストになるためのガイド生データを組織の成長を促進する実用的な洞察に変換することを想像してください。これはビジネスインテリジェンス（BI）アナリストの力です - GUにおける重要な役割

SQLに列を追加する方法は？ - 分析VidhyaApr 17, 2025 am 11:43 AM

SQLの変更テーブルステートメント：データベースに列を動的に追加するデータ管理では、SQLの適応性が重要です。その場でデータベース構造を調整する必要がありますか？ Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

ビジネスアナリストとデータアナリストApr 17, 2025 am 11:38 AM

導入 2人の専門家が重要なプロジェクトで協力している賑やかなオフィスを想像してください。ビジネスアナリストは、会社の目標に焦点を当て、改善の分野を特定し、市場動向との戦略的整合を確保しています。シム

ExcelのCountとCountaとは何ですか？ - 分析VidhyaApr 17, 2025 am 11:34 AM

Excelデータカウントと分析：カウントとカウントの機能の詳細な説明特に大規模なデータセットを使用する場合、Excelでは、正確なデータカウントと分析が重要です。 Excelは、これを達成するためにさまざまな機能を提供し、CountおよびCounta関数は、さまざまな条件下でセルの数をカウントするための重要なツールです。両方の機能はセルをカウントするために使用されますが、設計ターゲットは異なるデータ型をターゲットにしています。 CountおよびCounta機能の特定の詳細を掘り下げ、独自の機能と違いを強調し、データ分析に適用する方法を学びましょう。キーポイントの概要カウントとcouを理解します

ChromeはAIと一緒にここにいます：毎日何か新しいことを体験してください!!Apr 17, 2025 am 11:29 AM

Google Chrome'sAI Revolution：パーソナライズされた効率的なブラウジングエクスペリエンス人工知能（AI）は私たちの日常生活を急速に変換しており、Google ChromeはWebブラウジングアリーナで料金をリードしています。この記事では、興奮を探ります

ai＆＃x27; s Human Side：Wellbeing and the Quadruple bottuntApr 17, 2025 am 11:28 AM

インパクトの再考：四重材のボトムライン長い間、会話はAIの影響の狭い見方に支配されており、主に利益の最終ラインに焦点を当てています。ただし、より全体的なアプローチは、BUの相互接続性を認識しています

5ゲームを変える量子コンピューティングの使用ケースあなたが知っておくべきであるApr 17, 2025 am 11:24 AM

物事はその点に向かって着実に動いています。量子サービスプロバイダーとスタートアップに投資する投資は、業界がその重要性を理解していることを示しています。そして、その価値を示すために、現実世界のユースケースの数が増えています

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティングサービスをチェックしてください。

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

Dreamweaver Mac版

ビジュアル Web 開発ツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。