ホームページ >テクノロジー周辺機器 >AI >Sora がビデオ生成を爆発させると、Meta は中国人作家の主導で、Agent を使用してビデオを自動的にカットし始めました。

Sora がビデオ生成を爆発させると、Meta は中国人作家の主導で、Agent を使用してビデオを自動的にカットし始めました。

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB転載: 2024-02-20 15:50:03766ブラウズ

最近、AIビデオ技術の分野が注目を集めており、特にOpenAIが発表したSoraビデオ生成大型モデルは大きな話題を呼んでいます。一方、ビデオ編集の分野でも、Agentなどの大規模AIモデルが強い力を発揮しています。

ビデオ編集作業には自然言語が使用されますが、ユーザーは手動操作なしで直接意図を表現できます。しかし、現在のビデオ編集ツールのほとんどは依然として多くの手動操作を必要とし、パーソナライズされた状況に応じたサポートが不足しています。その結果、ユーザーは複雑なビデオ編集の問題を自分で解決する必要があります。

重要なのは、共同編集者として機能し、編集プロセス中にユーザーを継続的に支援できるビデオ編集ツールをどのように設計するかです。この記事では、トロント大学メタ (Reality Labs Research) とカリフォルニア大学サンディエゴ校の研究者が、大規模言語モデル (LLM) の多機能言語機能をビデオ編集に使用し、将来を探ることを提案しています。ビデオ編集パラダイムを活用し、手動のビデオ編集プロセスでのフラストレーションを軽減します。

Sora がビデオ生成を爆発させると、Meta は中国人作家の主導で、Agent を使用してビデオを自動的にカットし始めました。

#論文タイトル: LAVE: LLM を活用したビデオ編集のためのエージェント支援と言語拡張
論文アドレス: https://arxiv.org/pdf/2402.10294.pdf

研究者は、LAVE と呼ばれるビデオ編集ツールを開発しました。 LLM。 LAVE は、LLM に基づくインテリジェントな計画および実行システムを導入しています。これは、ユーザーの自由形式の言語命令を解釈し、ユーザーのビデオ編集目標を達成するために関連する操作を計画および実行できます。このインテリジェントシステムは、創造的なブレーンストーミングやビデオ映像の概要などの概念的な支援と、セマンティックベースのビデオ検索、ストーリーボード作成、クリップのトリミングなどの操作上の支援を提供します。

これらのエージェントをスムーズに操作するために、LAVE は視覚言語モデル (VLM) を使用してビデオ視覚効果の言語記述を自動的に生成します。これらの視覚的なナラティブにより、LLM はビデオコンテンツを理解し、言語機能を使用してユーザーの編集を支援できます。さらに、LAVE は、エージェント支援と直接操作という 2 つのインタラクティブなビデオ編集モードを提供します。このデュアルモードにより、ユーザーは必要に応じてエージェントの操作をより柔軟に改善できます。

LAVE の編集効果については?研究者らは、初心者と経験豊富な編集者を含む 8 人の参加者を対象にユーザー調査を実施しました。その結果、参加者は LAVE を使用して満足のいく AI コラボレーションビデオを作成できることがわかりました。

この研究の著者 6 人のうち 5 人が中国人であることは注目に値します。筆頭著者の Bryan Wang 氏は、トロント大学メタリサーチのコンピューターサイエンスの博士課程の学生です。科学者のYuliang Li、Zhaoyang Lv、Yan Xu、およびカリフォルニア大学サンディエゴ校の助教授Haijun Xia。

LAVE ユーザーインターフェイス (UI)

まず、以下の図 1 に示すように、LAVE のシステム設計を見てみましょう。

LAVE のユーザーインターフェイスは、次の 3 つの主要コンポーネントで構成されています。

自動生成されたビデオクリップとともに表示される、言語が強化されたビデオライブラリ言語で説明;
ビデオクリッピングタイムライン (編集用のメインタイムラインを含む);
ビデオクリッピングエージェント。ユーザーは、会話エージェントを利用してサポートを受けてください。

#設計ロジックは次のとおりです。ユーザーがエージェントと対話すると、メッセージ交換がチャット UI に表示されます。その際、エージェントはビデオライブラリとクリップタイムラインに変更を加えます。さらに、ユーザーは従来の編集インターフェイスと同様に、カーソルを使用してビデオライブラリとタイムラインを直接操作できます。

Sora がビデオ生成を爆発させると、Meta は中国人作家の主導で、Agent を使用してビデオを自動的にカットし始めました。

# 言語強化ビデオライブラリ

言語強化ビデオの機能図 3 に示すように、ライブラリは次のとおりです。

従来のツールと同様、この機能ではクリップの再生が可能ですが、視覚的なナラティブ、つまり意味論的なタイトルや概要を含む各ビデオの自動生成されたテキスト説明が提供されます。タイトルはクリップの理解とインデックス付けに役立ち、概要は各クリップのビジュアルコンテンツの概要を提供し、ユーザーが編集プロジェクトのストーリーラインを形成するのに役立ちます。タイトルと再生時間が各ビデオの下に表示されます。

Sora がビデオ生成を爆発させると、Meta は中国人作家の主導で、Agent を使用してビデオを自動的にカットし始めました。

さらに、LAVE を使用すると、ユーザーはセマンティック言語クエリを使用してビデオを検索でき、取得されたビデオはビデオライブラリに表示され、関連性によって並べ替えられます。この機能はクリップエージェントによって実行される必要があります。

ビデオクリップタイムライン

ビデオライブラリからビデオを選択し、クリップタイムラインに追加すると、以下の図 2 に示すように、インターフェイスの下部にあるビデオクリップタイムラインに表示されます。タイムライン上の各クリップはボックスで表され、開始フレーム、中間フレーム、終了フレームの 3 つのサムネイルフレームが表示されます。

Sora がビデオ生成を爆発させると、Meta は中国人作家の主導で、Agent を使用してビデオを自動的にカットし始めました。

LAVE システムでは、各サムネイルフレームはクリップ内の 1 秒間の素材を表します。ビデオギャラリーと同様に、各クリップにはタイトルと説明が表示されます。 LAVE のクリップタイムラインには、クリップの並べ替えとトリミングという 2 つの重要な機能があります。

タイムライン上でクリップをシーケンスすることは、ビデオ編集における一般的なタスクであり、一貫した物語を作成するために重要です。 LAVE では、ビデオクリップエージェントのストーリーボード機能を使用した LLM ベースのソートと、ユーザーの直接操作によりソートする手動ソートの 2 つのソート方法をサポートしており、各ビデオボックスをドラッグアンドドロップして順序を設定できます。クリップが表示されます。

トリミングは、ビデオ編集において重要なセグメントを強調表示し、余分なコンテンツを削除するためにも重要です。トリミング中に、ユーザーがタイムライン内のクリップをダブルクリックすると、以下の図 4 に示すように、1 秒のフレームを表示するポップアップウィンドウが開きます。

Sora がビデオ生成を爆発させると、Meta は中国人作家の主導で、Agent を使用してビデオを自動的にカットし始めました。

#ビデオクリップエージェント

LAVE Video Clip Agent は、ユーザーと LLM ベースのエージェント間の対話を容易にするチャットベースのコンポーネントです。コマンドラインツールとは異なり、ユーザーは自由形式の言語を使用してエージェントと対話できます。エージェントは LLM の言語インテリジェンスを活用してビデオ編集支援を提供し、編集プロセス全体を通じてユーザーをガイドおよび支援するための具体的な応答を提供します。 LAVE のエージェント支援機能は、エージェント操作を通じて提供され、各操作にはシステムでサポートされる編集機能の実行が含まれます。

全体として、LAVE はアイデア出しや事前計画から実際の編集操作に至るまでワークフロー全体をカバーする機能を提供しますが、システムは厳密なワークフローを要求するものではありません。ユーザーは、編集目標に合った機能のサブセットを柔軟に利用できます。たとえば、明確な編集ビジョンと明確なストーリーラインを持つユーザーは、アイデア作成フェーズを回避して、すぐに編集に取り掛かることができます。

バックエンドシステム

この調査では、OpenAI の GPT-4 を使用して、LAVE バックエンドシステムの設計を説明します。エージェント設計、LLM による編集機能の 2 つの側面を実装します。

エージェント設計

この研究では、LLM (つまり GPT-4) の多言語機能を活用します (推論、計画、ストーリーテリング) によって LAVE エージェントが構築されます。

LAVE エージェントには、計画と実行という 2 つの状態があります。この設定には 2 つの主な利点があります:

ユーザーは複数のアクションを含む高レベルの目標を設定できるため、従来のコマンドラインで必要とされる個々のアクションをそれぞれ指定する必要がなくなります。ツール。
実行前に、エージェントはユーザーに計画を提示し、変更の機会を提供し、ユーザーがエージェントの操作を完全に制御できるようにします。研究チームは、計画と実行のプロセスを完了するバックエンドパイプラインを設計しました。

#以下の図 6 に示すように、パイプラインはまずユーザー入力に基づいてアクションプランを作成します。次に、プランはテキストの説明から関数呼び出しに変換され、対応する関数が実行されます。

Sora がビデオ生成を爆発させると、Meta は中国人作家の主導で、Agent を使用してビデオを自動的にカットし始めました。

LLM 主導の編集機能を実装します

ユーザーが完了するのを支援するためにビデオ編集タスクの場合、LAVE は主に LLM によって駆動される次の 5 つの機能をサポートします。

#マテリアルの概要
クリエイティブブレーンストーミング
ビデオの取得

最初の 4 つはエージェントを通じてアクセスできます (図 5)。トリム機能は、タイムライン内のクリップをダブルクリックすると利用でき、ポップアップウィンドウが開き、1 秒のフレームが表示されます (図 4)。

Sora がビデオ生成を爆発させると、Meta は中国人作家の主導で、Agent を使用してビデオを自動的にカットし始めました。

このうち、言語ベースのビデオ検索はベクトルストレージデータベースを通じて実装され、残りは LLM プロンプトエンジニアリングを通じて実装されます。すべての機能は、ビデオライブラリ内の各クリップのタイトルや概要など、元の映像の自動生成された口頭説明に基づいて構築されています (図 3)。研究チームは、これらのビデオのテキスト説明をビジュアルナレーションと呼んでいます。

Sora がビデオ生成を爆発させると、Meta は中国人作家の主導で、Agent を使用してビデオを自動的にカットし始めました。

興味のある読者は、論文の原文を読んで研究内容をさらに詳しく知ることができます。

以上がSora がビデオ生成を爆発させると、Meta は中国人作家の主導で、Agent を使用してビデオを自動的にカットし始めました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

for li 数据库 https ui gpt prompt

声明：

この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

前の記事：GPT-4 も使用している可能性のある投機的デコードとは何ですか?過去・現在・活用状況をまとめた記事次の記事：GPT-4 も使用している可能性のある投機的デコードとは何ですか?過去・現在・活用状況をまとめた記事

続きを見る

Sora がビデオ生成を爆発させると、Meta は中国人作家の主導で、Agent を使用してビデオを自動的にカットし始めました。

LAVE ユーザー インターフェイス (UI)

バックエンド システム

関連記事

LAVE ユーザーインターフェイス (UI)

バックエンドシステム