検索
ホームページテクノロジー周辺機器AI世界が注目する「被験者3」:メッシもアイアンマンも二次元女子も簡単に扱える

最近、手を振り、足を半分股にし、リズミカルな音楽に合わせて踊る「主題 3」を多かれ少なかれ聞いたことがあるかもしれません。このダンスの動きはインターネット全体で人気があります。真似してください。

同じようなダンスがAIによって生成されたらどうなるでしょうか?下の写真のように、現代人も紙人も画一的な動きをしています。想像できないかもしれませんが、これは写真に基づいて生成されたダンス ビデオです。

世界が注目する「被験者3」:メッシもアイアンマンも二次元女子も簡単に扱える

キャラクターの動きはより難しくなり、生成されたビデオも非常にスムーズです (右端):

世界が注目する「被験者3」:メッシもアイアンマンも二次元女子も簡単に扱える

メッシとアイアンマンを動かしても問題ありません:

世界が注目する「被験者3」:メッシもアイアンマンも二次元女子も簡単に扱える


世界が注目する「被験者3」:メッシもアイアンマンも二次元女子も簡単に扱える

アニメ系の女性も色々あります。

世界が注目する「被験者3」:メッシもアイアンマンも二次元女子も簡単に扱える

世界が注目する「被験者3」:メッシもアイアンマンも二次元女子も簡単に扱える

#これらの効果はどのようにして達成されるのでしょうか?続きを読みましょう

キャラクター アニメーションは、元のキャラクター画像を希望のポーズ シーケンスでリアルなビデオに変換するプロセスです。このタスクには、オンライン小売、エンターテイメント ビデオ、アート作成、仮想キャラクターなど、多くの潜在的な応用分野があります。

GAN テクノロジーの出現以来、研究者は継続的に研究を行ってきました。 Depth 画像をアニメーションに変換し、ポーズの転送を完了するためのメソッド。ただし、生成された画像やビデオには、局所的な歪み、ぼやけた詳細、意味論的な不一致、時間的不安定性など、これらの方法の適用を妨げるいくつかの問題が依然として残っています。

Ali の研究著者らは、キャラクター画像を目的のポーズシーケンスに従うアニメーションビデオに変換する Animate Anybody と呼ばれる方法を提案しました。この調査では、安定拡散ネットワーク設計と事前トレーニングされた重みを採用し、マルチフレーム入力に対応するためにノイズ除去 UNet を変更しました

世界が注目する「被験者3」:メッシもアイアンマンも二次元女子も簡単に扱える

    #論文アドレス: https://arxiv.org/pdf/2311.17117.pdf
  • プロジェクト アドレス: https://humanaigc.github.io/animate -anyone/
  • 外観の一貫性を保つために、この調査では ReferenceNet が導入されました。このネットワークは対称 UNet 構造を採用しており、参照画像の空間詳細をキャプチャすることを目的としています。この研究では、対応する UNet ブロック層のそれぞれで空間注意メカニズムを使用して、ReferenceNet の機能をノイズ除去 UNet に統合します。このアーキテクチャにより、モデルは一貫した特徴空間で参照画像との関係を包括的に学習できます。

姿勢制御性を確保するために、この研究では、姿勢制御信号を効果的に統合する軽量の姿勢ガイダンス プロセッサを設計しました。ノイズ除去プロセスに入ります。時間的安定性を達成するために、この論文では、複数のフレーム間の関係をモデル化するための時間層を導入し、それにより、連続的で滑らかな時間的動きプロセスをシミュレートしながら、視覚的な品質の高解像度の詳細を保持します。

Animate Anybody は、図 1 に示すように、さまざまなキャラクターのアニメーション結果を示す、5K キャラクター ビデオ クリップの社内データセットでトレーニングされました。以前の方法と比較して、この記事の方法にはいくつかの明らかな利点があります。

  • まず、ビデオ内のキャラクターの外観の空間的および時間的一貫性を効果的に維持します。
  • 第二に、生成される高解像度ビデオには時間のジッターやちらつきなどの問題がありません。
  • 第三に、特定の分野に制限されることなく、任意のキャラクター画像をビデオにアニメーション化できます。

この論文は、2 つの特定のヒューマン ビデオ合成ベンチマーク (UBC ファッション ビデオ データセットと TikTok データセット) に基づいて評価されています。結果は、Animate Anybody が SOTA の結果を達成していることを示しています。さらに、この研究では、Animate Anybody メソッドと大規模データでトレーニングされた一般的な画像からビデオへのメソッドを比較し、Animate Anybody がキャラクター アニメーションにおいて優れた機能を実証していることを示しました。

世界が注目する「被験者3」:メッシもアイアンマンも二次元女子も簡単に扱える

Animate Anybody と他の方法の比較:

世界が注目する「被験者3」:メッシもアイアンマンも二次元女子も簡単に扱える

世界が注目する「被験者3」:メッシもアイアンマンも二次元女子も簡単に扱える

方法の紹介

##この記事の処理方法を図 2 に示します。ネットワークの元の入力はマルチフレーム ノイズで構成されています。ノイズ除去効果を達成するために、研究者らは、同じフレームワークとブロックユニットを使用し、SD からトレーニング重みを継承する SD 設計に基づく構成を採用しました。具体的には、このメソッドには 3 つの重要な部分が含まれています。 Pose Guider (姿勢ガイド)、制御可能なキャラクターの動きを実現するためにアクション制御信号をエンコードします;

  • Temporal レイヤー (時間レイヤー)、キャラクターのアクションの連続性を保証するために時間的な関係をエンコードします。
  • #ReferenceNet

ReferenceNet は参照画像の特徴抽出ですネットワーク、そのフレームワークはノイズ除去 UNet とほぼ同じですが、時間層のみが異なります。したがって、ReferenceNet はノイズ除去 UNet と同様に元の SD 重みを継承し、各重み更新は独立して実行されます。研究者らは、ReferenceNet の機能をノイズ除去 UNet に統合する方法を説明します。 世界が注目する「被験者3」:メッシもアイアンマンも二次元女子も簡単に扱える

#ReferenceNet の設計には 2 つの利点があります。まず、ReferenceNet は、生の SD の事前トレーニングされた画像特徴モデリング機能を利用して、適切に初期化された特徴を生成できます。第 2 に、ReferenceNet とノイズ除去 UNet は本質的に同じネットワーク構造と共有初期化重みを持っているため、ノイズ除去 UNet は同じ特徴空間に関連付けられた特徴を ReferenceNet から選択的に学習できます。

態度ガイド

書き直された内容は次のとおりです: この軽量の態度ガイドは 4 つの畳み込み層 (4 × 4 カーネル) を使用します。 、2 × 2 ストライド)、チャネル番号 16、32、64、128 を持ち、[56] の条件付きエンコーダと同様に、ジェスチャ画像を位置合わせするために使用されます。処理されたポーズ画像は潜在ノイズに追加され、処理のためにノイズ除去 UNet に入力されます。ポーズ ガイドはガウス重みで初期化され、最終マッピング レイヤー

時間レイヤー

でゼロ畳み込みを使用します。タイムレイヤーのデザインはAnimateDiffからインスピレーションを得ています。特徴マップ x∈R^b×t×h×w×c の場合、研究者はまずそれを x∈R^(b×h×w)×t×c に変形し、次に時間的注意を実行します。次元 t における自己注意。時間層の特徴は、残差接続を通じて元の特徴にマージされます。この設計は、以下の 2 段階のトレーニング方法と一致しています。時間レイヤーは、ノイズ除去 UNet の Res-Trans ブロック内でのみ使用されます。

#トレーニング戦略

トレーニング プロセスは 2 つの段階に分かれています。

書き直された内容: トレーニングの最初の段階では、単一のビデオ フレームがトレーニングに使用されます。ノイズ除去 UNet モデルでは、研究者らは一時的に時間層を除外し、単一フレームのノイズを入力として受け取りました。同時に、参照ネットワークと姿勢ガイドも訓練されます。参照画像はビデオ クリップ全体からランダムに選択されます。彼らは、事前トレーニングされた重みを使用して、ノイズ除去 UNet モデルと ReferenceNet モデルを初期化しました。ポーズ ガイドは、ゼロ畳み込みを使用する最終投影レイヤーを除き、ガウス ウェイトで初期化されます。 VAE エンコーダとデコーダ、および CLIP 画像エンコーダの重みは変更されません。この段階の最適化目標は、参照画像とターゲット ポーズを指定して高品質のアニメーション画像を生成することです

#第 2 段階では、研究者は、事前にトレーニングされたモデルに時間層を導入し、 AnimateDiff で事前にトレーニングされた重みを使用して初期化します。モデルへの入力は 24 フレームのビデオ クリップで構成されます。この段階では、時間層のみがトレーニングされ、ネットワークの他の部分の重みは固定されます。

実験と結果

定性的結果: 図 3 に示すように、この記事の方法では、完全なアニメーションを含むあらゆるキャラクターのアニメーションを生成できます。 - 体のポートレートと半身ポートレート、漫画のキャラクターと人型のキャラクター。この方法では、高解像度でリアルな人間の詳細を生成できます。参照画像との時間的一貫性を維持し、大きな動きが存在する場合でもフレーム間の時間的連続性を示します。

世界が注目する「被験者3」:メッシもアイアンマンも二次元女子も簡単に扱える

ファッションビデオ合成。ファッション ビデオ合成の目標は、駆動ポーズ シーケンスを使用して、ファッション写真をリアルなアニメーション ビデオに変換することです。実験は、UBC ファッション ビデオ データセットで行われます。このデータセットは、それぞれ約 350 フレームを含む 500 のトレーニング ビデオと 100 のテスト ビデオで構成されます。定量的な比較を表 1 に示します。結果から、この論文の方法が他の方法より優れていることがわかり、特にビデオ測定指標において明確なリードを示しています。

世界が注目する「被験者3」:メッシもアイアンマンも二次元女子も簡単に扱える

#定性的な比較を図 4 に示します。公平な比較を行うために、研究者らは DreamPose のオープンソース コードを使用して、サンプルの微調整を行わずに結果を取得しました。ファッションビデオの分野では、服装の細部に対する要求が非常に厳しいです。ただし、DreamPose と BDMM によって生成されたビデオは、衣服の細部の一貫性を維持できず、色や微細な構造要素に重大な誤差が見られます。対照的に、この方法で生成された結果は、衣服の詳細の一貫性をより効果的に維持できます。

世界が注目する「被験者3」:メッシもアイアンマンも二次元女子も簡単に扱える# ヒューマンダンス生成は、リアルなダンスシーンのダンス画像をアニメーション化することで人間を生成することを目的とした研究です。研究者らは、340 のトレーニング ビデオと 100 のテスト ビデオを含む TikTok データ セットを使用しました。彼らは、DisCo のデータセット分割方法に従って、10 個の TikTok スタイルのビデオを含む同じテスト セットを使用して定量的な比較を実行しました。表 2 からわかるように、この記事の方法では最良の結果が得られます。モデルの汎化能力を強化するために、DisCo は人間属性の事前トレーニングを組み合わせ、モデルの事前トレーニングに多数の画像ペアを使用します。対照的に、他の研究者は TikTok データセットのみでトレーニングしましたが、それでも結果は DisCo よりも優れていました。 DisCo との比較を図 5 に示します。シーンの複雑さを考慮すると、DisCo の方法では人間の前景マスクを生成するために SAM を追加で使用する必要があります。対照的に、私たちの方法は、明示的な人間のマスク学習がなくても、事前の人間のセグメンテーションなしで、モデルが被験者の動きから前景と背景の関係を把握できることを示しています。さらに、複雑なダンス シーケンスでは、このモデルはアクション全体を通して視覚的な連続性を維持することに優れ、さまざまなキャラクターの外観を処理する際に優れた堅牢性を示します。

世界が注目する「被験者3」:メッシもアイアンマンも二次元女子も簡単に扱える

Image - ビデオの一般的なメソッド。現在、大規模なトレーニング データに基づいた強力な生成機能を備えたビデオ拡散モデルが多くの研究で提案されています。研究者らは、最もよく知られ最も効果的な画像ビデオ手法のうち、AnimateDiff と Gen2 の 2 つを比較対象として選択しました。これら 2 つの方法は姿勢制御を実行しないため、研究者らは参照画像の外観の忠実性を維持する能力のみを比較しました。図 6 に示すように、現在の画像からビデオへのアプローチは、多数のキャラクターのアクションを生成するという課題に直面しており、ビデオ間で長期的な外観の一貫性を維持するのに苦労しているため、一貫したキャラクター アニメーションの効果的なサポートが妨げられています。

世界が注目する「被験者3」:メッシもアイアンマンも二次元女子も簡単に扱える

詳細については、元の論文を参照してください

以上が世界が注目する「被験者3」:メッシもアイアンマンも二次元女子も簡単に扱えるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
10生成AIコーディング拡張機能とコードのコードを探る必要があります10生成AIコーディング拡張機能とコードのコードを探る必要がありますApr 13, 2025 am 01:14 AM

ねえ、忍者をコーディング!その日はどのようなコーディング関連のタスクを計画していますか?このブログにさらに飛び込む前に、コーディング関連のすべての問題について考えてほしいです。 終わり? - &#8217を見てみましょう

革新を調理する:人工知能がフードサービスを変革する方法革新を調理する:人工知能がフードサービスを変革する方法Apr 12, 2025 pm 12:09 PM

食品の準備を強化するAI まだ初期の使用中ですが、AIシステムは食品の準備にますます使用されています。 AI駆動型のロボットは、ハンバーガーの製造、SAの組み立てなど、食品の準備タスクを自動化するためにキッチンで使用されています

Pythonネームスペースと可変スコープに関する包括的なガイドPythonネームスペースと可変スコープに関する包括的なガイドApr 12, 2025 pm 12:00 PM

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

ビジョン言語モデル(VLM)の包括的なガイドビジョン言語モデル(VLM)の包括的なガイドApr 12, 2025 am 11:58 AM

導入 鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか?あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか?

MediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますMediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますApr 12, 2025 am 11:52 AM

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

今週のAIで:Walmartがファッションのトレンドを設定する前に設定します今週のAIで:Walmartがファッションのトレンドを設定する前に設定しますApr 12, 2025 am 11:51 AM

#1 GoogleはAgent2Agentを起動しました 物語:月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

生成AIは精神障害に会います生成AIは精神障害に会いますApr 12, 2025 am 11:50 AM

私はあなたがそうであるに違いないと思います。 私たちは皆、精神障害がさまざまな心理学の用語を混ぜ合わせ、しばしば理解できないか完全に無意味であることが多い、さまざまなおしゃべりで構成されていることを知っているようです。 FOを吐き出すために必要なことはすべてです

プロトタイプ:科学者は紙をプラスチックに変えますプロトタイプ:科学者は紙をプラスチックに変えますApr 12, 2025 am 11:49 AM

今週公開された新しい研究によると、2022年に製造されたプラスチックの9.5%のみがリサイクル材料から作られていました。一方、プラスチックは埋め立て地や生態系に積み上げられ続けています。 しかし、助けが近づいています。エンジンのチーム

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

mPDF

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

SecLists

SecLists

SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

Dreamweaver Mac版

Dreamweaver Mac版

ビジュアル Web 開発ツール