ICCV 2023 | 人間の行動生成を再構築し、拡散モデルと検索戦略を統合する新しいパラダイムである ReMoDiffuse が登場-AI-php.cn

ホームページ

テクノロジー周辺機器

ICCV 2023 | 人間の行動生成を再構築し、拡散モデルと検索戦略を統合する新しいパラダイムである ReMoDiffuse が登場

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Sep 27, 2023 pm 09:29 PM

はじめる

ヒューマンアクション生成タスクは、エンターテイメント、仮想現実、ロボット工学、その他の分野のニーズを満たすために、現実的な人間のアクションシーケンスを生成することを目的としています。従来の生成方法には、3D キャラクターの作成、キーフレームアニメーション、モーションキャプチャなどの手順が含まれていますが、時間がかかる、専門的な技術知識が必要である、高価なシステムとソフトウェアが必要である、異なるソフトウェアとハードウェアシステム間で互換性がある可能性があるなど、多くの制限があります。性的な問題など深層学習の発展に伴い、人々は生成モデルを使用して人間の動作シーケンスの自動生成を実現しようとし始めました。たとえば、テキストの説明を入力し、テキストの要件に一致する動作シーケンスを生成するようモデルに要求します。拡散モデルが現場に導入されるにつれて、生成されたアクションと特定のテキストの一貫性は向上し続けています。

しかし、生成されるアクションの自然さは改善されてきましたが、ユーザーのニーズとの間には依然として大きなギャップがあります。人間の動き生成アルゴリズムの機能をさらに向上させるために、本論文では MotionDiffuse [1] に基づく ReMoDiffuse アルゴリズム (図 1) を提案します。検索戦略を活用することで、関連性の高い参照サンプルを見つけ出し、より高品質なアクションシーケンスを生成するためのきめ細かい参照特徴を提供します。

ICCV 2023 | 重塑人体动作生成，融合扩散模型与检索策略的新范式ReMoDiffuse来了

# 論文リンク: https:/ /arxiv.org/pdf/2304.01116.pdf
GitHub リンク: https://github.com/mingyuan-zhang/ReMoDiffuse
プロジェクトのホームページ: https://mingyuan-zhang.github.io/projects/ReMoDiffuse.html

拡散モデルと革新的な検索戦略を巧みに統合することにより、ReMoDiffuse はテキストガイドに新しい命を吹き込みます。人間の動きの生成。慎重に考えられたモデル構造により、ReMoDiffuse は、豊かで多様かつ非常に現実的なアクションシーケンスを作成できるだけでなく、さまざまな長さと多粒度のアクション要件にも効果的に対応できます。実験では、ReMoDiffuse がアクション生成の分野における複数の重要な指標で優れたパフォーマンスを示し、既存のアルゴリズムを大幅に上回っていることが証明されています。

ICCV 2023 | 重塑人体动作生成，融合扩散模型与检索策略的新范式ReMoDiffuse来了 #図 1. ReMoDiffuse の概要

メソッドの紹介

ReMoDiffuse の主なプロセスは、検索と拡散の 2 つの段階に分かれています。取得段階では、ReMoDiffuse はハイブリッド取得テクノロジーを使用して、ユーザー入力テキストと予想されるアクションシーケンスの長さに基づいて外部マルチモーダルデータベースから情報豊富なサンプルを取得し、アクション生成のための強力なガイダンスを提供します。拡散段階では、ReMoDiffuse は検索段階で取得した情報を使用して、効率的なモデル構造を通じてユーザー入力と意味的に一貫したモーションシーケンスを生成します。取得段階のデータフローは次のとおりです (図 2):

取得プロセスには 3 種類のデータが含まれます。つまり、ユーザー入力テキスト、予想されるアクションシーケンスの長さ、および複数の # を含む外部マルチモーダルデータベースです。 ## ペア。最も関連性の高いサンプルを取得するとき、ReMoDiffuse は式

を使用して、各データベース内のサンプルとユーザー入力の間の類似性を計算します。ここでの最初の項目は、事前トレーニングされた CLIP [2] モデルのテキストエンコーダーを使用して、ユーザー入力テキストとデータベースエンティティのテキスト間のコサイン類似度を計算することであり、2 番目の項目は、予想されるアクションシーケンスの長さの差を計算します。データベースエンティティのアクションシーケンスの長さの相対的な差異が運動学的類似度とみなされます。類似度スコアを計算した後、ReMoDiffuse は取得したサンプルと同様の類似度を持つ上位 k 個のサンプルを選択し、テキスト特徴

とアクション特徴

を抽出します。これら 2 つは、ユーザーが入力したテキストから抽出された特徴とともに、アクション生成をガイドする拡散ステージへの入力信号として使用されます。 ICCV 2023 | 重塑人体动作生成，融合扩散模型与检索策略的新范式ReMoDiffuse来了

図 2: ReMoDiffuse の取得フェーズ ICCV 2023 | 重塑人体动作生成，融合扩散模型与检索策略的新范式ReMoDiffuse来了

拡散プロセス (図 3.c) は、順方向プロセスと逆方向プロセスの 2 つの部分で構成されます。順方向のプロセスでは、ReMoDiffuse は元のモーションデータにガウスノイズを徐々に追加し、最終的にランダムノイズに変換します。逆プロセスは、ノイズを除去し、リアルなモーションサンプルを生成することに重点を置いています。 ReMoDiffuse は、ランダムなガウスノイズから開始して、逆プロセスの各ステップでセマンティック変調モジュール (SMT) (図 3.a) を使用して真の分布を推定し、条件付き信号に基づいてノイズを段階的に除去します。ここでの SMT の SMA モジュールは、すべての条件情報を生成されたシーケンス特徴に統合します。これが、この記事で提案するコアモジュールです。

図 3 : ReMoDiffuse の拡散段階

#SMA 層 (図 3.b) では、効率的なアテンションメカニズム (Efficient tention) [3] を使用して加速します。アテンションモジュールを計算し、グローバル情報をより強調するグローバル特徴マップを作成します。この特徴マップは、アクションシーケンスのより包括的な意味論的な手がかりを提供するため、モデルのパフォーマンスが向上します。 SMA レイヤーの中心的な目標は、条件付き情報を集約することでアクションシーケンスの生成を最適化することです。このフレームワークの下:

1. Q ベクトルは、条件付き情報に基づいて生成すると予想されるアクションシーケンスを具体的に表します。

2.Kベクトルは、現在のアクションシーケンスの特徴、ユーザーが入力した意味論的な特徴、検索サンプルから得られる特徴and##を含む複数の要素を包括的に考慮したインデックスメカニズムです。＃。このうち、は検索サンプルから得られた行動系列特徴量を表し、は検索サンプルから得られたテキスト記述特徴量を表す。この包括的な構築方法により、インデックス作成プロセスにおける K ベクトルの有効性が保証されます。
3.V ベクトルは、アクションを生成するために必要な実際の機能を提供します。 K ベクトルと同様に、V ベクトルでは、検索サンプル、ユーザー入力、および現在のアクションシーケンスが考慮されます。取得したサンプルのテキスト説明特徴と生成されたアクションの間には直接の相関関係がないため、不必要な情報干渉を避けるために、V ベクトルを計算するときにこの特徴を使用しないことを選択します。
Efficient Attendee のグローバルアテンションテンプレートメカニズムと組み合わせると、SMA レイヤーは、検索サンプルからの補助情報、ユーザーテキストの意味情報、およびノイズ除去されるシーケンスの特徴情報を使用して、一連の包括的なアテンションを確立します。グローバルテンプレート、すべての条件の作成情報は、生成されるシーケンスによって完全に吸収されます。

内容を書き直すには、元のテキストを中国語に変換する必要があります。書き換え後は次のようになります。研究設計と実験結果

私たちは、HumanML3D [4] と KIT-ML [5] の 2 つのデータセットで ReMoDiffuse を評価しました。実験結果 (表 1 および 2) は、テキストの一貫性とアクションの品質の観点から、私たちが提案する ReMoDiffuse フレームワークの強力なパフォーマンスと利点を示しています。表 1. HumanML3D テストセットでのさまざまなメソッドのパフォーマンス

##表 2. さまざまなメソッドのパフォーマンスKIT-ML テストセットでの

#次は、ReMoDiffuse の強力なパフォーマンスを示すいくつかの例です (図 4)。以前の方法と比較して、たとえば、「人が円を描いてジャンプする」というテキストが与えられた場合、ReMoDiffuse だけが「ジャンプ」の動きと「円」のパスを正確にキャプチャできます。これは、ReMoDiffuse がテキストの詳細を効果的にキャプチャし、指定されたモーション継続時間にコンテンツを合わせることができることを示しています。
図 4. ReMoDiffuse によって生成されたアクションシーケンスの比較他の方法で生成されたアクションシーケンスと

#Guo らの方法 [4]、MotionDiffuse [1]、MDM [6] の結果を比較しました。生成された対応動作シーケンスを視覚的に表示し、テスト参加者の意見をアンケート形式で収集しました。結果の分布を図 5 に示します。この結果から明らかなように、ほとんどの場合、テスト参加者は、私たちの方法によって生成されたアクションシーケンス、つまり ReMoDiffuse によって生成されたアクションシーケンスが、4 つのアルゴリズムの中で与えられたテキストの説明と最も一致していると信じています。最も自然で滑らかです。 #図 5: ユーザー調査結果の分布

引用 Mingyuan Zhang、Cai Zhonggang、Pan Liang、Hong Fangzhou、Guo Xinying、Yang Lei、Liu Ziwei。 Motiondiffuse: 拡散モデルに基づいたテキスト駆動の人間のモーション生成。 arXiv プレプリント arXiv:2208.15001、2022
[2] Alec Radford、Jong Wook Kim、Chris Hallacy、Aditya Ramesh、Gabriel Goh、Sandhini Agarwal、Girish Sastry、Amanda Askell、Pamela Mishkin、 Jack Clark, et al. Learning transferable Visual models from Natural Language Superior. arXiv preprint arXiv:2103.00020, 2021.
##[3] Zhuoran Shen、Mingyuan Zhang、Haiyu Zhao、Shuai Yi、およびHonsheng Li. 効率的な注意: 線形複雑性による注意. コンピュータービジョンのアプリケーションに関する IEEE/CVF 冬季会議議事録、3531 ～ 3539 ページ、2021.

[4 ] Chuan Guo 、Shihao Zou、Xinxin Zuo、Sen Wang、Wei Ji、Xingyu Li、および Li Cheng. テキストからの多様で自然な 3D 人間の動きの生成. コンピュータービジョンとパターン認識に関する IEEE/CVF 会議議事録、5152 ～ 5161 ページ、 2022.

書き直す必要があるのは、[5] マティアスプラパート、クリスチャンマンデリー、タミムアスフォーです。「運動言語データセット」。 Big Data、4(4):236-252、2016

[6] Guy Tevet、Sigal Raab、Brian Gordon、Yonatan Shafir、Daniel Cohen-Or、および Amit H Bermano。人間の動作拡散モデル。第 11 回学習表現国際会議にて、2022.

以上がICCV 2023 | 人間の行動生成を再構築し、拡散モデルと検索戦略を統合する新しいパラダイムである ReMoDiffuse が登場の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

AIインデックス2025を読む：AIはあなたの友人、敵、または副操縦士ですか？Apr 11, 2025 pm 12:13 PM

スタンフォード大学ヒト指向の人工知能研究所によってリリースされた2025年の人工知能インデックスレポートは、進行中の人工知能革命の良い概要を提供します。 4つの単純な概念で解釈しましょう：認知（何が起こっているのかを理解する）、感謝（利益を見る）、受け入れ（顔の課題）、責任（責任を見つける）。認知：人工知能はどこにでもあり、急速に発展しています私たちは、人工知能がどれほど速く発展し、広がっているかを強く認識する必要があります。人工知能システムは絶えず改善されており、数学と複雑な思考テストで優れた結果を達成しており、わずか1年前にこれらのテストで惨めに失敗しました。 2023年以来、複雑なコーディングの問題や大学院レベルの科学的問題を解決することを想像してみてください

Meta Llama 3.2を始めましょう - 分析VidhyaApr 11, 2025 pm 12:04 PM

メタのラマ3.2：マルチモーダルとモバイルAIの前進メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。成功に基づいてo

AVバイト：Meta＆＃039; s llama 3.2、GoogleのGemini 1.5などApr 11, 2025 pm 12:01 PM

今週のAIの風景：進歩、倫理的考慮、規制の議論の旋風。 Openai、Google、Meta、Microsoftのような主要なプレーヤーは、画期的な新しいモデルからLEの重要な変化まで、アップデートの急流を解き放ちました

マシンと話すための人的費用：チャットボットは本当に気にすることができますか？Apr 11, 2025 pm 12:00 PM

つながりの慰めの幻想：私たちはAIとの関係において本当に繁栄していますか？この質問は、MIT Media Labの「AI（AHA）で人間を進める」シンポジウムの楽観的なトーンに挑戦しました。イベントではCondedgを紹介している間

PythonのScipy Libraryの理解Apr 11, 2025 am 11:57 AM

導入あなたが科学者またはエンジニアで複雑な問題に取り組んでいると想像してください - 微分方程式、最適化の課題、またはフーリエ分析。 Pythonの使いやすさとグラフィックスの機能は魅力的ですが、これらのタスクは強力なツールを必要とします

ラマ3.2を実行する3つの方法-Analytics VidhyaApr 11, 2025 am 11:56 AM

メタのラマ3.2：マルチモーダルAIパワーハウス Metaの最新のマルチモーダルモデルであるLlama 3.2は、AIの大幅な進歩を表しており、言語理解の向上、精度の向上、および優れたテキスト生成機能を誇っています。その能力t

Dagsterでデータ品質チェックを自動化しますApr 11, 2025 am 11:44 AM

データ品質保証：ダグスターと大きな期待でチェックを自動化するデータ駆動型のビジネスにとって、高いデータ品質を維持することが重要です。データの量とソースが増加するにつれて、手動の品質管理は非効率的でエラーが発生しやすくなります。

メインフレームはAI時代に役割を果たしていますか？Apr 11, 2025 am 11:42 AM

MainFrames：AI革命のUnsung Heroes サーバーは汎用アプリケーションで優れており、複数のクライアントの処理を行いますが、メインフレームは大量のミッションクリティカルなタスク用に構築されています。これらの強力なシステムは、頻繁にヘビルで見られます

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

ドリームウィーバー CS6

ビジュアル Web 開発ツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。