検索
ホームページテクノロジー周辺機器AI機械学習を使用してビデオ内の顔を再構成する

機械学習を使用してビデオ内の顔を再構成する

Apr 08, 2023 pm 07:21 PM
機械学習cgi顔の構造

翻訳者|崔昊

改訂者|孫樹娟

冒頭章

機械学習を使用してビデオ内の顔を再構成する

中国と英国のプロジェクト 共同研究で新しいものを考案ビデオ内の顔を再現する方法。この技術は、人為的なトリミングの痕跡を残さず、一貫性の高い顔の構造を拡大および縮小することができます。

機械学習を使用してビデオ内の顔を再構成する

一般に、この顔の構造の変換は、顔を完全に再構築するための詳細で高価なモーション キャッピング、リギング、テクスチャリング手順に依存する従来の CGI 手法によって実現されます。

従来の手法とは異なり、新技術の CGI は 3D 顔情報のパラメータとしてニューラル パイプラインに統合され、機械学習ワークフローの基礎として機能します。

機械学習を使用してビデオ内の顔を再構成する

著者は次のように指摘しました:

「私たちの目標は、現実世界の自然な顔に基づいて顔の輪郭を変形および編集することです。 - 高品質のポートレート整形ビデオ [結果]。このテクノロジーは、顔の美化や顔の誇張などの視覚効果アプリケーションに使用できます。

消費者は Photoshop の歪みテクノロジー (および顔の歪みや身体醜形障害のサブカルチャーにつながりました)が、CGI を使用せずにビデオ用に顔の再構成を実現するのは依然として難しい技術です。

機械学習を使用してビデオ内の顔を再構成する

#マーク・ザッカーバーグの顔のサイズは拡大し、新技術のせいで縮む

現在、身体の再形成は、主にファッション電子商取引における可能性のため、コンピュータービジョンの分野でホットな話題になっています。たとえば、人々をより背が高く、骨格をより多様に見せることができますが、まだいくつかの課題があります。

同様に、ビデオ内の顔の形状を説得力のある方法で変更することは研究者の研究の中核であり、この技術の実装は人工処理などの影響を受けていますが、その結果、新製品は、以前に研究されていた機能を静的拡張から動的なビデオ出力に移行します。

新システムには AMD Ryzen 9 3950X が搭載されています。トレーニングは 32GB のメモリを搭載したデスクトップ PC で実行されます。モーション マップは OpenCV のオプティカル フロー アルゴリズムを使用して生成され、StructureFlow フレームワークによってスムーズ化されます。特徴推定用の顔位置合わせネットワーク (FAN) コンポーネントは、人気のあるディープフェイク コンポーネント パッケージでも使用されます。Ceres ソルバーと連携して顔の最適化の問題を解決します。

機械学習を使用してビデオ内の顔を再構成する

新しいシステムを使用した顔を拡大する例

この論文のタイトルは「ビデオにおけるポートレートのパラメトリック リシェイプ」で、著者は浙江大学の 3 人の研究者です。

顔について

新しいシステムでは、顔から始まる画像シーケンスにビデオが抽出されます 基本モデルを構築し、その後の代表的なフレームを接続して構築します画像全体の進行方向 (つまり、ビデオ フレームの方向) に沿った一貫した性格パラメータ。

機械学習を使用してビデオ内の顔を再構成する

顔変形システムの構築プロセス

次計算式に従って、線形回帰によって実装された整形パラメータが生成され、顔の整形前後の符号付き距離関数 (SDF) を通じて顔の輪郭の 2D マッピングが構築されます。出力ビデオはコンテンツ認識のためにモーフィング最適化を受けます。

顔パラメータ化

このプロセスでは、ニューラルおよび GAN​​ に基づく顔合成補助ツールである 3D Morphable Face Model (3DMM) が利用されます。 、ディープフェイク検出システムにも適しています。

3D モーファブル顔モデル (3DMM) の例 - 新しいプロジェクトで使用されるパラメトリック プロトタイプの顔。左上、3DMM サーフェス上の象徴的なアプリケーション。右上、アイソマップの 3D メッシュ頂点。左下隅は特徴のフィットを示し、中央下の図は抽出された顔のテクスチャのアイソマップを示し、右下隅は最終的なフィットと形状を示します。

新しいシステムのワークフローでは、オブジェクトが視線から離れるときなどのオクルージョン状況が考慮されます。これは、ディープフェイク ソフトウェアにとって最大の課題の 1 つでもあります。FAN ランドマークではこれらの状況をほとんど考慮できず、顔が避けられたり遮られたりするため、翻訳品質が低下する傾向があるためです。

新しいシステムは、3D 顔 (3DMM) と 2D 顔 (FAN ランドマークによって定義される) の境界に一致する「輪郭エネルギー」を定義することで、上記の問題を回避します。

最適化

このシステムのアプリケーション シナリオは、ビデオ チャット フィルターでの顔の形状のリアルタイム変形などのリアルタイム変形です。現在、フレームワークではこれを実現できないため、「リアルタイム」変形を可能にするために必要なコンピューティング リソースを提供することが大きな課題になります。

論文の仮定によれば、パイプライン内の 1 秒あたりの素材に対する 24fps ビデオの各フレーム操作のレイテンシーは 16.344 秒です。同時に、特徴推定と 3D 顔の変形については、また、1 回のヒット (それぞれ 321 ミリ秒と 160 ミリ秒) も伴います。

その結果、最適化によりレイテンシの短縮という点で大きな進歩が得られました。すべてのフレームにわたる統合最適化はシステムのオーバーヘッドを大幅に増加させ、初期化スタイルの最適化 (全体で一貫したスピーカー特性を想定) は異常を引き起こす可能性があるため、著者らはサンプリングされたフレームの現実的な間隔で係数を計算するためにスパース モードを採用しました。

次に、このフレームのサブセットに対して結合最適化が実行され、より無駄のない再構築プロセスが実現します。

顔の表面

このプロジェクトで使用されているモーフィング テクノロジーは、著者の 2020 年の作品 Deep Shapely Portraits (DSP) を応用したものです。

機械学習を使用してビデオ内の顔を再構成する

Deep Shapely Portraits、2020 年に ACM Multimedia に投稿。この論文は、浙江大学とテンセントのゲームおよびインテリジェント グラフィックス イノベーション テクノロジに関する共同研究所の研究者によって主導されました。

著者らは、「この手法を、単一の画像の再形成から画像シーケンス全体の再形成まで拡張している」と観察しました。

##テスト

#この論文は、新しい手法を評価するための比較可能な過去のデータが存在しないことを指摘しています。したがって、著者らは、曲面ビデオ出力フレームを静的 DSP 出力と比較しました。

機械学習を使用してビデオ内の顔を再構成する

Deep Shapely Portraits の静的画像に対する新しいシステムのテスト

著者は、スパース マッピングの使用により、DSP メソッドでは人為的な変更の痕跡— —新しいフレームワークは、高密度マッピングを通じてこの問題を解決します。さらに、DSP によって生成されたビデオには滑らかさと視覚的な一貫性が欠けていると論文は主張しています。

著者らは次のように指摘しました:

「結果は、私たちの方法が再整形されたポートレートビデオを安定して首尾一貫して生成できることを示していますが、画像ベースの方法では明らかなちらつきアーティファクト(人工的な変更の痕跡)が簡単に発生する可能性があります。」 )."

翻訳者紹介

Cui Hao は、51CTO コミュニティ編集者、シニア アーキテクトであり、ソフトウェア開発とアーキテクチャに 18 年の経験があり、分散アーキテクチャに 10 年の経験があります。元HPの技術専門家。彼は喜んで共有し、600,000 回以上読まれる人気の技術記事を多数執筆してきました。 『分散アーキテクチャの原則と実践』の著者。

#原題:

Restructuring Faces in Videos With Machine Learning 、著者: Martin Anderson# ##################################

以上が機械学習を使用してビデオ内の顔を再構成するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
AIインデックス2025を読む:AIはあなたの友人、敵、または副操縦士ですか?AIインデックス2025を読む:AIはあなたの友人、敵、または副操縦士ですか?Apr 11, 2025 pm 12:13 PM

スタンフォード大学ヒト指向の人工知能研究所によってリリースされた2025年の人工知能インデックスレポートは、進行中の人工知能革命の良い概要を提供します。 4つの単純な概念で解釈しましょう:認知(何が起こっているのかを理解する)、感謝(利益を見る)、受け入れ(顔の課題)、責任(責任を見つける)。 認知:人工知能はどこにでもあり、急速に発展しています 私たちは、人工知能がどれほど速く発展し、広がっているかを強く認識する必要があります。人工知能システムは絶えず改善されており、数学と複雑な思考テストで優れた結果を達成しており、わずか1年前にこれらのテストで惨めに失敗しました。 2023年以来、複雑なコーディングの問題や大学院レベルの科学的問題を解決することを想像してみてください

Meta Llama 3.2を始めましょう - 分析VidhyaMeta Llama 3.2を始めましょう - 分析VidhyaApr 11, 2025 pm 12:04 PM

メタのラマ3.2:マルチモーダルとモバイルAIの前進 メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。 成功に基づいてo

AVバイト:Meta' s llama 3.2、GoogleのGemini 1.5などAVバイト:Meta' s llama 3.2、GoogleのGemini 1.5などApr 11, 2025 pm 12:01 PM

今週のAIの風景:進歩、倫理的考慮、規制の議論の旋風。 Openai、Google、Meta、Microsoftのような主要なプレーヤーは、画期的な新しいモデルからLEの重要な変化まで、アップデートの急流を解き放ちました

マシンと話すための人的費用:チャットボットは本当に気にすることができますか?マシンと話すための人的費用:チャットボットは本当に気にすることができますか?Apr 11, 2025 pm 12:00 PM

つながりの慰めの幻想:私たちはAIとの関係において本当に繁栄していますか? この質問は、MIT Media Labの「AI(AHA)で人間を進める」シンポジウムの楽観的なトーンに挑戦しました。イベントではCondedgを紹介している間

PythonのScipy Libraryの理解PythonのScipy Libraryの理解Apr 11, 2025 am 11:57 AM

導入 あなたが科学者またはエンジニアで複雑な問題に取り組んでいると想像してください - 微分方程式、最適化の課題、またはフーリエ分析。 Pythonの使いやすさとグラフィックスの機能は魅力的ですが、これらのタスクは強力なツールを必要とします

ラマ3.2を実行する3つの方法-Analytics Vidhyaラマ3.2を実行する3つの方法-Analytics VidhyaApr 11, 2025 am 11:56 AM

メタのラマ3.2:マルチモーダルAIパワーハウス Metaの最新のマルチモーダルモデルであるLlama 3.2は、AIの大幅な進歩を表しており、言語理解の向上、精度の向上、および優れたテキスト生成機能を誇っています。 その能力t

Dagsterでデータ品質チェックを自動化しますDagsterでデータ品質チェックを自動化しますApr 11, 2025 am 11:44 AM

データ品質保証:ダグスターと大きな期待でチェックを自動化する データ駆動型のビジネスにとって、高いデータ品質を維持することが重要です。 データの量とソースが増加するにつれて、手動の品質管理は非効率的でエラーが発生しやすくなります。

メインフレームはAI時代に役割を果たしていますか?メインフレームはAI時代に役割を果たしていますか?Apr 11, 2025 am 11:42 AM

MainFrames:AI革命のUnsung Heroes サーバーは汎用アプリケーションで優れており、複数のクライアントの処理を行いますが、メインフレームは大量のミッションクリティカルなタスク用に構築されています。 これらの強力なシステムは、頻繁にヘビルで見られます

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SecLists

SecLists

SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境