翻訳者|崔昊
改訂者|孫樹娟
冒頭章
中国と英国のプロジェクト 共同研究で新しいものを考案ビデオ内の顔を再現する方法。この技術は、人為的なトリミングの痕跡を残さず、一貫性の高い顔の構造を拡大および縮小することができます。
一般に、この顔の構造の変換は、顔を完全に再構築するための詳細で高価なモーション キャッピング、リギング、テクスチャリング手順に依存する従来の CGI 手法によって実現されます。
従来の手法とは異なり、新技術の CGI は 3D 顔情報のパラメータとしてニューラル パイプラインに統合され、機械学習ワークフローの基礎として機能します。
著者は次のように指摘しました:
「私たちの目標は、現実世界の自然な顔に基づいて顔の輪郭を変形および編集することです。 - 高品質のポートレート整形ビデオ [結果]。このテクノロジーは、顔の美化や顔の誇張などの視覚効果アプリケーションに使用できます。
消費者は Photoshop の歪みテクノロジー (および顔の歪みや身体醜形障害のサブカルチャーにつながりました)が、CGI を使用せずにビデオ用に顔の再構成を実現するのは依然として難しい技術です。
3D モーファブル顔モデル (3DMM) の例 - 新しいプロジェクトで使用されるパラメトリック プロトタイプの顔。左上、3DMM サーフェス上の象徴的なアプリケーション。右上、アイソマップの 3D メッシュ頂点。左下隅は特徴のフィットを示し、中央下の図は抽出された顔のテクスチャのアイソマップを示し、右下隅は最終的なフィットと形状を示します。
新しいシステムのワークフローでは、オブジェクトが視線から離れるときなどのオクルージョン状況が考慮されます。これは、ディープフェイク ソフトウェアにとって最大の課題の 1 つでもあります。FAN ランドマークではこれらの状況をほとんど考慮できず、顔が避けられたり遮られたりするため、翻訳品質が低下する傾向があるためです。
新しいシステムは、3D 顔 (3DMM) と 2D 顔 (FAN ランドマークによって定義される) の境界に一致する「輪郭エネルギー」を定義することで、上記の問題を回避します。
最適化
このシステムのアプリケーション シナリオは、ビデオ チャット フィルターでの顔の形状のリアルタイム変形などのリアルタイム変形です。現在、フレームワークではこれを実現できないため、「リアルタイム」変形を可能にするために必要なコンピューティング リソースを提供することが大きな課題になります。
論文の仮定によれば、パイプライン内の 1 秒あたりの素材に対する 24fps ビデオの各フレーム操作のレイテンシーは 16.344 秒です。同時に、特徴推定と 3D 顔の変形については、また、1 回のヒット (それぞれ 321 ミリ秒と 160 ミリ秒) も伴います。
その結果、最適化によりレイテンシの短縮という点で大きな進歩が得られました。すべてのフレームにわたる統合最適化はシステムのオーバーヘッドを大幅に増加させ、初期化スタイルの最適化 (全体で一貫したスピーカー特性を想定) は異常を引き起こす可能性があるため、著者らはサンプリングされたフレームの現実的な間隔で係数を計算するためにスパース モードを採用しました。
次に、このフレームのサブセットに対して結合最適化が実行され、より無駄のない再構築プロセスが実現します。
顔の表面
このプロジェクトで使用されているモーフィング テクノロジーは、著者の 2020 年の作品 Deep Shapely Portraits (DSP) を応用したものです。
Deep Shapely Portraits、2020 年に ACM Multimedia に投稿。この論文は、浙江大学とテンセントのゲームおよびインテリジェント グラフィックス イノベーション テクノロジに関する共同研究所の研究者によって主導されました。
著者らは、「この手法を、単一の画像の再形成から画像シーケンス全体の再形成まで拡張している」と観察しました。
##テスト#この論文は、新しい手法を評価するための比較可能な過去のデータが存在しないことを指摘しています。したがって、著者らは、曲面ビデオ出力フレームを静的 DSP 出力と比較しました。Restructuring Faces in Videos With Machine Learning 、著者: Martin Anderson# ##################################
以上が機械学習を使用してビデオ内の顔を再構成するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

スタンフォード大学ヒト指向の人工知能研究所によってリリースされた2025年の人工知能インデックスレポートは、進行中の人工知能革命の良い概要を提供します。 4つの単純な概念で解釈しましょう:認知(何が起こっているのかを理解する)、感謝(利益を見る)、受け入れ(顔の課題)、責任(責任を見つける)。 認知:人工知能はどこにでもあり、急速に発展しています 私たちは、人工知能がどれほど速く発展し、広がっているかを強く認識する必要があります。人工知能システムは絶えず改善されており、数学と複雑な思考テストで優れた結果を達成しており、わずか1年前にこれらのテストで惨めに失敗しました。 2023年以来、複雑なコーディングの問題や大学院レベルの科学的問題を解決することを想像してみてください

メタのラマ3.2:マルチモーダルとモバイルAIの前進 メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。 成功に基づいてo

今週のAIの風景:進歩、倫理的考慮、規制の議論の旋風。 Openai、Google、Meta、Microsoftのような主要なプレーヤーは、画期的な新しいモデルからLEの重要な変化まで、アップデートの急流を解き放ちました

つながりの慰めの幻想:私たちはAIとの関係において本当に繁栄していますか? この質問は、MIT Media Labの「AI(AHA)で人間を進める」シンポジウムの楽観的なトーンに挑戦しました。イベントではCondedgを紹介している間

導入 あなたが科学者またはエンジニアで複雑な問題に取り組んでいると想像してください - 微分方程式、最適化の課題、またはフーリエ分析。 Pythonの使いやすさとグラフィックスの機能は魅力的ですが、これらのタスクは強力なツールを必要とします

メタのラマ3.2:マルチモーダルAIパワーハウス Metaの最新のマルチモーダルモデルであるLlama 3.2は、AIの大幅な進歩を表しており、言語理解の向上、精度の向上、および優れたテキスト生成機能を誇っています。 その能力t

データ品質保証:ダグスターと大きな期待でチェックを自動化する データ駆動型のビジネスにとって、高いデータ品質を維持することが重要です。 データの量とソースが増加するにつれて、手動の品質管理は非効率的でエラーが発生しやすくなります。

MainFrames:AI革命のUnsung Heroes サーバーは汎用アプリケーションで優れており、複数のクライアントの処理を行いますが、メインフレームは大量のミッションクリティカルなタスク用に構築されています。 これらの強力なシステムは、頻繁にヘビルで見られます


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

メモ帳++7.3.1
使いやすく無料のコードエディター

SecLists
SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

ZendStudio 13.5.1 Mac
強力な PHP 統合開発環境
