ホームページ >テクノロジー周辺機器 >AI >GTA6のトレーラーは10億回以上再生されており、AIの巨人はすぐにGTAのギャングの役割に入ることができます

GTA6のトレーラーは10億回以上再生されており、AIの巨人はすぐにGTAのギャングの役割に入ることができます

王林転載: 2023-12-14 22:45:531484ブラウズ

新しい GTA ゲームのトレーラーを見たことがありますか?この予告編は3つのギネス世界記録を更新し、再生回数は1億回を超えていると言われています。

3 人の AI 巨人が「グランドセフトオート」ゲームでも役割を果たすことができると言ったら、まだわかりますか?彼らは離れていますか？

GTA6のトレーラーは10億回以上再生されており、AIの巨人はすぐにGTAのギャングの役割に入ることができます

AI ビッグ 3: ヤン・ルカン、ジェフリー・ヒントン、ヨシュア・ベンジオ。

この集合写真は Tencent の FaceStudio AI モデルを使用して合成され、GTA スタイルの効果が示されています。この AI モデルの独自性は、広く使用されている「AI 写真」技術をより高いレベルに押し上げる優れた文字認識にあります

人工知能技術の急速な発展の中で、今日、AI写真撮影は、AI テクノロジーの応用の一般的な方向となっています。 AI 画像アプリケーションの分野では、Miaoya Camera などの AI 写真製品が大きな可能性と人気を示しています。 Miaoya Camera は、発売からわずか数週間でソーシャルメディアで多くの注目を集め、その急速な成長はこの市場の大きな可能性を浮き彫りにしています。それにも関わらず、多くのAI写真撮影製品には依然として一定の技術的制限があり、例えば、差の大きい複数の写真をアップロードする必要があり、合成効果を得るまでに長時間待つ必要があり、ユーザーエクスペリエンスに影響を与えることは間違いありません。

人工知能が主導するこの画像イノベーションの波において、テンセントの最新の研究結果 FaceStudio は、さらなる技術的進歩を示しています。この研究は、ポートレートを迅速に合成することに焦点を当てているだけでなく、キャラクターの独自性と認識を維持しながら、美的ニーズを満たすためにポートレートのアイデンティティ情報を保持することにも重点を置いています。オープンソースアルゴリズム StableDiffusion の核となる利点を継承するだけでなく、複数の主要な機能に革新的な改善が加えられています。最も目を引くのは、特に複数人の写真や様式化された画像の処理において、画像生成にハイブリッドガイダンスを使用できることです。

FaceStudio の中核テクノロジーは、その様式化された特性にあります。個人のアイデンティティ特性を犠牲にすることなく画像合成を実現できます。従来のAI画像合成技術では、見た目の美しさを追求する一方で、文字の独自性や認識性が犠牲になることが多かった。しかし、FaceStudio は高度なハイブリッドガイダンスメカニズムを通じて、画像生成時にテキストキュー、スタイル画像、アイデンティティ画像を同時に考慮することができるため、個々の特性を維持しながら多様なスタイルの転送を実現します。これはテクノロジーにおける大きな進歩であるだけでなく、より豊富でパーソナライズされた画像合成オプションをユーザーに提供します。

さらに、FaceStudio の独自のマルチアイデンティティクロスアテンションメカニズムにより、複数の人物が含まれる画像の処理が特に優れています。従来の方法では、このような画像を処理する際に、各人の特徴を正確に区別して維持する際に問題が発生することがよくあります。しかし、FaceStudio のこの仕組みは、さまざまなアイデンティティの特徴情報を画像の対応する部分に正確にマッピングすることができ、各キャラクターの独自性と全体的なスタイルの調整を維持するのに優れています。

GTA6のトレーラーは10億回以上再生されており、AIの巨人はすぐにGTAのギャングの役割に入ることができます

#FaceStudio は、顔関連のさまざまな興味深いアプリケーションをサポートします。

GTA6のトレーラーは10億回以上再生されており、AIの巨人はすぐにGTAのギャングの役割に入ることができます

論文アドレス: https://arxiv.org/abs/2312.02663
ホームページアドレス: https://icoz69.github .io/facestudio/

#メソッドの概要

ハイブリッドブートストラップ設計#FaceStudio の中核機能の 1 つは、ハイブリッドブート設計です。チームは、モデルが画像とテキストの両方のキューを同時に受信できるようにする独自のアプローチを使用し、それによって特定のアイデンティティ特性を持つ画像を生成しました。イメージプロンプトベースのブートモジュールには 2 つのサブモジュールが含まれています:

画像ガイドモジュール: この部分では、FaceStudio は CLIP ビジュアルエンコーダーを使用して人間の画像を処理します。これらの画像は多くの場合様式化されており、色、テクスチャ、構成などの豊富な視覚情報が含まれています。 CLIP エンコーダは、これらの画像から複雑なスタイルの特徴を抽出できます。
アイデンティティ認識モジュール: 画像ガイダンスモジュールと並行して、Tencent チームは、Arcface モデルを使用して個々の顔画像を処理するアイデンティティ認識モジュールも設計しました。その主な目的は、顔の構造、表情、その他の固有の生体情報などの主要なアイデンティティ特徴を顔画像から抽出することです。

様式化された画像の視覚的特徴と顔画像のアイデンティティ特徴を抽出した後、2 つの特徴セットが融合されます。このステップは、両方の機能を組み合わせて包括的なガイダンス機能を作成する線形レイヤーによって実行されます。この方法の利点は、キャラクターのアイデンティティを保持するだけでなく、特定のスタイルとコンテンツを画像生成プロセスに組み込めることです。

FaceStudio には画像ガイダンス機能があるだけではありません。テキストガイダンス機能を統合。この機能は、事前トレーニングされた PriorTransformer モデルを使用して実現されます。このモデルは、CLIP テキスト特徴を対応する CLIP 視覚特徴にマッピングできます。次に、画像プロンプトガイダンスモジュールと同様に、これらの視覚機能は ID 認識モジュールの機能と組み合わされて、テキストプロンプトに応答できる包括的なガイダンス機能を形成します。最後に、2 つのプロンプト機能が重み付けされ、融合されてハイブリッドガイダンスが実現されます。

GTA6のトレーラーは10億回以上再生されており、AIの巨人はすぐにGTAのギャングの役割に入ることができます

書き直す必要がある内容は次のとおりです: Facebook Studio アーキテクチャ図

複数人物の画像合成

Tencent チームが開発した FaceStudio フレームワークには、が鍵イノベーションは「複数人物画像の処理」の部分です。このセクションでは、複数の人物のポートレートを 1 つの画像に合成して、各人物が最終画像で独自のアイデンティティを維持できるようにすることに焦点を当てます。複数の人物が含まれる画像に直面する場合、FaceStudio は特別な注意メカニズムを使用します。このメカニズムにより、画像合成プロセス中に、各文字領域の特徴が対応する ID 情報のみにアクセスすることが保証されます。これは、モデルが各キャラクターのアイデンティティを正確に制御し、最終画像に正しく表示されることを保証できることを意味します。この正確な制御を実現するために、Tencent チームはキャラクターインスタンスセグメンテーションモデルを使用しました。このモデルは、画像内のさまざまな人物を識別し、各人物の領域を対応する識別特徴と関連付けることができます。このようにして、モデルは画像を合成するときに各キャラクターのアイデンティティ情報が正しく導かれることを保証できます

GTA6のトレーラーは10億回以上再生されており、AIの巨人はすぐにGTAのギャングの役割に入ることができます

#FaceStudio とベースラインアルゴリズムの比較複数人物の画像生成について

トレーニング戦略

##Tencent チームは、人間の画像の再構成に基づいて FaceStudio の手法を設計しました。 -ターゲットを絞ったトレーニング戦略。このアプローチでは、顔の領域がマスクされた元の画像を様式化された人間の画像への入力として使用し、同時に同じ画像からトリミングされた顔をアイデンティティへの入力として使用します。このようにして、モデルは、誘導画像を生成する際に、人の身元をより正確に保存できます。既存の生成モデルのトレーニング方法とは異なり、この方法はトレーニングデータとしてポートレートのみに依存し、テキストアノテーションを必要としないため、アノテーション付きデータへの依存度が大幅に軽減されます。さまざまなスタイルのポートレートに適切に適応できます。

結果表示

FaceStudio は、顔の類似性とポートレートの生成時間を評価することによって表示され、その独自の利点が得られます。実験結果によると、FaceStudio では 1 枚のポートレートを生成するのに 4 秒もかかりませんが、最適化に基づく人気のアルゴリズム DreamBooth では最大 6 分かかります。同時に、FaceStudio はポートレートの特徴をよりよく保持し、顔の類似性が向上します。実験結果は次のように比較されます:

GTA6のトレーラーは10億回以上再生されており、AIの巨人はすぐにGTAのギャングの役割に入ることができます

研究者らは、FaceStudio と現在の最良のポートレート生成モデルアルゴリズムを比較しました。比較のため、同じ画像をサンプルとして使用しました。比較結果は、FaceStudio がほぼすべてのサンプルでより良い、または同じレベルの結果を達成していることを示しています。これは、FaceStudio が強力な堅牢性と汎用化パフォーマンスを備えていることをさらに証明しています。具体的な比較結果は以下のとおりです。

GTA6のトレーラーは10億回以上再生されており、AIの巨人はすぐにGTAのギャングの役割に入ることができます