ホームページ  >  記事  >  テクノロジー周辺機器  >  GTA6のトレーラーは10億回以上再生されており、AIの巨人はすぐにGTAのギャングの役割に入ることができます

GTA6のトレーラーは10億回以上再生されており、AIの巨人はすぐにGTAのギャングの役割に入ることができます

王林
王林転載
2023-12-14 22:45:531333ブラウズ

新しい GTA ゲームのトレーラーを見たことがありますか?この予告編は3つのギネス世界記録を更新し、再生回数は1億回を超えていると言われています。

GTA6のトレーラーは10億回以上再生されており、AIの巨人はすぐにGTAのギャングの役割に入ることができます

3 人の AI 巨人が「グランド セフト オート」ゲームでも役割を果たすことができると言ったら、まだわかりますか?彼らは離れていますか?

GTA6のトレーラーは10億回以上再生されており、AIの巨人はすぐにGTAのギャングの役割に入ることができます

AI ビッグ 3: ヤン・ルカン、ジェフリー・ヒントン、ヨシュア・ベンジオ。

この集合写真は Tencent の FaceStudio AI モデルを使用して合成され、GTA スタイルの効果が示されています。この AI モデルの独自性は、広く使用されている「AI 写真」技術をより高いレベルに押し上げる優れた文字認識にあります

人工知能技術の急速な発展の中で、今日、AI写真撮影は、AI テクノロジーの応用の一般的な方向となっています。 AI 画像アプリケーションの分野では、Miaoya Camera などの AI 写真製品が大きな可能性と人気を示しています。 Miaoya Camera は、発売からわずか数週間でソーシャル メディアで多くの注目を集め、その急速な成長はこの市場の大きな可能性を浮き彫りにしています。それにも関わらず、多くのAI写真撮影製品には依然として一定の技術的制限があり、例えば、差の大きい複数の写真をアップロードする必要があり、合成効果を得るまでに長時間待つ必要があり、ユーザーエクスペリエンスに影響を与えることは間違いありません。

人工知能が主導するこの画像イノベーションの波において、テンセントの最新の研究結果 FaceStudio は、さらなる技術的進歩を示しています。この研究は、ポートレートを迅速に合成することに焦点を当てているだけでなく、キャラクターの独自性と認識を維持しながら、美的ニーズを満たすためにポートレートのアイデンティティ情報を保持することにも重点を置いています。オープンソース アルゴリズム StableDiffusion の核となる利点を継承するだけでなく、複数の主要な機能に革新的な改善が加えられています。最も目を引くのは、特に複数人の写真や様式化された画像の処理において、画像生成にハイブリッド ガイダンスを使用できることです。

FaceStudio の中核テクノロジーは、その様式化された特性にあります。個人のアイデンティティ特性を犠牲にすることなく画像合成を実現できます。従来のAI画像合成技術では、見た目の美しさを追求する一方で、文字の独自性や認識性が犠牲になることが多かった。しかし、FaceStudio は高度なハイブリッド ガイダンス メカニズムを通じて、画像生成時にテキスト キュー、スタイル画像、アイデンティティ画像を同時に考慮することができるため、個々の特性を維持しながら多様なスタイルの転送を実現します。これはテクノロジーにおける大きな進歩であるだけでなく、より豊富でパーソナライズされた画像合成オプションをユーザーに提供します。

さらに、FaceStudio の独自のマルチアイデンティティ クロスアテンション メカニズムにより、複数の人物が含まれる画像の処理が特に優れています。従来の方法では、このような画像を処理する際に、各人の特徴を正確に区別して維持する際に問題が発生することがよくあります。しかし、FaceStudio のこの仕組みは、さまざまなアイデンティティの特徴情報を画像の対応する部分に正確にマッピングすることができ、各キャラクターの独自性と全体的なスタイルの調整を維持するのに優れています。

GTA6のトレーラーは10億回以上再生されており、AIの巨人はすぐにGTAのギャングの役割に入ることができます

#FaceStudio は、顔関連のさまざまな興味深いアプリケーションをサポートします。

GTA6のトレーラーは10億回以上再生されており、AIの巨人はすぐにGTAのギャングの役割に入ることができます

  • 論文アドレス: https://arxiv.org/abs/2312.02663
  • ホームページ アドレス: https://icoz69.github .io/facestudio/
#メソッドの概要

ハイブリッド ブートストラップ設計#FaceStudio の中核機能の 1 つは、ハイブリッド ブート設計です。チームは、モデルが画像とテキストの両方のキューを同時に受信できるようにする独自のアプローチを使用し、それによって特定のアイデンティティ特性を持つ画像を生成しました。イメージ プロンプト ベースのブート モジュールには 2 つのサブモジュールが含まれています:

  • 画像ガイド モジュール: この部分では、FaceStudio は CLIP ビジュアル エンコーダーを使用して人間の画像を処理します。これらの画像は多くの場合様式化されており、色、テクスチャ、構成などの豊富な視覚情報が含まれています。 CLIP エンコーダは、これらの画像から複雑なスタイルの特徴を抽出できます。
  • アイデンティティ認識モジュール: 画像ガイダンス モジュールと並行して、Tencent チームは、Arcface モデルを使用して個々の顔画像を処理するアイデンティティ認識モジュールも設計しました。その主な目的は、顔の構造、表情、その他の固有の生体情報などの主要なアイデンティティ特徴を顔画像から抽出することです。

様式化された画像の視覚的特徴と顔画像のアイデンティティ特徴を抽出した後、2 つの特徴セットが融合されます。このステップは、両方の機能を組み合わせて包括的なガイダンス機能を作成する線形レイヤーによって実行されます。この方法の利点は、キャラクターのアイデンティティを保持するだけでなく、特定のスタイルとコンテンツを画像生成プロセスに組み込めることです。

FaceStudio には画像ガイダンス機能があるだけではありません。テキストガイダンス機能を統合。この機能は、事前トレーニングされた PriorTransformer モデルを使用して実現されます。このモデルは、CLIP テキスト特徴を対応する CLIP 視覚特徴にマッピングできます。次に、画像プロンプト ガイダンス モジュールと同様に、これらの視覚機能は ID 認識モジュールの機能と組み合わされて、テキスト プロンプトに応答できる包括的なガイダンス機能を形成します。最後に、2 つのプロンプト機能が重み付けされ、融合されてハイブリッド ガイダンスが実現されます。

GTA6のトレーラーは10億回以上再生されており、AIの巨人はすぐにGTAのギャングの役割に入ることができます

書き直す必要がある内容は次のとおりです: Facebook Studio アーキテクチャ図

複数人物の画像合成

Tencent チームが開発した FaceStudio フレームワークには、が鍵 イノベーションは「複数人物画像の処理」の部分です。このセクションでは、複数の人物のポートレートを 1 つの画像に合成して、各人物が最終画像で独自のアイデンティティを維持できるようにすることに焦点を当てます。複数の人物が含まれる画像に直面する場合、FaceStudio は特別な注意メカニズムを使用します。このメカニズムにより、画像合成プロセス中に、各文字領域の特徴が対応する ID 情報のみにアクセスすることが保証されます。これは、モデルが各キャラクターのアイデンティティを正確に制御し、最終画像に正しく表示されることを保証できることを意味します。この正確な制御を実現するために、Tencent チームはキャラクター インスタンス セグメンテーション モデルを使用しました。このモデルは、画像内のさまざまな人物を識別し、各人物の領域を対応する識別特徴と関連付けることができます。このようにして、モデルは画像を合成するときに各キャラクターのアイデンティティ情報が正しく導かれることを保証できます

GTA6のトレーラーは10億回以上再生されており、AIの巨人はすぐにGTAのギャングの役割に入ることができます

#FaceStudio とベースライン アルゴリズムの比較複数人物の画像生成について

トレーニング戦略

##Tencent チームは、人間の画像の再構成に基づいて FaceStudio の手法を設計しました。 -ターゲットを絞ったトレーニング戦略。このアプローチでは、顔の領域がマスクされた元の画像を様式化された人間の画像への入力として使用し、同時に同じ画像からトリミングされた顔をアイデンティティへの入力として使用します。このようにして、モデルは、誘導画像を生成する際に、人の身元をより正確に保存できます。既存の生成モデルのトレーニング方法とは異なり、この方法はトレーニング データとしてポートレートのみに依存し、テキスト アノテーションを必要としないため、アノテーション付きデータへの依存度が大幅に軽減されます。さまざまなスタイルのポートレートに適切に適応できます。

結果表示

FaceStudio は、顔の類似性とポートレートの生成時間を評価することによって表示され、その独自の利点が得られます。実験結果によると、FaceStudio では 1 枚のポートレートを生成するのに 4 秒もかかりませんが、最適化に基づく人気のアルゴリズム DreamBooth では最大 6 分かかります。同時に、FaceStudio はポートレートの特徴をよりよく保持し、顔の類似性が向上します。実験結果は次のように比較されます:

GTA6のトレーラーは10億回以上再生されており、AIの巨人はすぐにGTAのギャングの役割に入ることができます


研究者らは、FaceStudio と現在の最良のポートレート生成モデル アルゴリズムを比較しました。比較のため、同じ画像をサンプルとして使用しました。比較結果は、FaceStudio がほぼすべてのサンプルでより良い、または同じレベルの結果を達成していることを示しています。これは、FaceStudio が強力な堅牢性と汎用化パフォーマンスを備えていることをさらに証明しています。具体的な比較結果は以下のとおりです。

GTA6のトレーラーは10億回以上再生されており、AIの巨人はすぐにGTAのギャングの役割に入ることができます

#さらに、FaceStudo の実験では、アイデンティティ混合やテキスト画像混合のガイド付き生成など、さまざまなユニークな顔画像生成アプリケーションが実証されました

GTA6のトレーラーは10億回以上再生されており、AIの巨人はすぐにGTAのギャングの役割に入ることができます

##アイデンティティ混合画像生成実験

GTA6のトレーラーは10億回以上再生されており、AIの巨人はすぐにGTAのギャングの役割に入ることができます

テキストと画像を混合したガイド付き画像生成の実験

GTA6のトレーラーは10億回以上再生されており、AIの巨人はすぐにGTAのギャングの役割に入ることができます

#FaceStudio によって生成されたポートレート サンプルにはさまざまなスタイルがあります

概要

要約すると、FaceStudioの登場は、パーソナライズされた画像生成の分野における大きな進歩を示しています。キャラクターのアイデンティティを維持しながら、豊富なスタイル設定とテキスト駆動の画像生成オプションを提供します。この機能は、芸術作品やエンターテイメント業界にとって大きな価値があるだけでなく、広告、デジタル メディア制作、パーソナライズされたコンテンツ制作などの分野でも重要な役割を果たす可能性があります。画像のアイデンティティとスタイルを正確に制御することで、FaceStudio は画像生成テクノロジーの将来の発展に新たな道を切り開き、この分野の革新と変化を先導します

以上がGTA6のトレーラーは10億回以上再生されており、AIの巨人はすぐにGTAのギャングの役割に入ることができますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。