導入
テキストから画像の合成と画像テキストのコントラスト学習は、最近人気を博している最も革新的なマルチモーダル学習アプリケーションの2つです。創造的なイメージの作成と操作のための革新的なアプリケーションにより、これらのモデルは研究コミュニティに革命をもたらし、かなりの公共の関心を集めました。
さらなる研究を行うために、DeepMindはイメージを導入しました。このテキストからイメージまでの拡散モデルは、変圧器言語モデル(LMS)と高忠実度拡散モデルと融合することにより、前例のないフォトリアリズムと、テキスト間統合における言語の言語の深い理解を提供します。
この記事では、Googleの最新のイメージモデルであるImagen 3のトレーニングと評価について説明します。Imagen3は、デフォルトで1024×1024の解像度で画像を出力するように構成でき、2x、4x、または8x Upsamplingを適用するオプションがあります。他の最先端のT2Iモデルと比較して、分析と評価の概要を説明します。
Imagen 3が最良のモデルであることを発見しました。それは、フォトリアリズムに秀でており、複雑で長いユーザーの指示に従います。
概要
- 革新的なテキストから画像から画像へのモデル:Text-to-Imageの拡散モデルであるGoogle's Imagen 3は、詳細なユーザープロンプトの解釈において、比類のないフォトリアリズムと精度を提供します。
- 評価と比較:Imagen 3は、自動化された評価と人間の評価と人間の両方の評価において、Dall・E 3や安定した拡散などのモデルを上回り、迅速な画像アライメントと視覚的魅力に優れています。
- データセットと安全対策:トレーニングデータセットは、低品質または有害なコンテンツを削除するために厳しいフィルタリングを受け、より安全で正確な出力を確保します。
- アーキテクチャの輝き:冷凍T5-XXLエンコーダーとマルチステップアップサンプリングを使用して、Imagen 3は1024×1024の解像度までの非常に詳細な画像を生成します。
- 現実世界の統合:Imagen 3はGoogle CloudのVertex AIを介してアクセス可能であるため、創造的な画像生成のために生産環境に簡単に統合できます。
- 高度な機能と速度:Imagen 3の導入により、ユーザーは画質を損なうことなく40%のレイテンシを削減することで恩恵を受けることができます。
目次
- データセット:トレーニングの品質と安全性を確保します
- 画像のアーキテクチャ
- 画像モデルの評価
- 人間の評価:評価者はどのようにImagen 3の出力品質を判断しましたか?
- 全体的なユーザーの好み:Imagen 3がクリエイティブイメージ生成をリードします
- プロンプトイメージアライメント:ユーザーの意図を精度でキャプチャします
- 視覚的魅力:プラットフォーム全体の審美的な卓越性
- 詳細なプロンプトイメージアライメント
- 数値推論:オブジェクトカウントの精度で競争を上回る
- 自動評価:モデルをクリップ、Gecko、およびVqascoreと比較します
- プロンプトイメージアライメント
- 画質
- 定性的な結果:Imagen 3の細部への注意を強調します
- 評価に関する推論
- 頂点AI経由でイメージン3へのアクセス:シームレスな統合のガイド
- 頂点AIを使用します
- ジェミニを使用します
- よくある質問
データセット:トレーニングの品質と安全性を確保します
Imagenモデルは、テキスト、画像、および関連注釈を含む大きなデータセットを使用してトレーニングされています。 Deepmindは、品質と安全の要件を保証するためにいくつかのろ過段階を使用しました。第一に、危険、暴力、または質の悪いとみなされる画像は削除されます。次に、DeepMindは、AIによって作成された画像を削除して、モデルがこれらの種類の画像に頻繁に存在するバイアスやアーティファクトの拾いを阻止します。 DeepMindはまた、特定のトレーニングデータポイントに過剰適合する可能性を減らすために、類似の画像と重複排除手順を採用しました。
データセット内のすべての画像には、ALTテキスト、人間の説明などから派生した合成キャプションとオリジナルのキャプションがあります。Geminiモデルは、異なるキューを持つ合成キャプションを生成します。これらの合成キャプションの言語の多様性と品質を最大化するために、DeepMindは複数のGeminiモデルと指示を使用しました。 DeepMindは、さまざまなフィルターを使用して、潜在的に有害なキャプションと個人を特定できる情報を排除しました。
画像のアーキテクチャ
Imagenは、大きな冷凍T5-XXLエンコーダーを使用して、入力テキストを埋め込みにエンコードします。条件付き拡散モデルは、テキストを64×64の画像にマッピングします。 Imagenはさらに、テキストコンディショナルスーパー解像度拡散モデルを利用して、画像64×64→256×256および256×256→1024×1024をアップサンプリングします。
画像モデルの評価
DeepMindは、Imagen 2および外部モデルDall・E 3、Midjourney V6、Stable Diffusion 3の大きく、安定した拡散XL 1.0に対して、最高品質の構成であるImagen 3モデルを評価します。 Deepmindは、Imagen 3が、人間と機械による厳格な評価を通じて、テキストからイメージの世代における新しい最先端を設定することを発見しました。定性的な結果と評価に関する推論には、定性的な結果と、全体的な調査結果と制限の議論が含まれています。 Imagen 3との製品統合により、テストされた構成とは異なるパフォーマンスが発生する可能性があります。
また読む:画像生成にDall-E 3 APIを使用する方法は?
人間の評価:評価者はどのようにImagen 3の出力品質を判断しましたか?
テキストから画像の生成モデルは、全体的な好み、プロンプトイメージの調整、視覚的魅力、詳細な迅速な画像アライメント、数値推論の5つの品質の側面で評価されます。これらの側面は、評価者の判断の融合を避けるために独立して評価されます。並べて比較は定量的な判断に使用されますが、数値の推論は、特定のタイプのオブジェクトの数が画像に描かれていることをカウントすることで直接評価できます。
完全なELOスコアボードは、すべてのモデルの徹底的な比較を通じて生成されます。各研究は、プロンプトセットのプロンプトに均一に分布した2500の評価で構成されています。モデルは評価者インターフェイスで匿名化され、側面はすべての評価に対してランダムにシャッフルされます。データ収集は、Google Deepmindのデータ強化に関するベストプラクティスを使用して実施され、すべてのデータ強化労働者に少なくとも地元の生活賃金が支払われるようにします。この研究では、3225の異なる評価者から5943の提出物で366,569の評価を収集しました。各評価者は、研究の最大10%に参加し、特定の評価者の判断のセットに対する偏った結果を避けるために、評価の約2%を提供しました。 71の異なる国籍の評価者が研究に参加しました。
全体的なユーザーの好み:Imagen 3がクリエイティブイメージ生成をリードします
プロンプトが与えられた生成された画像に関するユーザーの全体的な選好は、未解決の質問であり、評価者はどの品質の側面が最も重要であるかを決定します。 2つの画像が評価者に提示され、どちらも同様に魅力的であれば、「私は無関心です」。
結果は、画像3がGenai-bench、Drawbench、およびDall・E 3の評価で有意に好まれていることを示しました。 Imagen 3は、安定した拡散3よりもドローベンチに小さなマージンを持つリードしており、Dall・E 3評価にわずかなエッジがありました。
プロンプトイメージアライメント:ユーザーの意図を精度でキャプチャします
この研究では、出力画像コンテンツにおける入力プロンプトの表現を評価し、潜在的な欠陥や審美的な魅力を無視します。評価者は、さまざまなスタイルを無視して、プロンプトの意図をよりよくキャプチャする画像を選択するように求められました。結果は、Imagen 3がGenai-Bench、Drawbench、およびDall・E 3 Aを上回ることを示し、信頼区間が重複しています。この研究は、画像の潜在的な欠陥または悪い品質を無視すると、迅速な画像アライメントの精度を改善できることを示唆しています。
視覚的魅力:プラットフォーム全体の審美的な卓越性
視覚的魅力は、コンテンツに関係なく、生成された画像の魅力を測定します。評価者は、プロンプトなしで2つの画像を並べて評価します。 Midjourney V6は、Genai-benchでほぼPARにイメージ3で、ドローベンチでわずかに大きく、Dall・E 3 Evalで大きな利点があります。
詳細なプロンプトイメージアライメント
この研究では、以前のプロンプトセットよりも大幅に長いDOCCIの詳細なプロンプトから画像を生成することにより、プロンプトイメージアライメント機能を評価します。研究者たちは、100語のプロンプトを読むことは人間の評価者にとってあまりにも挑戦的すぎることを発見しました。代わりに、彼らは実際の参照写真の高品質のキャプションを使用して、生成された画像をベンチマーク参照画像と比較しました。評価者は、画像のセマンティクスに焦点を当て、スタイルを無視し、テクニックをキャプチャし、品質をキャプチャしました。結果は、Imagen 3が114のELOポイントの有意なギャップと2番目のベストモデルに対して63%の勝利率を持ち、入力プロンプトの詳細なコンテンツに従う際の優れた機能を強調していることを示しました。
数値推論:オブジェクトカウントの精度で競争を上回る
この研究では、Geckonumベンチマークタスクを使用して、モデルが正確な数のオブジェクトを生成する能力を評価します。タスクには、画像内のオブジェクトの数を、プロンプトで要求される予想数量と比較することが含まれます。モデルは、色や空間的関係などの属性を考慮します。結果は、Imagen 3が最も強力なモデルであり、12パーセントポイントを超えるDall・E 3を上回ることを示しています。また、2〜5のオブジェクトを含む画像を生成する場合、より複雑な文構造でのパフォーマンスが向上する場合、精度が高くなります。
自動評価:モデルをクリップ、Gecko、およびVqascoreと比較します
近年、ClipやVqascoreなどの自動評価(自動平均)メトリックは、テキストから画像モデルの品質を測定するためにより広く使用されています。この研究では、人間の評価を補完するために、迅速な画像アラインメントと画質の自動平均メトリックに焦点を当てています。
プロンプトイメージアライメント
研究者は、3つの強力な自動平均プロンプトイメージアライメントメトリックを選択します:コントラストデュアルエンコーダ(CLIP)、VQAベース(GECKO)、およびLVLMプロンプトベース(VQASCORE2の実装)。結果は、Clipが正しいモデルの順序を予測できないことが多いことを示していますが、GeckoとVqascoreはうまく機能し、約72%の時間に同意します。 Geckoの73.3%と比較して、VQASCOREは人間の評価に80%の時間と一致するため、エッジを持っています。 Geckoは、パフォーマンスの違いを説明する可能性のあるより弱いバックボーンPaliを使用しています。
この調査では、4つのデータセットを評価して、多様な条件下でモデルの違いを調査します:Gecko-Rel、docci-test-pivots、dall・e 3 eval、genai-bench。結果は、Imagen 3が一貫して最高のアライメントパフォーマンスを持っていることを示しています。 SDXL 1およびImagen 2は、他のモデルよりも一貫してパフォーマンスが低いです。
画質
画質に関して、研究者は、Imagen 3、SDXL 1、およびDall・E 3による生成された画像の分布を、さまざまな特徴スペースと距離メトリックを使用してMSCOCO-Caption検証セットの30,000サンプルで比較します。彼らは、これらの3つのメトリックを最小限に抑えることはトレードオフであり、自然な色とテクスチャの生成を支持するが、オブジェクトの形と部分の歪みを検出できないことを観察しています。 Imagen 3は、3つのモデルの低いCMMD値を示し、最先端の機能スペースメトリックでの強力なパフォーマンスを強調しています。
定性的な結果:Imagen 3の細部への注意を強調します
以下の画像は、12メガピクセルにアップサンプリングされた2つの画像を示しており、作物は詳細レベルを示しています。
評価に関する推論
Imagen 3は、特に詳細なプロンプトとカウント能力のプロンプトイメージアライメントのトップモデルです。視覚的な魅力の観点から、Midjourney V6がリードし、Imagen 3が2位になります。ただし、数値的推論、スケール推論、構成フレーズ、アクション、空間推論、複雑な言語など、特定の機能にはまだ欠点があります。これらのモデルは、数値の推論、スケール推論、構成フレーズ、およびアクションを必要とするタスクと格闘しています。全体として、Imagen 3は、ユーザーの意図を尊重する高品質の出力に最適です。
頂点AI経由でイメージン3へのアクセス:シームレスな統合のガイド
頂点AIを使用します
Vertex AIの使用を開始するには、既存のGoogle Cloudプロジェクトを持ち、Vertex AI APIを有効にする必要があります。プロジェクトと開発環境のセットアップの詳細をご覧ください。
また、GitHubリンクは次のとおりです
Vertexaiをインポートします vertexai.preview.vision_modelsからImageGenerationModelをインポートします #TODO(開発者):Vertex AIコンソールからプロジェクトIDを更新する project_id = "project_id" vertexai.init(project = project_id、location = "us-central1") Generation_model = imagegenerationmodel.from_pretrained( "imagen-3.0-generate-001") PRONT = "" " 木製のキッチンのテーブルに横たわる料理本の写真本物のイメージ、似たようなテーブルに座っている笑顔の家族が登場する前方に面したカバー、シーンを照らした柔らかいオーバーヘッド照明、クックブックは画像の主な焦点です。 "" " image = generation_model.generate_images( プロンプト=プロンプト、 number_of_images = 1、 aspect_ratio = "1:1"、 Safety_filter_level = "block_some"、 person_generation = "allow_all"、 ))
テキストレンダリング
Imagen 3は、画像内のテキストレンダリングに関する新しい可能性も開きます。さまざまなフォントと色のキャプションを備えたポスター、カード、ソーシャルメディアの投稿の画像を作成することは、このツールを試すのに最適な方法です。この関数を使用するには、プロンプトで見たいものの簡単な説明を書くだけです。料理本のカバーを変更してタイトルを追加したいと思います。
PRONT = "" " 木製のキッチンのテーブルに横たわる料理本の写真本物のイメージ、似たようなテーブルに座っている笑顔の家族が登場する前方に面したカバー、シーンを照らした柔らかいオーバーヘッド照明、クックブックは画像の主な焦点です。 オレンジ色のブロック文字で「毎日のレシピ」と書かれたクックブックカバーの中心にタイトルを追加します。 "" " image = generation_model.generate_images( プロンプト=プロンプト、 number_of_images = 1、 aspect_ratio = "1:1"、 Safety_filter_level = "block_some"、 person_generation = "allow_all"、 ))
レイテンシーの減少
DeepMindは、Imagen 3を提供します。これは、これまでで最高品質のモデルであるImagen 3に加えて、生成速度に最適化されたモデルです。 Imagen 3 Fastは、よりコントラストと明るさを備えた画像を作成するのに適しています。 Imagen 2と比較してレイテンシの40%の減少を観察できます。同じプロンプトを使用して、これら2つのモデルを示す2つの画像を作成できます。前述のクックブックに含めることができるサラダ写真の2つの選択肢を作成しましょう。
Generation_model_fast = imagegenerationmodel.from_pretrained( 「Imagen-3.0-fast-generate-001」 )) PRONT = "" " ピーマン、キュウリ、トマト、緑豊かなグリーンなどのカラフルな野菜があふれている庭のサラダのフォトリアリスティックな画像。白い大理石のテーブルの画像の中央にある木製のボウルに座っています。自然光はシーンを照らし、柔らかい影をキャストし、材料の新鮮さを強調します。 "" " #イメージ3高速画像生成 fast_image = generation_model_fast.generate_images( プロンプト=プロンプト、 number_of_images = 1、 aspect_ratio = "1:1"、 Safety_filter_level = "block_some"、 person_generation = "allow_all"、 ))
PRONT = "" " ピーマン、キュウリ、トマト、緑豊かなグリーンなどのカラフルな野菜があふれている庭のサラダのフォトリアリスティックな画像。白い大理石のテーブルの画像の中央にある木製のボウルに座っています。自然光はシーンを照らし、柔らかい影をキャストし、材料の新鮮さを強調します。 "" " #Imagen 3画像生成 image = generation_model.generate_images( プロンプト=プロンプト、 number_of_images = 1、 aspect_ratio = "1:1"、 Safety_filter_level = "block_some"、 person_generation = "allow_all"、 ))
ジェミニを使用します
Geminiは新しいImagen 3を使用してサポートするため、Geminiを使用してImagen 3にアクセスしています。下の画像では、GeminiがImagen 3を使用して画像を生成していることがわかります。
プロンプト - 「都市道路を歩いているライオンの画像を生成します。道路には車、自転車、バスがあります。必ず現実的にしてください」
結論
GoogleのImagen 3は、テキストから画像への合成のための新しいベンチマークを設定し、光リアリズムに優れており、並外れた精度で複雑なプロンプトを処理します。複数の評価ベンチマークにわたる強力なパフォーマンスは、Dall・E 3や安定した拡散などのモデルを上回る詳細な迅速な画像アライメントと視覚的魅力の機能を強調しています。ただし、数値的および空間的推論を含むタスクでは、依然として課題に直面しています。イメージ3を追加すると、レイテンシを減らし、頂点AIなどのツールとの統合を促進するために、イメージン3はクリエイティブアプリケーションのエキサイティングな可能性を開き、マルチモーダルAIの境界を押し広げます。
オンラインで生成的なAIコースを探している場合は、今日はGenai Pinnacleプログラムを探索してください!
よくある質問
Q1。 GoogleのImagen 3がテキストから画像への合成で際立っている理由は何ですか?ANS Imagen 3は、フォトリアリズムと複雑なプロンプト処理に優れており、Dallの3や安定した拡散などの他のモデルと比較して、優れた画質とユーザー入力との調整を提供します。
Q2。 Imagen 3は複雑なプロンプトをどのように処理しますか?Ans。 Imagen 3は、詳細で長いプロンプトを効果的に管理するように設計されており、プロンプトイメージのアライメントと詳細なコンテンツ表現の強力なパフォーマンスを実証します。
Q3。画像3をトレーニングするために使用されるデータセットは何ですか?Ans。このモデルは、テキスト、画像、注釈を備えた大規模で多様なデータセットでトレーニングされており、AIに生成されたコンテンツ、有害な画像、および低品質のデータを除外するようにフィルタリングされています。
Q4。 Imagen 3は標準バージョンとどのように違いますか?Ans。 Imagen 3 Fastは速度に対して最適化されており、高品質の画像生成を維持しながら、標準バージョンと比較して40%のレイテンシが減少します。
Q5。 Imagen 3を生産環境に統合できますか?Ans。はい、Imagen 3はGoogle CloudのVertex AIで使用でき、画像生成とクリエイティブタスクのためにアプリケーションにシームレスに統合できます。
以上がGoogleのイメージ3はAI画像作成の未来ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

AIは、野火の回復許可を合理化します オーストラリアのハイテク企業ArchistarのAIソフトウェアは、機械学習とコンピュータービジョンを利用して、地域の規制に準拠するための建築計画の評価を自動化します。この前検証は重要です

エストニアのデジタル政府:米国のモデル? 米国は官僚的な非効率性と闘っていますが、エストニアは説得力のある代替品を提供しています。 この小さな国は、AIを搭載した、ほぼ100%デジタル化された市民中心の政府を誇っています。 これはそうではありません

結婚式を計画することは記念碑的な仕事であり、しばしば最も組織化されたカップルでさえ圧倒されます。 この記事は、AIの影響に関する進行中のフォーブスシリーズの一部(こちらのリンクを参照)で、生成AIが結婚式の計画にどのように革命をもたらすことができるかを調べます。 結婚式のpl

政府は、さまざまな確立されたタスクにそれらを利用している一方で、企業はAIエージェントを販売のためにますます活用しています。 ただし、消費者の支持者は、個人がターゲットのターゲットに対する防御として自分のAIエージェントを所有する必要性を強調しています

Googleはこのシフトをリードしています。その「AIの概要」機能はすでに10億人以上のユーザーにサービスを提供しており、誰もがリンクをクリックする前に完全な回答を提供しています。[^2] 他のプレイヤーも速く地位を獲得しています。 ChatGpt、Microsoft Copilot、およびPE

2022年、彼はソーシャルエンジニアリング防衛のスタートアップDoppelを設立してまさにそれを行いました。そして、サイバー犯罪者が攻撃をターボチャージするためのより高度なAIモデルをハーネスするにつれて、DoppelのAIシステムは、企業が大規模に戦うのに役立ちました。

出来上がりは、適切な世界モデルとの対話を介して、生成AIとLLMを実質的に後押しすることができます。 それについて話しましょう。 革新的なAIブレークスルーのこの分析は、最新のAIで進行中のForbes列のカバレッジの一部であり、

労働者2050年。全国の公園は、ノスタルジックなパレードが街の通りを通り抜ける一方で、伝統的なバーベキューを楽しんでいる家族でいっぱいです。しかし、お祝いは現在、博物館のような品質を持っています。


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

メモ帳++7.3.1
使いやすく無料のコードエディター

Dreamweaver Mac版
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

SublimeText3 英語版
推奨: Win バージョン、コードプロンプトをサポート!
