ホームページ > 記事 > テクノロジー周辺機器 > Meta の最新の画像生成ツールは、夢を現実に変えることができるため、非常に人気があります。
AIは絵がとても上手です。
最近、Meta は AI「ペインター」である Make-A-Scene も開発しました。
テキストを使用して絵画を生成することはそれほど簡単だとまだ思いますか?
少し前に Google が立ち上げた「アーティスト」Parti のように、テキストによる説明のみに依存すると、場合によっては「ひっくり返る」可能性があることを知っておく必要があります。
「バナナのない皿と、その隣にオレンジジュースの入っていないグラス。」
今回のメイク・ア・シーンは次のように説明できます。テキストとスケッチを使用して、希望の外観を作成します。
作品の上下、左右、サイズ、形、その他の要素について最終決定権を持ちます。
LeCun も自社製品のプロモーションに名乗りを上げていますが、クリエイティビティは言うまでもなく、鍵となるのは「コントロール可能」です。
Make-A-Scene はとても素晴らしいので、見てみましょう。
練習なしの話ばかり、インチキトリック!
人々が想像力を実現するためにメイク・ア・シーンをどのように使用しているかを見てみましょう。
研究チームは、有名な人工知能アーティストとメイク・ア・シーンのデモンストレーションセッションを実施します。
アーティスト チームには、Sofia Crespo、Scott Eaton、Alexander Reben、Refik Anadol などを含む強力なラインナップが揃っています。これらのマスターは、生成人工知能の適用について直接の経験を持っています。 。 経験。
研究開発チームは、これらのアーティストがクリエイティブ プロセスの一部としてメイク ア シーンを使用し、使用中にフィードバックを提供できるようにしています。
次は、巨匠たちが作った作品をメイク・ア・シーンで鑑賞しましょう。
たとえば、ソフィア クレスポは、自然とテクノロジーの交差点に焦点を当てたアーティストです。彼女は、これまで存在しなかった人工生命体を想像するのが好きだったので、Make-A-Scene のスケッチ機能とテキスト プロンプト機能を使用して、全く新しい「ハイブリッド クリーチャー」を作成しました。
たとえば、花の形をしたクラゲ。
Crespo は無料の描画機能を活用して、新しいアイデアを迅速に反復します。彼女は、メイク・ア・シーンはアーティストが自分たちの創造性をよりよく表現できるようになり、より直感的なインターフェースを使って絵を描くことができるようになると語った。
(フラワー ジェリーフィッシュ)
スコット イートンは、アーティスト、教育者、クリエイティブ テクノロジーの専門家であり、現代の現実とテクノロジー間の関係を研究しています。
彼はシーンを構成する方法としてメイク・ア・シーンを使用し、気候を強調するために「砂漠に沈んで朽ち果てた高層ビル」などのテーマを使用するなど、さまざまな手がかりを通じてシーンの変化を探ります。 。
(砂漠の高層ビル)
Alexander Reben はアーティスト、研究者、ロボット工学者です。
彼は、出力をもっとコントロールできれば、芸術的な意図を表現するのに本当に役立つと信じています。彼はこれらのツールを進行中のシリーズに組み込んでいます。
メディア アーティスト兼ディレクターの Refik Anadol にとって、このツールは想像力の発達を促進し、未知の領域をより良く探索する方法です。
#実は、このプロトタイプ ツールはアートに興味がある人だけを対象としたものではありません。
研究チームは、メイク・ア・シーンは、芸術的才能があまりない人も含め、誰でも自分自身をより良く表現できるのに役立つと信じています。
手始めに、研究チームはメイダの従業員に部分的なアクセスを提供しました。彼らは Make-A-Scene の体験をテストし、フィードバックを提供しています。
Meda プロジェクト マネージャーの Andy Boyatzis は、Make-A-Scene を使用して 2 歳と 4 歳の子供たちとアートを作成しています。彼らは遊び心のある絵を使って、自分たちのアイデアや想像力に命を吹き込みます。
以下は彼らの作品です~
カラフルな猫の彫刻~かわいいでしょう?しかし、この色は実際には、子供が粘土の大きな塊をこねているような、見るに耐えない色です。
#電車に乗っているモンスタークマ。真剣に、暗号恐怖症の人は近づかないでください。編集者はこの写真を読んだ後、すぐにトップに躍り出ました。この奇妙な腕、顔のような体、目玉のような車輪を見てください... 山頂。正直に言うと、この写真は非常に芸術的です。しかし、遠くの山と近くの小さな電車はまったく同じスタイルではないように感じませんか? テクノロジーの裏側現在の方法では、テキスト ドメインと画像ドメインの間でかなり良好な変換が提供されていますが、依然としていくつかの重要な問題があります。人間の知覚、画質。 このモデルの方法により、構造の一貫性と画質がある程度向上します。 シーン全体は、3 つの相補的なセマンティック セグメンテーション グループ (パノラマ、人間、顔) で構成されています。 抽出された 3 つのセマンティック セグメンテーション グループを組み合わせることで、ネットワークはセマンティックのレイアウトと条件を生成して最終画像を生成する方法を学習します。 シーンのトークン空間を作成するために、著者らは「VQ-VAE」を改良した「VQ-SEG」を採用しました。 この実装では、「VQ-SEG」の入力と出力は m チャネルです。追加のチャネルは、さまざまなクラスとインスタンスを分離するエッジのマップです。エッジ チャネルは、同じクラスの隣接するインスタンスを分離し、重要性の高い稀なクラスを強調します。 「VQ-SEG」ネットワークをトレーニングする場合、各顔パーツがシーン空間内で占めるピクセル数は比較的少ないため、顔パーツ (目、鼻など) の再構成につながります。 ) 唇、眉毛の意味的セグメンテーション) は頻繁に減少します。 これに関して、著者らは、顔部分の重要性を強調するために、セグメント化された顔部分分類に基づいた重み付きバイナリクロスエントロピー顔損失を使用しようとしました。さらに、顔パーツのエッジも、前述のセマンティック セグメンテーション エッジ マップの一部として使用されます。 著者らは、専用の顔埋め込みネットワークの代わりに、ImageNet データセットでトレーニングされた事前トレーニング済み VGG ネットワークを採用し、再構成された画像と実際の画像の間の知覚的な違いを表す特徴マッチング損失を導入しました。 特徴マッチングを使用し、VQ-IMG のエンコーダーとデコーダーにアップサンプリング レイヤーとダウンサンプリング レイヤーを追加することにより、出力画像の解像度を 256×256 から増やすことができます。 誰もが Transformer についてよく知っていると思いますが、シーンベースの Transformer とは何ですか?これは、テキスト、シーン、イメージという 3 つの独立した連続トークン スペースを持つ自己回帰トランスフォーマーに依存しています。
トークン シーケンスは、BPE エンコーダによってエンコードされたテキスト トークン、VQ-SEG によってエンコードされたシーン トークン、および VQ-IMG によってエンコードまたはデコードされたイメージ トークンで構成されます。
シーンベースの Transformer をトレーニングする前に、エンコードされた各トークン シーケンスは [テキスト、シーン、画像] タプルに対応し、対応するエンコーダーを使用して抽出されます。
さらに、著者らは、無条件サンプルを条件付きサンプルに誘導するプロセスである分類子なしのガイダンスも採用しました。
このモデルは SOTA の結果を達成します。以前の方法との比較を詳しく見てみましょう
研究者らはまた、Make-A-Scene を超解像度ネットワークを使用すると、2048x2048 と 4 倍の解像度の画像を生成できます。
は次のとおりです:
実際、他の生成 AI モデルと同様に、Make-A-Scene は何百万ものサンプル画像との関係をトレーニングすることで視覚を学習します。テキスト。
トレーニング データに反映されたバイアスがこれらのモデルの出力に影響を与える可能性があることは否定できません。
研究者らが指摘したように、Make-A-Scene にはまだ改善すべき点がたくさんあります。
以上がMeta の最新の画像生成ツールは、夢を現実に変えることができるため、非常に人気があります。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。