ホームページ  >  記事  >  テクノロジー周辺機器  >  第二世代 GAN ネットワークの台頭? DALL・E Miniのグラフィックが怖すぎて外国人が熱狂!

第二世代 GAN ネットワークの台頭? DALL・E Miniのグラフィックが怖すぎて外国人が熱狂!

WBOY
WBOY転載
2023-04-15 23:52:01623ブラウズ

現在、Google、OpenAI、その他の大手企業のテキストベースのグラフ モデルは、興味深いニュース記者にとっては糧であり、ミーム愛好家にとっては長きにわたる干ばつの蜜でもあります。言葉を入力することで、さまざまな美しい写真や面白い写真を生成でき、疲れたり面倒なことをせずに人々の注目を集めることができます。したがって、DALL・Eシリーズやイマージェンは、衣食住や長期干ばつといった必須特性を備えており、限られた範囲でしか利用できず、いつでも無制限に配布できる恩恵ではありません。 2022 年 6 月中旬、Hugging Face Company は、DALL・E インターフェースの使いやすくシンプルなバージョンである DALL・E Mini をネットワーク全体のすべてのユーザーに無料で完全に公開しました。さまざまなソーシャル メディア ウェブサイトのビッグ ニュース、作成トレンド。

第二世代 GAN ネットワークの台頭? DALL・E Miniのグラフィックが怖すぎて外国人が熱狂!

##DALL・E ミニ作成トレンド: 面白いか怖いか

最近、さまざまなソーシャルメディアで多くの人が言っています: DALL・E Mini をプレイすると、しばらくの間はとても気持ちいいですが、ずっと気持ちいいのですが、まったくやめられない場合はどうすればよいですか? 「スケートボードのうんち」のような、摩擦と摩擦、悪魔のペースのような。

第二世代 GAN ネットワークの台頭? DALL・E Miniのグラフィックが怖すぎて外国人が熱狂!

種の境界を打ち破る「コーギーゼブラ」のような、「普通の作品」を作るのが好きな人もいます。

第二世代 GAN ネットワークの台頭? DALL・E Miniのグラフィックが怖すぎて外国人が熱狂!

もし古代の公務員がこれらの資料を持っていたら、アフリカのキリンを幻獣キリンに変えるためにそれほど苦労する必要はなかったでしょう。 GitHub のプログラマーは自らの職業に忠実であり、生成された「コンピュータによるリスのプログラミング」の作品を公式 Twitter に投稿しました。

第二世代 GAN ネットワークの台頭? DALL・E Miniのグラフィックが怖すぎて外国人が熱狂!

「ゴジラの法廷スケッチ」は、本当に新聞や雑誌で見られるものとよく似ていると言わざるを得ません。英語圏、非公開のSketch形式の裁判報告。

第二世代 GAN ネットワークの台頭? DALL・E Miniのグラフィックが怖すぎて外国人が熱狂!

## 「ケアベアがコンビニ強盗をする。」漫画のアイドルはなぜこのように転落したのでしょうか? それはクマの性質の歪みですか、それとも道徳の喪失ですか...

第二世代 GAN ネットワークの台頭? DALL・E Miniのグラフィックが怖すぎて外国人が熱狂!

#さらに、DALL・E Miniは、「野生の道を歩いているときに捕獲された幻獣」の画像の生成でも優れた実績を持っています。これは「カメラに捉えられた、野生の道を歩く小さな恐竜」です。

第二世代 GAN ネットワークの台頭? DALL・E Miniのグラフィックが怖すぎて外国人が熱狂!

これは「Duolingo オウムのトレードマークが野生の道を歩いていて、カメラに捉えられました。」です。

第二世代 GAN ネットワークの台頭? DALL・E Miniのグラフィックが怖すぎて外国人が熱狂!

DALL・E Miniで生成された幻獣たちの歩く写真はとても孤独で、荒涼とした。しかし、これはAIによってシミュレートされた低照度撮影効果かもしれません。編集部のみんなも「草の上を歩き、道を泥馬で歩く」と真似して、どんどん明るい口調になっていきました。

第二世代 GAN ネットワークの台頭? DALL・E Miniのグラフィックが怖すぎて外国人が熱狂!

DALL・E Mini によって生成される神と人間のイメージは、神話上の獣のイメージに劣りません。たとえば、この「イエスの激しいブレイクダンス」の写真では、イエスの体がこれほど柔軟だったとは知りませんでしたが、さまざまなフィットネス Web サイトにある「主と一緒にストレッチ体操」の広告には理由があるようです。

第二世代 GAN ネットワークの台頭? DALL・E Miniのグラフィックが怖すぎて外国人が熱狂!

「ステンドグラスのラッパーGou Ye」もありますよね?本当に教会のアイコンウィンドウと印象派の絵画のスタイルを持っています。

第二世代 GAN ネットワークの台頭? DALL・E Miniのグラフィックが怖すぎて外国人が熱狂!

映画やテレビ業界では、DALL・E Mini を使用してキャラクターを演じるのが流行になっています。以下は、スターウォーズユニバースの「R2D2の洗礼」です。スター・ウォーズの世界では物理法則や化学法則が現実世界とは違うのか、ロボットは水にさらされても電気を漏らすことも錆びることもありません。

第二世代 GAN ネットワークの台頭? DALL・E Miniのグラフィックが怖すぎて外国人が熱狂!

こちらもスター・ウォーズの世界から、「ダース・ベイダーは氷と魚を切る」 ダース・ベイダーはとても良い先生です、ひどいです。師匠に切り倒され、火山の溶岩を浴びさせられ、障害者となって息子に追われ、人工呼吸器で力を会得した後、障害者は地上に還元されて競争するビジネスのためのエスキモーと...

第二世代 GAN ネットワークの台頭? DALL・E Miniのグラフィックが怖すぎて外国人が熱狂!

「ウォルター ホワイト」のこの写真もありますうっかりどうぶつの森の世界に入ってしまったら、ハゲで孤独で末期の麻薬王が突然可愛くなりました。任天堂が2000年代にどうぶつの森を本格的に発売しなかったのは残念だ。そうでなければ、青い氷の形をした物理的な商品を懸命に作るよりも、どうぶつの森の仮想取引を通じてお金を稼ぐほうがはるかに面倒でなく、問題がないことがわかっただろう。私の家族をサポートしてください。 「ポルノを拒否してください~麻薬を拒否してください~ポルノもギャンブルも麻薬も拒否してください~」を歌ってみましょう。

第二世代 GAN ネットワークの台頭? DALL・E Miniのグラフィックが怖すぎて外国人が熱狂!

「スーパーマーケットで母親を探しているサノス」のこの絵は、キャラクターの核心にぴったり合っていて、非常に印象的です。銀行のドラマ解釈のプロフェッショナル。 「不幸であれば大量虐殺を行い、反対すれば宇宙を破壊するでしょう。これは母親が見つからず激しく泣く巨大な赤ん坊の性格です。」

第二世代 GAN ネットワークの台頭? DALL・E Miniのグラフィックが怖すぎて外国人が熱狂!

ただし、これらの作品は、濃い味のケスに比べて、すべて薄味です。ルー愛好家の作品はただただ水っぽい。たとえば、この「イーロン・マスクがひび割れピエロを演じる」という絵はちょっと怖いです。

第二世代 GAN ネットワークの台頭? DALL・E Miniのグラフィックが怖すぎて外国人が熱狂!

「悪魔がバスケットボールをする」、この写真を見た後、編集者は本当に追いかけ続ける勇気がありませんでした。ストレンジャー・シングス』》このドラマ。

第二世代 GAN ネットワークの台頭? DALL・E Miniのグラフィックが怖すぎて外国人が熱狂!

作品には、このようなホラー映画のさまざまなシリーズの主人公も登場します。 「マスク・ジェイソンがブリトーを食べる」

第二世代 GAN ネットワークの台頭? DALL・E Miniのグラフィックが怖すぎて外国人が熱狂!

「エルムの悪夢」のこんな写真もありますストリート』『パスタを食べる』…このパターンはあまりにも恐ろしいので、DVD時代にこれらのホラー映画を見てパニックになるまで怖がっていたグリーンデイズを編集者が思い出させます。 ################################# ##############しかし、現代の大衆文学や芸術は、この絵「ゴヤのコミカエル」のような古典芸術よりも少し怖くない。油絵でフォトジェニックな「農耕神のトルマ」。 AI は現代の漫画と 19 世紀の表現主義の油絵を組み合わせたもので、初めて見る人は誰でも背筋に冷や汗を流して恐怖を感じるでしょう。

第二世代 GAN ネットワークの台頭? DALL・E Miniのグラフィックが怖すぎて外国人が熱狂!

「死神が黄金のアーチをクリックする」という絵もあります。将来的にはまだ仕事と学校に行くつもりです。遅いですか?

第二世代 GAN ネットワークの台頭? DALL・E Miniのグラフィックが怖すぎて外国人が熱狂!

デモのコードはわずか 60 行です。

もちろん、DALL・E シリーズのダイナミクスを注意して追っている読者は、DALL・E Mini と以前の DALL・E 大型モデルによって生成された画像に明らかな違いがあることに気づくでしょう。・E Mini で生成 ポートレートでは、DALL・E で生成されたものよりも顔がぼやけています。 DALL・E Mini プロジェクトの主な開発者である Boris Dayma 氏は、開発ノートの中で「これは仕様を削減した人に優しいバージョンです。デモには 60 行のコードしかなく、機能が弱いのは普通のことです」と説明しています。 。 第二世代 GAN ネットワークの台頭? DALL・E Miniのグラフィックが怖すぎて外国人が熱狂! 以下は、Boris Dayma のメモの中でのプロジェクトの説明です。まず、プロジェクトの具体的な実装を見てみましょう。テキストに基づいて対応する画像が生成されます:

簡単な文で言えば、以下は宇宙に向かって点滅するアボカドの肘掛け椅子です~ モデルは 3 つのデータ セットを使用します:

1. 300 万の画像とタイトルのペアを含む「概念的」キャプション データセット";

2. 「YFCC100M」の Open AI サブセットには約 1,500 万枚の画像が含まれていますが、ストレージ容量の都合上、作者は 200 万枚の画像をさらに処理してサンプリングしました。タイトルとテキストの説明をタグとして同時に使用し、対応する HTML タグ、改行、余分なスペースを削除します。

3. 1,200 万の画像とタイトルのペアを含む「Conceptual 12M」。

トレーニング フェーズ:

1. まず、画像をトークン シーケンスに変換する目的で、画像が VQGAN エンコーダーによってエンコードされます;

2 . 画像に対応するテキスト 説明は BART エンコーダによってエンコードされます;

3. BART エンコーダの出力と VQGAN エンコーダによってエンコードされたシーケンス トークンが一緒に BART デコーダに送信されます。デコーダは自己回帰モデルです。目的は次のトークン シーケンスを予測することです。

4. 損失関数はクロスエントロピー損失であり、モデルによって予測された画像符号化結果間の損失値を計算するために使用されます。 VQGAN 実画像コーディング。

第二世代 GAN ネットワークの台頭? DALL・E Miniのグラフィックが怖すぎて外国人が熱狂!

推論段階では、作成者は短いタグのみを使用し、それに対応する画像を生成しようとしました。具体的なプロセスは次のとおりです:

1. タグBART エンコーダを介してエンコードします;

2. 特別な役割を果たすシーケンス フラグ (開始フラグ) が BART デコーダに送信されます;

3. BART に基づく次のトークンでデコーダによって予測される分布、画像トークンは順番にサンプリングされます;

4. 画像トークンのシーケンスは、デコードのために VQGAN デコーダに送信されます;

5 . 最後に、「CLIP」が最適な生成結果を選択します。

第二世代 GAN ネットワークの台頭? DALL・E Miniのグラフィックが怖すぎて外国人が熱狂!

次に、VQGAN 画像エンコーダーとデコーダーがどのように機能するかを見てみましょう。 Transformer モデルは誰もがよく知っているはずですが、その誕生以来、NLP 分野だけでなく、CV 分野の畳み込み CNN ネットワークも席巻してきました。 VQGAN を使用する作者の目的は、画像を離散トークン シーケンスにエンコードし、Transformer モデルで直接使用できるようにすることです。ピクセル値シーケンスの使用により、離散値の埋め込みスペースが大きすぎ、最終的にはモデルをトレーニングしてセルフアテンション層のメモリ要件を満たすことが非常に困難になります。

VQGAN は、知覚損失と GAN の識別損失を組み合わせてピクセルの「コードブック」を学習します。エンコーダは「コードブック」に対応するインデックス値を出力します。画像はトークン シーケンスにエンコードされるため、任意の Transformer モデルで使用できます。このモデルでは、作成者は、f=16 の圧縮係数 (4 つのブロックの幅と高さをそれぞれ 2 で割る) を使用して、サイズ 16,384 の語彙からの画像を「16x16=256」の離散トークンにエンコードします。デコードされた画像は 256x256 (各辺 16x16) です。 VQGAN についてさらに詳しく理解するには、「高解像度画像合成のためのトランスフォーマーの飼いならし」を参照してください。

第二世代 GAN ネットワークの台頭? DALL・E Miniのグラフィックが怖すぎて外国人が熱狂!

Seq2Seq モデルは、1 つのトークン シーケンスを別のトークン シーケンスに変換し、通常は NLP で翻訳、要約、会話モデリングなどのタスクに使用されます。画像が個別のトークンにエンコードされている場合、同じ考え方を CV フィールドにも適用できます。このモデルは BART を使用しており、作成者は元のアーキテクチャを微調整しただけです:

1. エンコーダーとデコーダー用に独立した埋め込み層を作成します (同じタイプの入力と出力がある場合、通常は両方とも可能です)共有);

2. デコーダーの入力と出力の形状を調整して、VQGAN のサイズと一致するようにします (このステップでは中間の埋め込み層は必要ありません);

3. 強制生成されたシーケンスには 256 個のトークンがあります (シーケンスの開始マークと終了マークとして使用される はここには含まれていません)。

第二世代 GAN ネットワークの台頭? DALL・E Miniのグラフィックが怖すぎて外国人が熱狂!

CLIP は、画像とテキストの関係を確立するために使用され、画像とテキストのペアの埋め込み度の間の積 (コサイン類似度) の最大化などの対照学習を使用してトレーニングされます。は、正のサンプル間の積です)と、非相関ペア(つまり、負のサンプル)を最小化します。画像を生成するとき、作成者はモデルのロジット分布に従って画像ラベルをランダムにサンプリングします。その結果、サンプルが異なり、生成される画像の品質が一貫していません。 CLIP では、入力された説明に基づいて生成された画像をスコアリングできるため、生成された最良のサンプルが選択されます。推論フェーズでは、OpenAI の事前トレーニングされたバージョンが直接使用されます。

第二世代 GAN ネットワークの台頭? DALL・E Miniのグラフィックが怖すぎて外国人が熱狂!

それでは、CLIP は OpenAI DALL·E とどう違うのでしょうか? DAL の詳細はすべて一般に知られているわけではありませんが、著者の見解では主なものは次のとおりです。違い: ###

1. DALL・E は GPT-3 の 120 億パラメータ バージョンを使用します。比較すると、著者のモデルは 27 倍大きく、約 4 億個のパラメータがあります。

2. 著者は事前トレーニング済みモデル (VQGAN、BART エンコーダー、CLIP) を広範囲に利用していますが、OpenAI はすべてのモデルを最初からトレーニングする必要があります。モデル アーキテクチャでは、利用可能な事前トレーニング済みモデルとその効率が考慮されています。

3. DALL·E は、より少ない語彙 (8,192 VS 16,384) からのより多くのトークン (1,024 VS 256) を使用して画像をエンコードします。

4. DALL・E は VQVAE を使用していますが、著者は VQGAN を使用しています。 DALL・E は、作成者が Seq2Seq エンコーダとデコーダの間で分割している場合、テキストと画像を単一のデータ ストリームとして読み取ります。これにより、テキストと画像に別々の語彙を使用することもできます。

5. DALL・E は自己回帰モデルを通じてテキストを読み取りますが、作成者は双方向エンコーダーを使用します。

6. DALL・E は 2 億 5,000 万の画像とテキストのペアをトレーニングしましたが、著者は 1,500 万のペアのみを使用しました。の。

7. DALL·E は、テキストをエンコードするためにより少ないトークン (最大 256 VS 1024) とより少ない語彙 (16384 VS 50264) を使用します。 VQGAN のトレーニングでは、著者はまず、圧縮率 f=16、語彙サイズ 16,384 で、ImageNet 上の事前トレーニング済みチェックポイントから開始しました。広範囲の画像をエンコードする場合は非常に効率的ですが、事前トレーニングされたチェックポイントは人物と顔のエンコードが苦手 (ImageNet ではどちらも一般的ではないため)。そのため、作成者は 2 x RTX A6000 クラウド インスタンスでエンコードすることにしました。微調整に約20時間。生成される人物の顔画像の品質があまり向上していないのは明らかで、「モデル崩壊」している可能性があります。モデルがトレーニングされたら、次の段階で使用できるように Pytorch モデルを JAX に変換します。

第二世代 GAN ネットワークの台頭? DALL・E Miniのグラフィックが怖すぎて外国人が熱狂!

トレーニングDALL・E Mini:TPUの利点を活かしたJAXプログラミングを採用したモデルです。作成者は、データの読み込みを高速化するために、すべての画像を画像エンコーダで事前にエンコードします。トレーニング中に、作成者はいくつかのほぼ実現可能なパラメータをすぐに決定しました:

1. 各ステップで、各 TPU のバッチサイズ サイズは 56 で、これは各 TPU で利用可能な最大メモリです;

2. 勾配累積: 有効なバッチサイズ サイズは 56 × 8 TPU チップ × 8 ステップ = 毎回更新される 3,584 枚の画像です;

3. オプティマイザー Adafactor のメモリ効率により、より高いバッチサイズを使用できます;

###4、2000ステップの「ウォームアップ」と直線的に減衰する学習率。著者は、ハイパーパラメータ検索を開始して、モデルの適切な学習率を見つけるのにほぼ半日を費やしました。すべての NB モデルの背後には、おそらくハイパーパラメータを見つけるという骨の折れるプロセスがあるでしょう。著者の最初の調査の後、最終的に 0.005 に落ち着くまで、長期間にわたっていくつかの異なる学習率が試行されました。

第二世代 GAN ネットワークの台頭? DALL・E Miniのグラフィックが怖すぎて外国人が熱狂! 第二世代 GAN ネットワークの台頭? DALL・E Miniのグラフィックが怖すぎて外国人が熱狂!第二世代 GAN ネットワークの台頭? DALL・E Miniのグラフィックが怖すぎて外国人が熱狂!

以上が第二世代 GAN ネットワークの台頭? DALL・E Miniのグラフィックが怖すぎて外国人が熱狂!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。