ホームページ  >  記事  >  テクノロジー周辺機器  >  カリフォルニア大学バークレー校 Google が LLM を革新し、端末普及モデルを実装し、それを IGN に使用して 1 ステップでリアルな画像を生成、アメリカの TV シリーズがインスピレーションの源となる

カリフォルニア大学バークレー校 Google が LLM を革新し、端末普及モデルを実装し、それを IGN に使用して 1 ステップでリアルな画像を生成、アメリカの TV シリーズがインスピレーションの源となる

WBOY
WBOY転載
2023-11-14 08:30:091181ブラウズ

半空で流行った普及型は淘汰される?

現在、GAN、拡散モデル、整合性モデルなどの生成型 AI モデルは、対象となるデータ分布に応じて入力と出力をマッピングすることで画像を生成します。 :

通常、この種のモデルは多くの実際の画像を学習する必要があり、生成された画像の実際の特徴を確認しようとします。

最近、カリフォルニア大学バークレー校と Google の研究者は、新世代モデルであるインポテント生成ネットワーク (IGN) を提案しました。書き換える必要がある内容は次のとおりです:

カリフォルニア大学バークレー校 Google が LLM を革新し、端末普及モデルを実装し、それを IGN に使用して 1 ステップでリアルな画像を生成、アメリカの TV シリーズがインスピレーションの源となる 写真

紙のアドレス: https://arxiv.org/abs/2311.01462

IGN は次のことができます。ランダム ノイズ、単純なグラフィックスなどのさまざまな入力から選択すると、複数ステップの反復を必要とせず、単一ステップでリアルな画像が生成されます。 #このモデルの目標は、「グローバル プロジェクター」は、任意の入力データをターゲット データ分布にマッピングできることです。書き換える必要がある内容は次のとおりです:

つまり、普遍的な画像生成モデルは将来必ず使用されます。書き直す必要があるのは次のとおりです:

興味深いことに、「サインフェルド」の非常に効果的なシーンが実際に作者のインスピレーションの源となっています。書き直す必要があるのは次のとおりです。

Picture

カリフォルニア大学バークレー校 Google が LLM を革新し、端末普及モデルを実装し、それを IGN に使用して 1 ステップでリアルな画像を生成、アメリカの TV シリーズがインスピレーションの源となるこのシーンは、「冪等演算子」の概念をよく要約しています。操作中、同じ入力を繰り返し操作すると結果は常に同じになります、書き換える必要がある内容は

## つまり ## です。

#写真

書き直す必要がある内容は次のとおりです:カリフォルニア大学バークレー校 Google が LLM を革新し、端末普及モデルを実装し、それを IGN に使用して 1 ステップでリアルな画像を生成、アメリカの TV シリーズがインスピレーションの源となるジェリー・サインフェルドがユーモアを交えて指摘したように、いくつかの現実の行動再書き込みが必要な冪等のコンテンツは次のとおりです:

Impotent Generating Network

IGN には GAN および拡散モデルとの 2 つの重要な違いがあります:

#- GAN とは異なり、IGN は個別の生成器と識別器を必要とせず、「自己対決」モデルであり、生成と識別を同時に完了するために書き換える必要がある内容は次のとおりです。

- 増分ステップを実行する拡散モデルとは異なり、IGN は 1 つのステップで入力をデータ分布にマッピングしようとします。書き換える必要があるのは次のとおりです:

IGN (冪等生成モデル) の起源は何ですか?

ソース分布からのものになるようにトレーニングされます。

入力サンプルのターゲット分布が与えられると、生成されるサンプルを書き直す必要がある 内容は次のとおりです:

サンプル データ セットを考慮すると、各例は次から取得されます 内容は次のとおりです: その後、研究者はトレーニングを受けました。モデル カリフォルニア大学バークレー校 Google が LLM を革新し、端末普及モデルを実装し、それを IGN に使用して 1 ステップでリアルな画像を生成、アメリカの TV シリーズがインスピレーションの源となるカリフォルニア大学バークレー校 Google が LLM を革新し、端末普及モデルを実装し、それを IGN に使用して 1 ステップでリアルな画像を生成、アメリカの TV シリーズがインスピレーションの源となる にマッピングします。書き換える必要がある内容は次のとおりです:

ディストリビューション カリフォルニア大学バークレー校 Google が LLM を革新し、端末普及モデルを実装し、それを IGN に使用して 1 ステップでリアルな画像を生成、アメリカの TV シリーズがインスピレーションの源となるカリフォルニア大学バークレー校 Google が LLM を革新し、端末普及モデルを実装し、それを IGN に使用して 1 ステップでリアルな画像を生成、アメリカの TV シリーズがインスピレーションの源となる が同じ空間にある、つまり、それらのインスタンスのディメンションが同じであると仮定します。 : これにより、 カリフォルニア大学バークレー校 Google が LLM を革新し、端末普及モデルを実装し、それを IGN に使用して 1 ステップでリアルな画像を生成、アメリカの TV シリーズがインスピレーションの源となる 2 種類のインスタンス カリフォルニア大学バークレー校 Google が LLM を革新し、端末普及モデルを実装し、それを IGN に使用して 1 ステップでリアルな画像を生成、アメリカの TV シリーズがインスピレーションの源となるカリフォルニア大学バークレー校 Google が LLM を革新し、端末普及モデルを実装し、それを IGN に使用して 1 ステップでリアルな画像を生成、アメリカの TV シリーズがインスピレーションの源となる に適用されます。書き換える必要がある内容は次のとおりです:

図は、IGN の背後にある基本的な考え方を示しています。実際の例 (x) はモデル fカリフォルニア大学バークレー校 Google が LLM を革新し、端末普及モデルを実装し、それを IGN に使用して 1 ステップでリアルな画像を生成、アメリカの TV シリーズがインスピレーションの源となる 書き換える必要がある内容は次のとおりです。他の入力 (z) ) は f にマッピングされます。 カリフォルニア大学バークレー校 Google が LLM を革新し、端末普及モデルを実装し、それを IGN に使用して 1 ステップでリアルな画像を生成、アメリカの TV シリーズがインスピレーションの源となる を最適化することにより、それ自体にマッピングされたインスタンス ストリーム上で書き換える必要があるコンテンツは次のとおりです:

カリフォルニア大学バークレー校 Google が LLM を革新し、端末普及モデルを実装し、それを IGN に使用して 1 ステップでリアルな画像を生成、アメリカの TV シリーズがインスピレーションの源となるPicture

IGN トレーニング ルーチンの書き換えが必要な PyTorch コード例は次のとおりです:

カリフォルニア大学バークレー校 Google が LLM を革新し、端末普及モデルを実装し、それを IGN に使用して 1 ステップでリアルな画像を生成、アメリカの TV シリーズがインスピレーションの源となる写真##実験結果

IGN を取得した後の効果は何ですか?

#作者は、現段階では IGN で生成された結果が最先端のモデルと競合できないことを認めています。書き直す必要がある内容は次のとおりです:

At 実験では、より小さなモデルと低解像度のデータセットが使用され、探索の主な焦点は簡略化された手法にありました。書き直す必要がある内容は次のとおりです:

もちろん、GAN や拡散モデルなどの基本世代のモデリング技術も、成熟した大規模なパフォーマンスを実現するまでに長い時間がかかりました。

#実験設定

研究者らは、28×28 および 64 の画像解像度を使用して、MNIST (グレースケールの手書き数字データセット) と CelebA (顔画像データセット) で IGN を評価しました。

著者は単純なオートエンコーダ アーキテクチャを使用しており、エンコーダは DCGAN の単純な 5 層識別器バックボーンであり、デコーダはジェネレータです。書き換える必要がある内容は次のとおりです。トレーニングおよびネットワークのハイパーパラメータを表 1 に示します。書き換える必要がある内容は次のとおりです。

Picture

カリフォルニア大学バークレー校 Google が LLM を革新し、端末普及モデルを実装し、それを IGN に使用して 1 ステップでリアルな画像を生成、アメリカの TV シリーズがインスピレーションの源となる結果の生成

図 4 は、モデルを 1 回と 2 回連続して適用した後の 2 つのデータ セットの定性的な結果を示しています。

示されているように、IGN を 1 回適用すると (f (z))、コヒーレントな生成結果が生成されます。書き換える必要があるのは次のとおりです: ただし、穴などのアーティファクトが発生する可能性があります。 MNIST の数字、または顔画像の頭頂部。髪と頭髪の歪んだピクセルは書き換える必要があります。

f (f (f (z))) を再度適用すると、これらの問題を修正し、穴を埋めるか、フェイシャル ノイズ パッチを軽減します。書き直す必要がある部分の全体的な変更は次のとおりです。

#図

カリフォルニア大学バークレー校 Google が LLM を革新し、端末普及モデルを実装し、それを IGN に使用して 1 ステップでリアルな画像を生成、アメリカの TV シリーズがインスピレーションの源となる# # 図 7 は、f を 3 回適用した追加の結果を示しています。その結果、書き換える必要がある内容は次のとおりです。

カリフォルニア大学バークレー校 Google が LLM を革新し、端末普及モデルを実装し、それを IGN に使用して 1 ステップでリアルな画像を生成、アメリカの TV シリーズがインスピレーションの源となるPicture

カリフォルニア大学バークレー校 Google が LLM を革新し、端末普及モデルを実装し、それを IGN に使用して 1 ステップでリアルな画像を生成、アメリカの TV シリーズがインスピレーションの源となる## と カリフォルニア大学バークレー校 Google が LLM を革新し、端末普及モデルを実装し、それを IGN に使用して 1 ステップでリアルな画像を生成、アメリカの TV シリーズがインスピレーションの源となる を比較すると、画像が学習された多様体 の場合、 f を再度適用すると、画像が分散されていると見なされるため、最小限の変更が行われます。書き換える必要があるのは次のとおりです:

潜在空間操作

著者は、GAN で示されたものと同様に、IGN が一貫した潜在空間を持つことを操作を実行することによって証明しました。図 6 は、潜在空間アルゴリズムを次のように書き直す必要があることを示しています。

写真

カリフォルニア大学バークレー校 Google が LLM を革新し、端末普及モデルを実装し、それを IGN に使用して 1 ステップでリアルな画像を生成、アメリカの TV シリーズがインスピレーションの源となる分布外マッピング

作者も検証しましたさまざまなディストリビューションからのデータを変換することで、画像がモデルに入力され、同等の「自然画像」が生成され、IGN の「グローバル マッピング」の可能性が検証されます。書き換える必要がある内容は次のとおりです:

#研究者らは、これを証明するために、ノイズのある画像 x n 個のノイズ除去を行い、グレースケール画像を色付けし、

、スケッチを図 5 の実際の画像に変換しました。書き換える必要がある点は次のとおりです: カリフォルニア大学バークレー校 Google が LLM を革新し、端末普及モデルを実装し、それを IGN に使用して 1 ステップでリアルな画像を生成、アメリカの TV シリーズがインスピレーションの源となる 元の画像 x、これらの逆タスクは適切に設定されていません。書き直す必要があるのは次のとおりです: IGN は元の画像に準拠した自然なマッピングを作成できますカリフォルニア大学バークレー校 Google が LLM を革新し、端末普及モデルを実装し、それを IGN に使用して 1 ステップでリアルな画像を生成、アメリカの TV シリーズがインスピレーションの源となる示されているように、f を継続的に適用すると画質が向上します (たとえば、投影されたスケッチの暗いアーティファクトや煙のアーティファクトが除去されます)。

写真

次は Google ですか?

カリフォルニア大学バークレー校 Google が LLM を革新し、端末普及モデルを実装し、それを IGN に使用して 1 ステップでリアルな画像を生成、アメリカの TV シリーズがインスピレーションの源となる 上記の結果から、IGN は推論においてより効果的であり、トレーニング後の 1 ステップで結果を生成できることがわかります。書き換える必要がある内容は次のとおりです:

より一貫性のある結果を出力することもでき、医療画像修復などのより多くのアプリケーションに拡張できる可能性があります。書き換える必要がある内容は次のとおりです:

私たちは、この研究を、任意の入力をターゲット分布にマッピングすることを学習するモデル、つまり生成モデリングの新しいパラダイムに向けた最初のステップと見なしています。

次に、研究チームは、より多くのデータを使用して IGN の規模を拡大し、新しい生成 AI モデルの可能性を最大限に活用することを計画しています。書き換えが必要な内容:

最新の研究コードは今後 GitHub で公開されます。書き換えが必要な内容は:

参考文献:

##https://www.php.cn/link/2bd388f731f26312bfc0fe30da009595

https://www .php.cn/link/e1e4e65fddf79af60aab04457a6565a6

以上がカリフォルニア大学バークレー校 Google が LLM を革新し、端末普及モデルを実装し、それを IGN に使用して 1 ステップでリアルな画像を生成、アメリカの TV シリーズがインスピレーションの源となるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。