ホームページ  >  記事  >  テクノロジー周辺機器  >  生成 AI の 5 つの主要モデル: VAE、GAN、Diffusion、Transformers、NeRF

生成 AI の 5 つの主要モデル: VAE、GAN、Diffusion、Transformers、NeRF

PHPz
PHPz転載
2023-11-20 17:30:473313ブラウズ

タスクに適切な GenAI モデルを選択するには、各モデルで使用されるテクノロジーとその特定の機能を理解する必要があります。以下の VAE、GAN、Diffusion、Transformers、NerF の 5 つの GenAI モデルについて学習してください。

生成 AI の 5 つの主要モデル: VAE、GAN、Diffusion、Transformers、NeRF

これまで、ほとんどの AI モデルは、データの処理、分析、解釈の改善に焦点を当てていました。最近まで、いわゆる生成ニューラル ネットワーク モデルの進歩により、写真や絵画から詩、コード、脚本、映画に至るまで、あらゆる種類のコンテンツを作成するためのさまざまな新しいツールが誕生しました。

トップ AI 生成モデルの概要

2010 年代半ば、研究者たちは、人工知能生成モデルの新たな可能性を発見しました。当時、彼らは変分オートエンコーダー (VAE)、敵対的生成ネットワーク (GAN)、拡散モデル (Diffusion) を開発しました。 2017 年に導入されたトランスフォーマーは、大規模なデータセットを大規模に分析して大規模言語モデル (LLM) を自動的に作成できる画期的なニューラル ネットワークです。 2020 年、研究者らは 3D 画像から 2D コンテンツを生成できる Neural Radiation Field (NeRF) テクノロジーを導入しました。大幅な改善につながり、目覚ましい進歩が衰えることはありません。ホワイト教授はカリフォルニア大学バークレー校で次のように述べています。「モデル アーキテクチャは常に変化しており、新しいモデル アーキテクチャは開発され続けます。」

各モデルには特別な機能があり、現在、 、拡散 モデル (Diffusion) は画像およびビデオ合成の分野で非常に優れたパフォーマンスを発揮し、Transformers モデル (Transformers) はテキストの分野で優れたパフォーマンスを発揮し、GAN は合理的な合成サンプルで小さなデータセットを拡張することに優れています。ただし、最適なモデルの選択は常に特定の使用例に依存します。

すべてのモデルは異なるため、AI 研究者と ML (機械学習) エンジニアは、コンピューティングでのモデルの使用を考慮して、適切なユースケースと必要なパフォーマンスに応じて適切なモデルを選択する必要があります。メモリと資本の制限。

特にコンバータ モデルは、生成モデルの最近の進歩と興奮に貢献しています。 UST デジタル トランスフォーメーション コンサルティングのチーフ人工知能アーキテクト、アドナン マスード氏は次のように述べています。「人工知能モデルの最新の進歩は、大量のデータでの事前トレーニングと、明示的なラベルを付けずにモデルをトレーニングする自己教師あり学習の使用によってもたらされます。」

たとえば、OpenAI の生成事前トレーニング コンバーター モデル ファミリは、このカテゴリで最大かつ最も強力なモデルの 1 つです。その中で、GPT-3 モデルには 175 億個のパラメーターが含まれています

トップ生成 AI モデルの主な用途

Masood 氏は、トップ生成 AI モデルについて次のように説明しました。モデルは、さまざまな技術や方法を使用して、まったく新しいデータを生成します。これらのモデルの主な機能と用途は次のとおりです。

VAE は、エンコーダ/デコーダ アーキテクチャを使用して、次のような画像やビデオの生成によく使用される新しいデータを生成します。プライバシー保護のための合成顔。

  • GAN はジェネレーターとディスクリミネーターを使用して新しいデータを生成し、ビデオ ゲーム開発でリアルなゲーム キャラクターを作成するためによく使用されます。
  • 拡散では、ノイズを追加して除去して、高レベルの詳細を備えた高品質の画像を生成し、自然の風景の本物に近い画像を作成します。
  • #Transformer は、機械翻訳、テキスト要約、画像作成のために連続データを効率的に並列処理します。
  • NeRF は、ニューラル表現を使用した 3D シーン再構築への新しいアプローチを提供します。
  • #各方法を詳しく見てみましょう。
  • #VAE

VAE は、ニューラル ネットワークを使用してデータをより効率的にエンコードするために 2014 年に開発されました

## Sisense の AI 責任者である # Yael Lev 氏は、人工知能分析プラットフォーム VAE は情報をより効果的に表現することを学習したと述べました。 VAE は、データを圧縮するエンコーダーと、データを元の形式に復元するデコーダーの 2 つの部分で構成されます。これらは、小さな情報から新しいインスタンスを生成したり、ノイズの多い画像やデータを修復したり、データ内の異常な内容を検出したり、欠落している情報を埋めたりするのに最適です。

ただし、UST の Masood 氏によると、変分オートエンコーダ (VAE) はぼやけた画像や低品質の画像を生成する傾向もあります。もう 1 つの問題は、データ構造をキャプチャするために使用される低次元の潜在空間が複雑で困難であることです。これらの欠点により、高品質の画像や潜在空間の明確な理解を必要とするアプリケーションにおける VAE の有効性が制限される可能性があります。 VAE の次の反復では、生成されたデータの品質の向上、トレーニングの高速化、シーケンス データ

生成 AI の 5 つの主要モデル: VAE、GAN、Diffusion、Transformers、NeRF

GANs # への適用性の検討に重点が置かれる可能性があります。

##GAN は 2014 年に開発され、リアルな顔を生成したり、図形を印刷したりするために使用されます。 GAN は、本物のコンテンツを生成するニューラル ネットワークと、偽のコンテンツを検出するニューラル ネットワークを戦わせます。 PwC のグローバル AI リーダーであるアナンド・ラオ氏は、「2 つのネットワークが徐々に統合され、元のデータと区別できない生成画像が生成されます。」と述べています。画像編集、超解像度、データ強化、スタイル転送、音楽生成、ディープフェイク作成。 GAN の問題の 1 つは、ジェネレーターが限定的かつ反復的な出力を生成するため、トレーニングが困難になるモード崩壊が発生する可能性があることです。 Masood氏は、次世代GANはトレーニングプロセスの安定性と収束性の向上、他の分野への適用性の拡大、より効果的な評価指標の開発に重点を置くと述べた。 GAN は最適化や安定化も難しく、生成されるサンプルを明確に制御することはできません。

拡散

生成 AI の 5 つの主要モデル: VAE、GAN、Diffusion、Transformers、NeRF

拡散モデルは、スタンフォード大学の研究チームによって 2015 年に開発されました。エントロピーとノイズのシミュレーションと反転用。拡散技術は、塩などの物質が液体にどのように拡散し、それを逆転させるかなどの現象をシミュレートする方法を提供します。この同じモデルは、空白の画像から新しいコンテンツを生成するのにも役立ちます。

拡散モデルは現在、画像生成の最初の選択肢であり、Dall-E 2、Stable Diffusion、Midjourney、Imagen などの人気のある画像生成サービスの基本モデルです。これらは、音声、ビデオ、および 3D コンテンツを生成するパイプラインでも使用されます。さらに、拡散技術はデータ補完に使用でき、欠落データが予測および生成されるため、多くのアプリケーションでは拡散モデルと LLM を組み合わせて、テキストから画像またはテキストからビデオを生成します。たとえば、Stable Diffusion 2 は、対照的な言語と画像の事前トレーニング済みモデルをテキスト エンコーダーとして使用し、深さとアップスケーリングのためのモデルも追加します。

Masood 氏は、安定した拡散などのモデルのさらなる改善は、ネガティブな手がかりの改善、特定のアーティストのスタイルで画像を生成する能力の強化、有名人の画像の改善に重点が置かれる可能性があると予測しています。

Transformers

Transformer モデルは、言語翻訳を改善するために、Google Brain のチームによって 2017 年に開発されました。これらのモデルは、さまざまな順序で情報を処理するのに適しており、データを並行して処理しながら、ラベルのないデータを活用して大規模なモデルに拡張することもできます

書き換えられた内容: これらの手法は、以下に適用できます。テキスト要約、チャットボット、レコメンデーション エンジン、言語翻訳、ナレッジ ベース、パーソナライズされたレコメンデーション (好みモデルによる)、感情分析、人、場所、物を識別するための固有表現認識。さらに、OpenAI の Whisper テクノロジーなどの音声認識、ビデオや画像内のオブジェクト検出、画像キャプション、テキスト分類、ダイアログ生成などの分野でも使用できます。 #とはいえTransformers は多用途ですが、制限もあります。トレーニングには費用がかかり、大規模なデータセットが必要になる場合があります。結果として得られるモデルも非常に大きいため、バイアスの原因や不正確な結果を特定することが困難になります。 「また、その複雑さにより、その内部動作を説明することが困難になり、解釈可能性と透明性が妨げられます」とマスード氏は述べています。

NeRF

NeRF は、ライト フィールドの 3D 表現をニューラル ネットワークに取り込むために 2020 年に開発されました。最初の実装は非常に時間がかかり、数日かかりました。最初の 3D 画像を取り込むには数日かかりました。 .

しかし、2022 年に Nvidia の研究者は、新しいモデルを約 30 秒で生成する方法を発見しました。これらのモデルは、他のテクノロジがギガバイトを必要とする場合がある一方で、同等の品質で数メガバイトの単位で 3D オブジェクトを表現できます。これらのモデルは、メタバースで 3D オブジェクトをキャプチャおよび生成するためのより効率的な手法につながることが期待されます。 Nvidiaのリサーチディレクターであるアレクサンダー・ケラー氏は、NeRFは最終的には現代の写真にとってデジタルカメラが重要であるのと同じように、3Dグラフィックスにとって重要になる可能性があると述べ、マスード氏はNeRFはロボット工学、都市地図作成、自律ナビゲーション、仮想現実アプリケーションにおいて大きな可能性を示していると述べた。ただし、NERF は依然として計算コストが高く、複数の NERF をより大きなシーンに結合することは困難であり、現在 NeRF で実行可能な唯一の使用例は、画像を 3D オブジェクトまたはシーンに変換することです。これらの制限にもかかわらず、Masood 氏は、NeRF は、GenAI エコシステム内のノイズ除去、ブレ除去、アップサンプリング、圧縮、画像編集などの基本的な画像処理タスクで新たな役割を見つけるだろうと予測しています。研究者たちは、個々のモデルを改善し、他のモデルや処理技術と組み合わせる方法を模索しています。 Lev 氏は、生成モデルがより一般的になり、アプリケーションが従来の領域を超えて拡張され、ユーザーが AI モデルをより効果的にガイドし、AI モデルがどのようにより適切に機能するかを理解できるようになると予測しています。

取得メソッドを使用して特定のタスクに最適化されたモデル ライブラリを呼び出すマルチモーダル モデルに関する作業も進行中です。同氏はまた、生成モデルが API 呼び出しや外部ツールの使用など、他の機能も開発できるようになることを期待しています。たとえば、同社のコールセンターの知識に基づいて微調整された LLM は、質問に対する回答を提供し、トラブルシューティングを実行します。顧客のモデムをリセットするとき、または問題が解決したときに電子メールを送信します。

実際、将来的には、今日の一般的なモデル アーキテクチャに代わる、より効率的なものが登場する可能性があります。ホワイト氏は、「新しいアーキテクチャが登場すると、拡散モデルやトランスフォーマーモデルは役に立たなくなるかもしれない。自然言語アプリケーションへのアプローチが長期・短期記憶アルゴリズムやリカレントニューラルに役立たなかったため、拡散の導入でこれがわかった」と述べた。 (RNN)

一部の人々は、生成 AI エコシステムが 3 層モデルに進化すると予測しています。基本レイヤーは、テキスト、画像、音声、コードに基づく一連の基本モデルであり、これらのモデルは大量のデータを取り込み、人間の判断と組み合わせた大規模な深層学習モデルに基づいて構築されています。次に、業界および機能に特化したドメイン モデルにより、医療、法律、その他の種類のデータ処理が改善されます。トップレベルでは、企業は独自のデータと主題の専門知識を使用して独自のモデルを構築します。これら 3 つのレイヤーは、チームがモデルを開発する方法を破壊し、サービスとしてのモデルの新時代をもたらします#生成 AI モデルの選択方法: 最初の考慮事項

Sisense の Lev 氏によると、モデルを選択する際の主な考慮事項は次のとおりです。

解決しようとしている問題。

特定のタスクに適していることがわかっているモデルを選択してください。たとえば、言語タスクにはトランスフォーマーを使用し、3D シーンには NeRF を使用します。

データの量と質。

Diffusion が適切に動作するには大量の良質なデータが必要ですが、VAE はデータが少ないほど良好に動作します。

#結果の品質。 GAN は鮮明で詳細な画像に適しており、VAE はより滑らかな結果に優れています。

モデルをトレーニングすることの難しさ。 GAN はトレーニングが難しい場合がありますが、VAE と Diffusion は簡単です。

コンピューティング リソースの要件。 NeRF と Diffusion が正しく動作するには、多くのコンピュータ能力が必要です。

#コントロールと理解が必要です。

結果をより詳細に制御したい場合、またはモデルの動作をより深く理解したい場合は、GAN よりも VAE の方が適している可能性があります。

以上が生成 AI の 5 つの主要モデル: VAE、GAN、Diffusion、Transformers、NeRFの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。