ホームページ > 記事 > テクノロジー周辺機器 > 生成 AI の 5 つの主要モデル: VAE、GAN、Diffusion、Transformers、NeRF
タスクに適切な GenAI モデルを選択するには、各モデルで使用されるテクノロジーとその特定の機能を理解する必要があります。以下の VAE、GAN、Diffusion、Transformers、NerF の 5 つの GenAI モデルについて学習してください。
これまで、ほとんどの AI モデルは、データの処理、分析、解釈の改善に焦点を当てていました。最近まで、いわゆる生成ニューラル ネットワーク モデルの進歩により、写真や絵画から詩、コード、脚本、映画に至るまで、あらゆる種類のコンテンツを作成するためのさまざまな新しいツールが誕生しました。
2010 年代半ば、研究者たちは、人工知能生成モデルの新たな可能性を発見しました。当時、彼らは変分オートエンコーダー (VAE)、敵対的生成ネットワーク (GAN)、拡散モデル (Diffusion) を開発しました。 2017 年に導入されたトランスフォーマーは、大規模なデータセットを大規模に分析して大規模言語モデル (LLM) を自動的に作成できる画期的なニューラル ネットワークです。 2020 年、研究者らは 3D 画像から 2D コンテンツを生成できる Neural Radiation Field (NeRF) テクノロジーを導入しました。大幅な改善につながり、目覚ましい進歩が衰えることはありません。ホワイト教授はカリフォルニア大学バークレー校で次のように述べています。「モデル アーキテクチャは常に変化しており、新しいモデル アーキテクチャは開発され続けます。」
各モデルには特別な機能があり、現在、 、拡散 モデル (Diffusion) は画像およびビデオ合成の分野で非常に優れたパフォーマンスを発揮し、Transformers モデル (Transformers) はテキストの分野で優れたパフォーマンスを発揮し、GAN は合理的な合成サンプルで小さなデータセットを拡張することに優れています。ただし、最適なモデルの選択は常に特定の使用例に依存します。
すべてのモデルは異なるため、AI 研究者と ML (機械学習) エンジニアは、コンピューティングでのモデルの使用を考慮して、適切なユースケースと必要なパフォーマンスに応じて適切なモデルを選択する必要があります。メモリと資本の制限。
特にコンバータ モデルは、生成モデルの最近の進歩と興奮に貢献しています。 UST デジタル トランスフォーメーション コンサルティングのチーフ人工知能アーキテクト、アドナン マスード氏は次のように述べています。「人工知能モデルの最新の進歩は、大量のデータでの事前トレーニングと、明示的なラベルを付けずにモデルをトレーニングする自己教師あり学習の使用によってもたらされます。」
たとえば、OpenAI の生成事前トレーニング コンバーター モデル ファミリは、このカテゴリで最大かつ最も強力なモデルの 1 つです。その中で、GPT-3 モデルには 175 億個のパラメーターが含まれています
トップ生成 AI モデルの主な用途
VAE は、エンコーダ/デコーダ アーキテクチャを使用して、次のような画像やビデオの生成によく使用される新しいデータを生成します。プライバシー保護のための合成顔。
VAE は、ニューラル ネットワークを使用してデータをより効率的にエンコードするために 2014 年に開発されました
ただし、UST の Masood 氏によると、変分オートエンコーダ (VAE) はぼやけた画像や低品質の画像を生成する傾向もあります。もう 1 つの問題は、データ構造をキャプチャするために使用される低次元の潜在空間が複雑で困難であることです。これらの欠点により、高品質の画像や潜在空間の明確な理解を必要とするアプリケーションにおける VAE の有効性が制限される可能性があります。 VAE の次の反復では、生成されたデータの品質の向上、トレーニングの高速化、シーケンス データ
##GAN は 2014 年に開発され、リアルな顔を生成したり、図形を印刷したりするために使用されます。 GAN は、本物のコンテンツを生成するニューラル ネットワークと、偽のコンテンツを検出するニューラル ネットワークを戦わせます。 PwC のグローバル AI リーダーであるアナンド・ラオ氏は、「2 つのネットワークが徐々に統合され、元のデータと区別できない生成画像が生成されます。」と述べています。画像編集、超解像度、データ強化、スタイル転送、音楽生成、ディープフェイク作成。 GAN の問題の 1 つは、ジェネレーターが限定的かつ反復的な出力を生成するため、トレーニングが困難になるモード崩壊が発生する可能性があることです。 Masood氏は、次世代GANはトレーニングプロセスの安定性と収束性の向上、他の分野への適用性の拡大、より効果的な評価指標の開発に重点を置くと述べた。 GAN は最適化や安定化も難しく、生成されるサンプルを明確に制御することはできません。
拡散
拡散モデルは現在、画像生成の最初の選択肢であり、Dall-E 2、Stable Diffusion、Midjourney、Imagen などの人気のある画像生成サービスの基本モデルです。これらは、音声、ビデオ、および 3D コンテンツを生成するパイプラインでも使用されます。さらに、拡散技術はデータ補完に使用でき、欠落データが予測および生成されるため、多くのアプリケーションでは拡散モデルと LLM を組み合わせて、テキストから画像またはテキストからビデオを生成します。たとえば、Stable Diffusion 2 は、対照的な言語と画像の事前トレーニング済みモデルをテキスト エンコーダーとして使用し、深さとアップスケーリングのためのモデルも追加します。
Masood 氏は、安定した拡散などのモデルのさらなる改善は、ネガティブな手がかりの改善、特定のアーティストのスタイルで画像を生成する能力の強化、有名人の画像の改善に重点が置かれる可能性があると予測しています。
Transformers
Transformer モデルは、言語翻訳を改善するために、Google Brain のチームによって 2017 年に開発されました。これらのモデルは、さまざまな順序で情報を処理するのに適しており、データを並行して処理しながら、ラベルのないデータを活用して大規模なモデルに拡張することもできます
NeRF は、ライト フィールドの 3D 表現をニューラル ネットワークに取り込むために 2020 年に開発されました。最初の実装は非常に時間がかかり、数日かかりました。最初の 3D 画像を取り込むには数日かかりました。 .
しかし、2022 年に Nvidia の研究者は、新しいモデルを約 30 秒で生成する方法を発見しました。これらのモデルは、他のテクノロジがギガバイトを必要とする場合がある一方で、同等の品質で数メガバイトの単位で 3D オブジェクトを表現できます。これらのモデルは、メタバースで 3D オブジェクトをキャプチャおよび生成するためのより効率的な手法につながることが期待されます。 Nvidiaのリサーチディレクターであるアレクサンダー・ケラー氏は、NeRFは最終的には現代の写真にとってデジタルカメラが重要であるのと同じように、3Dグラフィックスにとって重要になる可能性があると述べ、マスード氏はNeRFはロボット工学、都市地図作成、自律ナビゲーション、仮想現実アプリケーションにおいて大きな可能性を示していると述べた。ただし、NERF は依然として計算コストが高く、複数の NERF をより大きなシーンに結合することは困難であり、現在 NeRF で実行可能な唯一の使用例は、画像を 3D オブジェクトまたはシーンに変換することです。これらの制限にもかかわらず、Masood 氏は、NeRF は、GenAI エコシステム内のノイズ除去、ブレ除去、アップサンプリング、圧縮、画像編集などの基本的な画像処理タスクで新たな役割を見つけるだろうと予測しています。研究者たちは、個々のモデルを改善し、他のモデルや処理技術と組み合わせる方法を模索しています。 Lev 氏は、生成モデルがより一般的になり、アプリケーションが従来の領域を超えて拡張され、ユーザーが AI モデルをより効果的にガイドし、AI モデルがどのようにより適切に機能するかを理解できるようになると予測しています。 取得メソッドを使用して特定のタスクに最適化されたモデル ライブラリを呼び出すマルチモーダル モデルに関する作業も進行中です。同氏はまた、生成モデルが API 呼び出しや外部ツールの使用など、他の機能も開発できるようになることを期待しています。たとえば、同社のコールセンターの知識に基づいて微調整された LLM は、質問に対する回答を提供し、トラブルシューティングを実行します。顧客のモデムをリセットするとき、または問題が解決したときに電子メールを送信します。 一部の人々は、生成 AI エコシステムが 3 層モデルに進化すると予測しています。基本レイヤーは、テキスト、画像、音声、コードに基づく一連の基本モデルであり、これらのモデルは大量のデータを取り込み、人間の判断と組み合わせた大規模な深層学習モデルに基づいて構築されています。次に、業界および機能に特化したドメイン モデルにより、医療、法律、その他の種類のデータ処理が改善されます。トップレベルでは、企業は独自のデータと主題の専門知識を使用して独自のモデルを構築します。これら 3 つのレイヤーは、チームがモデルを開発する方法を破壊し、サービスとしてのモデルの新時代をもたらします#生成 AI モデルの選択方法: 最初の考慮事項 Sisense の Lev 氏によると、モデルを選択する際の主な考慮事項は次のとおりです。 解決しようとしている問題。 特定のタスクに適していることがわかっているモデルを選択してください。たとえば、言語タスクにはトランスフォーマーを使用し、3D シーンには NeRF を使用します。 Diffusion が適切に動作するには大量の良質なデータが必要ですが、VAE はデータが少ないほど良好に動作します。 #結果の品質。 GAN は鮮明で詳細な画像に適しており、VAE はより滑らかな結果に優れています。 モデルをトレーニングすることの難しさ。 GAN はトレーニングが難しい場合がありますが、VAE と Diffusion は簡単です。 コンピューティング リソースの要件。 NeRF と Diffusion が正しく動作するには、多くのコンピュータ能力が必要です。 結果をより詳細に制御したい場合、またはモデルの動作をより深く理解したい場合は、GAN よりも VAE の方が適している可能性があります。 実際、将来的には、今日の一般的なモデル アーキテクチャに代わる、より効率的なものが登場する可能性があります。ホワイト氏は、「新しいアーキテクチャが登場すると、拡散モデルやトランスフォーマーモデルは役に立たなくなるかもしれない。自然言語アプリケーションへのアプローチが長期・短期記憶アルゴリズムやリカレントニューラルに役立たなかったため、拡散の導入でこれがわかった」と述べた。 (RNN)
データの量と質。
以上が生成 AI の 5 つの主要モデル: VAE、GAN、Diffusion、Transformers、NeRFの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。