生成 AI の 5 つの主要モデル: VAE、GAN、Diffusion、Transformers、NeRF-AI-php.cn

ホームページ

テクノロジー周辺機器

生成 AI の 5 つの主要モデル: VAE、GAN、Diffusion、Transformers、NeRF

PHPz

Nov 20, 2023 pm 05:30 PM

AIgenai模型

タスクに適切な GenAI モデルを選択するには、各モデルで使用されるテクノロジーとその特定の機能を理解する必要があります。以下の VAE、GAN、Diffusion、Transformers、NerF の 5 つの GenAI モデルについて学習してください。

生成 AI の 5 つの主要モデル: VAE、GAN、Diffusion、Transformers、NeRF

これまで、ほとんどの AI モデルは、データの処理、分析、解釈の改善に焦点を当てていました。最近まで、いわゆる生成ニューラルネットワークモデルの進歩により、写真や絵画から詩、コード、脚本、映画に至るまで、あらゆる種類のコンテンツを作成するためのさまざまな新しいツールが誕生しました。

トップ AI 生成モデルの概要

2010 年代半ば、研究者たちは、人工知能生成モデルの新たな可能性を発見しました。当時、彼らは変分オートエンコーダー (VAE)、敵対的生成ネットワーク (GAN)、拡散モデル (Diffusion) を開発しました。 2017 年に導入されたトランスフォーマーは、大規模なデータセットを大規模に分析して大規模言語モデル (LLM) を自動的に作成できる画期的なニューラルネットワークです。 2020 年、研究者らは 3D 画像から 2D コンテンツを生成できる Neural Radiation Field (NeRF) テクノロジーを導入しました。大幅な改善につながり、目覚ましい進歩が衰えることはありません。ホワイト教授はカリフォルニア大学バークレー校で次のように述べています。「モデルアーキテクチャは常に変化しており、新しいモデルアーキテクチャは開発され続けます。」

各モデルには特別な機能があり、現在、、拡散モデル (Diffusion) は画像およびビデオ合成の分野で非常に優れたパフォーマンスを発揮し、Transformers モデル (Transformers) はテキストの分野で優れたパフォーマンスを発揮し、GAN は合理的な合成サンプルで小さなデータセットを拡張することに優れています。ただし、最適なモデルの選択は常に特定の使用例に依存します。

すべてのモデルは異なるため、AI 研究者と ML (機械学習) エンジニアは、コンピューティングでのモデルの使用を考慮して、適切なユースケースと必要なパフォーマンスに応じて適切なモデルを選択する必要があります。メモリと資本の制限。

特にコンバータモデルは、生成モデルの最近の進歩と興奮に貢献しています。 UST デジタルトランスフォーメーションコンサルティングのチーフ人工知能アーキテクト、アドナンマスード氏は次のように述べています。「人工知能モデルの最新の進歩は、大量のデータでの事前トレーニングと、明示的なラベルを付けずにモデルをトレーニングする自己教師あり学習の使用によってもたらされます。」

たとえば、OpenAI の生成事前トレーニングコンバーターモデルファミリは、このカテゴリで最大かつ最も強力なモデルの 1 つです。その中で、GPT-3 モデルには 175 億個のパラメーターが含まれています

トップ生成 AI モデルの主な用途

Masood 氏は、トップ生成 AI モデルについて次のように説明しました。モデルは、さまざまな技術や方法を使用して、まったく新しいデータを生成します。これらのモデルの主な機能と用途は次のとおりです。

VAE は、エンコーダ/デコーダアーキテクチャを使用して、次のような画像やビデオの生成によく使用される新しいデータを生成します。プライバシー保護のための合成顔。

GAN はジェネレーターとディスクリミネーターを使用して新しいデータを生成し、ビデオゲーム開発でリアルなゲームキャラクターを作成するためによく使用されます。
拡散では、ノイズを追加して除去して、高レベルの詳細を備えた高品質の画像を生成し、自然の風景の本物に近い画像を作成します。
#Transformer は、機械翻訳、テキスト要約、画像作成のために連続データを効率的に並列処理します。
NeRF は、ニューラル表現を使用した 3D シーン再構築への新しいアプローチを提供します。
#各方法を詳しく見てみましょう。

VAE は、ニューラルネットワークを使用してデータをより効率的にエンコードするために 2014 年に開発されました

## Sisense の AI 責任者である # Yael Lev 氏は、人工知能分析プラットフォーム VAE は情報をより効果的に表現することを学習したと述べました。 VAE は、データを圧縮するエンコーダーと、データを元の形式に復元するデコーダーの 2 つの部分で構成されます。これらは、小さな情報から新しいインスタンスを生成したり、ノイズの多い画像やデータを修復したり、データ内の異常な内容を検出したり、欠落している情報を埋めたりするのに最適です。
ただし、UST の Masood 氏によると、変分オートエンコーダ (VAE) はぼやけた画像や低品質の画像を生成する傾向もあります。もう 1 つの問題は、データ構造をキャプチャするために使用される低次元の潜在空間が複雑で困難であることです。これらの欠点により、高品質の画像や潜在空間の明確な理解を必要とするアプリケーションにおける VAE の有効性が制限される可能性があります。 VAE の次の反復では、生成されたデータの品質の向上、トレーニングの高速化、シーケンスデータ

GANs # への適用性の検討に重点が置かれる可能性があります。

##GAN は 2014 年に開発され、リアルな顔を生成したり、図形を印刷したりするために使用されます。 GAN は、本物のコンテンツを生成するニューラルネットワークと、偽のコンテンツを検出するニューラルネットワークを戦わせます。 PwC のグローバル AI リーダーであるアナンド・ラオ氏は、「2 つのネットワークが徐々に統合され、元のデータと区別できない生成画像が生成されます。」と述べています。画像編集、超解像度、データ強化、スタイル転送、音楽生成、ディープフェイク作成。 GAN の問題の 1 つは、ジェネレーターが限定的かつ反復的な出力を生成するため、トレーニングが困難になるモード崩壊が発生する可能性があることです。 Masood氏は、次世代GANはトレーニングプロセスの安定性と収束性の向上、他の分野への適用性の拡大、より効果的な評価指標の開発に重点を置くと述べた。 GAN は最適化や安定化も難しく、生成されるサンプルを明確に制御することはできません。

拡散

拡散モデルは、スタンフォード大学の研究チームによって 2015 年に開発されました。エントロピーとノイズのシミュレーションと反転用。拡散技術は、塩などの物質が液体にどのように拡散し、それを逆転させるかなどの現象をシミュレートする方法を提供します。この同じモデルは、空白の画像から新しいコンテンツを生成するのにも役立ちます。

拡散モデルは現在、画像生成の最初の選択肢であり、Dall-E 2、Stable Diffusion、Midjourney、Imagen などの人気のある画像生成サービスの基本モデルです。これらは、音声、ビデオ、および 3D コンテンツを生成するパイプラインでも使用されます。さらに、拡散技術はデータ補完に使用でき、欠落データが予測および生成されるため、多くのアプリケーションでは拡散モデルと LLM を組み合わせて、テキストから画像またはテキストからビデオを生成します。たとえば、Stable Diffusion 2 は、対照的な言語と画像の事前トレーニング済みモデルをテキストエンコーダーとして使用し、深さとアップスケーリングのためのモデルも追加します。

Masood 氏は、安定した拡散などのモデルのさらなる改善は、ネガティブな手がかりの改善、特定のアーティストのスタイルで画像を生成する能力の強化、有名人の画像の改善に重点が置かれる可能性があると予測しています。

Transformers

Transformer モデルは、言語翻訳を改善するために、Google Brain のチームによって 2017 年に開発されました。これらのモデルは、さまざまな順序で情報を処理するのに適しており、データを並行して処理しながら、ラベルのないデータを活用して大規模なモデルに拡張することもできます

書き換えられた内容: これらの手法は、以下に適用できます。テキスト要約、チャットボット、レコメンデーションエンジン、言語翻訳、ナレッジベース、パーソナライズされたレコメンデーション (好みモデルによる)、感情分析、人、場所、物を識別するための固有表現認識。さらに、OpenAI の Whisper テクノロジーなどの音声認識、ビデオや画像内のオブジェクト検出、画像キャプション、テキスト分類、ダイアログ生成などの分野でも使用できます。 #とはいえTransformers は多用途ですが、制限もあります。トレーニングには費用がかかり、大規模なデータセットが必要になる場合があります。結果として得られるモデルも非常に大きいため、バイアスの原因や不正確な結果を特定することが困難になります。「また、その複雑さにより、その内部動作を説明することが困難になり、解釈可能性と透明性が妨げられます」とマスード氏は述べています。
NeRF
NeRF は、ライトフィールドの 3D 表現をニューラルネットワークに取り込むために 2020 年に開発されました。最初の実装は非常に時間がかかり、数日かかりました。最初の 3D 画像を取り込むには数日かかりました。 .
しかし、2022 年に Nvidia の研究者は、新しいモデルを約 30 秒で生成する方法を発見しました。これらのモデルは、他のテクノロジがギガバイトを必要とする場合がある一方で、同等の品質で数メガバイトの単位で 3D オブジェクトを表現できます。これらのモデルは、メタバースで 3D オブジェクトをキャプチャおよび生成するためのより効率的な手法につながることが期待されます。 Nvidiaのリサーチディレクターであるアレクサンダー・ケラー氏は、NeRFは最終的には現代の写真にとってデジタルカメラが重要であるのと同じように、3Dグラフィックスにとって重要になる可能性があると述べ、マスード氏はNeRFはロボット工学、都市地図作成、自律ナビゲーション、仮想現実アプリケーションにおいて大きな可能性を示していると述べた。ただし、NERF は依然として計算コストが高く、複数の NERF をより大きなシーンに結合することは困難であり、現在 NeRF で実行可能な唯一の使用例は、画像を 3D オブジェクトまたはシーンに変換することです。これらの制限にもかかわらず、Masood 氏は、NeRF は、GenAI エコシステム内のノイズ除去、ブレ除去、アップサンプリング、圧縮、画像編集などの基本的な画像処理タスクで新たな役割を見つけるだろうと予測しています。研究者たちは、個々のモデルを改善し、他のモデルや処理技術と組み合わせる方法を模索しています。 Lev 氏は、生成モデルがより一般的になり、アプリケーションが従来の領域を超えて拡張され、ユーザーが AI モデルをより効果的にガイドし、AI モデルがどのようにより適切に機能するかを理解できるようになると予測しています。

取得メソッドを使用して特定のタスクに最適化されたモデルライブラリを呼び出すマルチモーダルモデルに関する作業も進行中です。同氏はまた、生成モデルが API 呼び出しや外部ツールの使用など、他の機能も開発できるようになることを期待しています。たとえば、同社のコールセンターの知識に基づいて微調整された LLM は、質問に対する回答を提供し、トラブルシューティングを実行します。顧客のモデムをリセットするとき、または問題が解決したときに電子メールを送信します。

実際、将来的には、今日の一般的なモデルアーキテクチャに代わる、より効率的なものが登場する可能性があります。ホワイト氏は、「新しいアーキテクチャが登場すると、拡散モデルやトランスフォーマーモデルは役に立たなくなるかもしれない。自然言語アプリケーションへのアプローチが長期・短期記憶アルゴリズムやリカレントニューラルに役立たなかったため、拡散の導入でこれがわかった」と述べた。 (RNN)

一部の人々は、生成 AI エコシステムが 3 層モデルに進化すると予測しています。基本レイヤーは、テキスト、画像、音声、コードに基づく一連の基本モデルであり、これらのモデルは大量のデータを取り込み、人間の判断と組み合わせた大規模な深層学習モデルに基づいて構築されています。次に、業界および機能に特化したドメインモデルにより、医療、法律、その他の種類のデータ処理が改善されます。トップレベルでは、企業は独自のデータと主題の専門知識を使用して独自のモデルを構築します。これら 3 つのレイヤーは、チームがモデルを開発する方法を破壊し、サービスとしてのモデルの新時代をもたらします#生成 AI モデルの選択方法: 最初の考慮事項

Sisense の Lev 氏によると、モデルを選択する際の主な考慮事項は次のとおりです。

解決しようとしている問題。
特定のタスクに適していることがわかっているモデルを選択してください。たとえば、言語タスクにはトランスフォーマーを使用し、3D シーンには NeRF を使用します。

データの量と質。
Diffusion が適切に動作するには大量の良質なデータが必要ですが、VAE はデータが少ないほど良好に動作します。

#結果の品質。 GAN は鮮明で詳細な画像に適しており、VAE はより滑らかな結果に優れています。

モデルをトレーニングすることの難しさ。 GAN はトレーニングが難しい場合がありますが、VAE と Diffusion は簡単です。

コンピューティングリソースの要件。 NeRF と Diffusion が正しく動作するには、多くのコンピュータ能力が必要です。
#コントロールと理解が必要です。
結果をより詳細に制御したい場合、またはモデルの動作をより深く理解したい場合は、GAN よりも VAE の方が適している可能性があります。

以上が生成 AI の 5 つの主要モデル: VAE、GAN、Diffusion、Transformers、NeRFの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

10生成AIコーディング拡張機能とコードのコードを探る必要がありますApr 13, 2025 am 01:14 AM

ねえ、忍者をコーディング！その日はどのようなコーディング関連のタスクを計画していますか？このブログにさらに飛び込む前に、コーディング関連のすべての問題について考えてほしいです。終わり？ - ＆＃8217を見てみましょう

革新を調理する：人工知能がフードサービスを変革する方法Apr 12, 2025 pm 12:09 PM

食品の準備を強化するAI まだ初期の使用中ですが、AIシステムは食品の準備にますます使用されています。 AI駆動型のロボットは、ハンバーガーの製造、SAの組み立てなど、食品の準備タスクを自動化するためにキッチンで使用されています

Pythonネームスペースと可変スコープに関する包括的なガイドApr 12, 2025 pm 12:00 PM

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

ビジョン言語モデル（VLM）の包括的なガイドApr 12, 2025 am 11:58 AM

導入鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか？あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか？

MediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますApr 12, 2025 am 11:52 AM

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

今週のAIで：Walmartがファッションのトレンドを設定する前に設定しますApr 12, 2025 am 11:51 AM

＃1 GoogleはAgent2Agentを起動しました物語：月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

生成AIは精神障害に会いますApr 12, 2025 am 11:50 AM

私はあなたがそうであるに違いないと思います。私たちは皆、精神障害がさまざまな心理学の用語を混ぜ合わせ、しばしば理解できないか完全に無意味であることが多い、さまざまなおしゃべりで構成されていることを知っているようです。 FOを吐き出すために必要なことはすべてです

プロトタイプ：科学者は紙をプラスチックに変えますApr 12, 2025 am 11:49 AM

今週公開された新しい研究によると、2022年に製造されたプラスチックの9.5％のみがリサイクル材料から作られていました。一方、プラスチックは埋め立て地や生態系に積み上げられ続けています。しかし、助けが近づいています。エンジンのチーム

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

WebStorm Mac版

便利なJavaScript開発ツール

SublimeText3 中国語版

中国語版、とても使いやすい

Dreamweaver Mac版

ビジュアル Web 開発ツール

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。