生成式AI的五大模型：VAEs、GANs、Diffusion、Transformers、NeRFs-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

生成式AI的五大模型：VAEs、GANs、Diffusion、Transformers、NeRFs

PHPz

Nov 20, 2023 pm 05:30 PM

人工智慧格奈模型

為任務選擇正確的GenAI模型需要了解每個模型使用的技術及其特定能力，以下請了解VAEs、GANs、Diffusion、Transformers和NerFs五大GenAI模型。

生成式AI的五大模型：VAEs、GANs、Diffusion、Transformers、NeRFs

以前，大多數人工智慧模型都專注於更好地處理、分析和解釋資料。直到最近，在所謂的生成神經網路模型方面的突破帶來了一系列用於創建各種內容的新工具，從照片和繪畫到詩歌、程式碼、電影劇本和電影。

頂級 AI 生成模型概述

#在2010年代中期，研究人員發現了產生人工智慧模型的新前景。當時，他們開發了變分自編碼器（VAEs）、生成對抗網路（GAN）和擴散模型（Diffusion）。 2017年問世的轉換器（Transformers）是一種突破性的神經網絡，能夠大規模分析大型資料集，以自動創建大型語言模型（LLM）。到了2020年，研究人員引入了神經輻射場（NeRF）技術，這種技術可以從三維圖像生成二維內容

這些生成模型的快速發展是一項正在進行的工作，因為研究人員的調整通常會帶來巨大的進步，並且顯著的進展並沒有減緩。懷特教授在加州大學柏克萊分校表示：「模型架構不斷變化，將繼續開發新的模型架構。」

每個模型都有其特殊的能力，目前，擴散模型（Diffusion）在影像和視訊合成領域表現異常出色，轉換器模型（Transformers）在文字領域表現良好，GAN 擅長以合理的合成樣本擴充小資料集。但是選擇最佳模型始終取決於特定的用例。

所有的模型都不相同，人工智慧研究人員和ML（機器學習）工程師必須為適當的用例和所需的性能選擇合適的一個，並考慮模型在計算、記憶體和資本方面可能的限制。

特別是轉換器模型對產生模型的最新進展和激動產生了推動作用。 UST數位轉型顧問公司的首席人工智慧架構師Adnan Masood表示：「人工智慧模型的最新突破來自於對大量資料進行預先訓練，並使用自我監督學習來訓練沒有明確標籤的模型。」

例如，OpenAI的生成式預訓練轉換器系列模型是該類別中最大、最強大的模型之一。其中，GPT-3模型就包含了175億個參數

頂級生成式AI 模型的主要應用

Masood解釋說，頂級生成AI模型使用各種不同的技術和方法來產生全新的數據。這些模型的主要功能和用途包括：

VAE使用編碼器-解碼器架構來產生新數據，通常用於圖像和視訊生成，例如生成用於隱私保護的合成人臉。
GAN 使用生成器和鑑別器來產生新數據，通常用於視訊遊戲開發中以創建逼真的遊戲角色。
Diffusion添加然後消除雜訊以產生具有高細節水平的高品質影像，從而創建近乎逼真的自然場景影像。
Transformer可以有效地並行處理順序數據，以進行機器翻譯、文字摘要和圖像建立。
NeRF提供了一種使用神經表示的3D場景重建的新方法。

下面讓我們更詳細地介紹每種方法。

VAE

VAE是在2014年開發的，其目的是利用神經網路更有效地對資料進行編碼

Sisense的AI負責人Yael Lev表示，人工智慧分析平台VAE學會了更有效地表達訊息。 VAE由兩部分組成：一個編碼器（encoder）將資料壓縮，另一個解碼器（decoder）將資料恢復到原始形式。它們非常適合從較小的信息中生成新的實例，修復嘈雜的圖像或數據，檢測數據中的異常內容並填充缺失的信息

然而，根據UST的Masood所說，變分自編碼器（VAE）也傾向於產生模糊或低品質的影像。另外一個問題是，用於捕獲資料結構的低維潛在空間錯綜複雜且具有挑戰性。這些缺點可能會限制VAE在需要高品質影像或對潛在空間有清晰理解的應用中的有效性。 VAE的下一次迭代可能會專注於提高生成資料的品質、加快訓練速度並探索其在序列資料方面的適用性

生成式AI的五大模型：VAEs、GANs、Diffusion、Transformers、NeRFs

##GANs

GANs是在2014年開發出來的，它被用來產生逼真的臉部和印刷數字。 GAN將產生真實內容的神經網路與偵測虛假內容的神經網路對立起來。普華永道全球人工智慧負責人Anand Rao表示：「逐步地，這兩個網路融合在一起，產生了與原始資料無法區分的生成影像。」

GAN通常用於影像生成、影像編輯、超解析度、資料增強、風格傳輸、音樂生成和深度偽造創建。 GAN的一個問題是，它們可能會遭受模式崩潰，其中生成器產生有限和重複的輸出，使它們難以訓練。 Masood說，下一代GAN將專注於提高訓練過程的穩定性和融合性，將其適用性擴展到其他領域，並開發更有效的評估指標。 GAN也很難優化和穩定，並且對生成的樣本沒有明確的控制。

生成式AI的五大模型：VAEs、GANs、Diffusion、Transformers、NeRFs

Diffusion

#擴散模型由史丹佛大學的一組研究人員於2015年開發，用於模擬和反轉熵和雜訊。擴散技術提供了一種模擬現象的方法，例如鹽等物質如何擴散到液體中，然後逆轉它，此相同模型還有助於從空白圖像生成新內容。

擴散模型是當前影像生成的首選，它們是流行的影像生成服務的基本模型，例如Dall-E 2，Stable Diffusion，Midjourney和Imagen。它們也用於管道中生成語音、視訊和 3D 內容。此外，擴散技術還可用於資料插補，其中預測和產生缺失資料

許多應用將擴散模型與LLM配對，用於文字到圖像或文字到視訊生成。例如，Stable Diffusion 2 使用對比語言-影像預訓練模型作為文字編碼器，它還添加了用於深度和升級的模型。

Masood預測，對穩定擴散等模型的進一步改進可能側重於改進負面提示，增強以特定藝術家風格生成圖像的能力，並改善名人圖像。

Transformers

轉換器模型是由Google Brain的團隊在2017年開發的，旨在改善語言翻譯。這些模型非常適合以不同的順序處理訊息，並且能夠並行處理數據，同時還能利用未標記的數據來擴展到大型模型

重寫後的內容：這些技術可應用於文字摘要、聊天機器人、推薦引擎、語言翻譯、知識庫、個人化推薦（透過偏好模型）、情緒分析和命名實體識別，用於識別人物、地點和事物。此外，它們還可以用於語音識別，如OpenAI的耳語技術，以及視訊和圖像中的物件偵測、圖像字幕、文字分類和對話生成等領域

儘管Transformers具有多功能性，但它們確實存在局限性。它們的訓練成本可能很高，並且需要大型資料集。由此產生的模型也相當大，這使得識別偏差或不準確結果的來源變得具有挑戰性。馬蘇德說：「它們的複雜性也使得解釋其內部運作變得困難，阻礙了它們的可解釋性和透明度。

##Transformer模型架構生成式AI的五大模型：VAEs、GANs、Diffusion、Transformers、NeRFs

NeRF

NeRF 於2020 年開發，用於將光場的3D 表示捕獲到神經網路中，第一次實施非常緩慢，需要幾天時間才能捕捉第一個3D影像。

然而，在2022年，英偉達公司的研究人員發現了一種在大約30秒內產生新模型的方法。這些模型可以以幾兆位元組為單位表示3D對象，並具有相當的質量，而其他技術可能需要佔用千兆位元組。這些模型有望為捕捉和生成元宇宙中的3D物件帶來更有效的技術。英偉達的研究總監亞歷山大·凱勒（Alexander Keller）表示，NeRFs對於3D圖形的重要性最終可能與數位相機對現代攝影的重要性一樣重要

Masood表示，NeRF在機器人、城市測繪、自主導航和虛擬實境應用方面顯示出巨大的潛力。然而，NERF的運算成本仍然很高，將多個NERF組合成更大的場景也具有挑戰性，而今天NeRF唯一可行的用例是將影像轉換為3D物件或場景。儘管有這些限制，Masood預測NeRF將在基本影像處理任務中找到新的角色，例如去噪，去模糊，上取樣，壓縮和影像編輯

GenAI生態系統進行時

重要的是要注意，這些模型正在進行中，研究人員正在尋求改進單一模型以及將它們與其他模型和處理技術結合的方法。 Lev預測，生成模型將變得更加通用，應用程式將擴展到傳統領域之外，用戶還可以更有效地指導AI模型，並了解它們如何更好地工作。

在多模態模型上也有工作正在進行中，這些模型使用檢索方法來呼叫針對特定任務最佳化的模型庫。他還希望生成模型能夠開發其他功能，例如進行API調用和使用外部工具，例如，根據公司的呼叫中心知識微調的LLM將提供問題的答案並執行故障排除，例如重置客戶調製解調器或在問題解決時發送電子郵件。

實際上，未來可能會有更有效率的東西取代今天流行的模型架構。懷特表示：「當新架構出現時，Diffusion和Transformer模型可能不再有用。」我們從Diffusion的引入中看到了這一點，因為它們對自然語言應用的方法並不利於長短期記憶演算法和遞歸神經網絡（RNN）

有人預測，生成AI生態系統將演變為三層模型。基礎層是一系列基於文字、圖像、語音和程式碼的基礎模型，這些模型會攝取大量數據，並基於大型深度學習模型構建，同時結合了人類的判斷。接下來，特定於行業和功能的領域模型將改善醫療保健、法律或其他類型的資料處理。在頂層，公司將使用專有數據和主題專業知識來建立專有模型。這三個層將顛覆團隊發展模式的方式，並迎來模式即服務的新時代

##如何選擇生成式 AI 模式：首要注意事項

根據Sisense的Lev的說法，在模型之間進行選擇時的首要考慮因素包括以下內容：

您要解決的問題。 選擇已知適用於您的特定任務的模型。例如，將轉換器用於語言任務，將 NeRF 用於 3D 場景。

資料的數量和品質。 Diffusion需要大量良好的數據才能正常工作，而VAE則在數據較少的情況下工作得更好。

結果的品質。 GAN 更適合清晰和詳細的影像，而 VAE 更適合更平滑的結果。

訓練模型的難易度。 GAN可能很難訓練，而VAE和Diffusion更容易。

計算資源需求。 NeRF和Diffusion都需要大量的電腦能力才能正常運作。

需要控制和理解。 如果您想更好地控制結果或更好地了解模型的工作原理，VAE 可能比 GAN 更好。

以上是生成式AI的五大模型：VAEs、GANs、Diffusion、Transformers、NeRFs的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

閱讀AI索引2025：AI是您的朋友，敵人還是副駕駛？Apr 11, 2025 pm 12:13 PM

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它：認知（了解正在發生的事情）、欣賞（看到好處）、接納（面對挑戰）和責任（弄清我們的責任）。認知：人工智能無處不在，並且發展迅速我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進，在數學和復雜思維測試中取得了優異的成績，而就在一年前，它們還在這些測試中慘敗。想像一下，人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年