搜尋
首頁科技週邊人工智慧AI百科:ChatGPT的工作原理

AI百科:ChatGPT的工作原理

Apr 12, 2023 pm 01:31 PM
人工智慧chatgpt

AI百科:ChatGPT的工作原理

ChatGPT迅速獲得了數百萬人的關注,但許多人都持謹慎態度,因為都不了解它的工作原理。而本文就是試圖將其分解,以便更容易理解。

然而,就其核心而言,ChatGPT是一個非常複雜的系統。如果想要玩ChatGPT或想弄清楚它是什麼,核心介面是一個聊天窗口,可以在其中提問或提供查詢,AI會做出回應。要記住的一個重要細節是,在聊天中,上下文會被保留,這意味著訊息可以引用先前的訊息,而ChatGPT將能夠根據上下文地理解這一點。

當在聊天框中輸入查詢時會發生什麼?

神經網路

#首先,在ChatGPT的框架下,還有很多東西要發現。機器學習在過去10年裡一直在迅速發展,ChatGPT利用了許多最先進的技術來實現其成果。

AI百科:ChatGPT的工作原理

神經網路是相互連接的「神經元」層,每個神經元負責接收輸入、處理輸入,並將其傳遞給網絡中的下一個神經元。神經網路構成了當今人工智慧的支柱。輸入通常是一組稱為「特徵」的數值,表示正在處理的資料的某些方面。例如,在語言處理的情況下,特徵可能是表示句子中每個單字的意思的單字嵌入。

詞嵌入只是一種文本的數字表示,神經網路將使用它來理解文本的語義,然後可以將其用於其他目的,例如以語義邏輯的方式進行回應!

#因此,在ChatGPT中按回車鍵後,該文本首先被轉換為詞嵌入,這些詞嵌入是在整個互聯網上的文本上進行訓練的。然後有一個經過訓練的神經網絡,在給定輸入詞嵌入的情況下,輸出一組合適的響應詞嵌入。然後,使用應用於輸入查詢的逆操作將這些嵌入入翻譯成人類可讀的單字。這個解碼後的輸出就是ChatGPT印出來的內容。

ChatGPT模型大小

轉換和輸出產生的計算成本非常高。 ChatGPT位於GPT-3之上,GPT-3是一個擁有1750億個參數的大型語言模型。這意味著在OpenAI使用其大型資料集調整的廣泛神經網路中有1750億個權重。

因此,每個查詢至少需要兩次1750億次計算,加起來很快。 OpenAI可能已經找到了一種方法來快取這些計算以降低計算成本,但不知道這些資訊是否已經發佈到任何地方。此外,預計將於今年年初發布的GPT-4,據稱參數增加了1000倍!

計算複雜性會導致實際成本!如果ChatGPT很快成為付費產品,不必感到驚訝,因為OpenAI目前正在花費數百萬美元免費運營它。

編碼器、解碼器和RNN

自然語言處理中常用的一種神經網路結構是編碼器-解碼器網路。這些網路的設計目的是將輸入序列「編碼」為緊湊表示,然後將該表示「解碼」為輸出序列。

傳統上,編碼器-解碼器網路已經與循環神經網路(RNN)配對,用於處理順序資料。編碼器處理輸入序列並產生固定長度的向量表示,然後將其傳遞給解碼器。解碼器處理這個向量並產生輸出序列。

編碼器-解碼器網路已廣泛應用於機器翻譯等任務,其中輸入是一種語言的句子,輸出是將該句子翻譯成另一種語言。它們也被應用於摘要和圖像說明生成任務。

AI百科:ChatGPT的工作原理

變壓器與注意力

#與編碼器-解碼器結構類似,變壓器包括兩個元件;然而,轉換器的不同之處在於它使用一種自關注機制,允許輸入的每個元素關注所有其他元素,從而允許它捕獲元素之間的關係,而不管它們彼此之間的距離如何。

變壓器還使用多頭注意力,允許它同時專注於輸入的多個部分。這使得它能夠捕獲輸入文字中的複雜關係並產生高度準確的結果。

在2017年發表「Attention is All You Need」論文時,變壓器取代了編碼器-解碼器架構,成為自然語言處理的最先進模型,因為它可以在較長的文本中實現更好的性能。

AI百科:ChatGPT的工作原理

變壓器架構,取自https://arxiv.org/pdf/1706.03762.pdf

生成式預訓練

生成式預訓練是一種在自然語言處理領域特別成功的技術。它涉及以無監督的方式在海量資料集上訓練廣泛的神經網絡,以學習資料的通用表示。這個預訓練網絡可以針對特定任務進行微調,例如語言翻譯或問答,從而提高效能。

AI百科:ChatGPT的工作原理

生成式預訓練架構,摘自《透過生成式預訓練提升語言理解能力》

在ChatGPT的範例中,這意味著對GPT-3模型的最後一層進行微調,以適應在聊天中回答問題的用例,這也利用了人工標記。下圖可以更詳細了解ChatGPT微調:

AI百科:ChatGPT的工作原理

ChatGPT 微調步驟,來自https://arxiv.org/pdf/2203.02155.pdf

把一切結合在一起

因此,在ChatGPT的框架下有許多活動部件,這些部件只會不斷增長。看到它如何繼續發展將是非常有趣的,因為許多不同領域的進步將幫助類似GPT的模型獲得進一步的採用。

在接下來的一兩年裡,我們可能會看到這種新的使能技術帶來的重大顛覆。

以上是AI百科:ChatGPT的工作原理的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
及時工程中的思想圖是什麼及時工程中的思想圖是什麼Apr 13, 2025 am 11:53 AM

介紹 在迅速的工程中,“思想圖”是指使用圖理論來構建和指導AI的推理過程的新方法。與通常涉及線性S的傳統方法不同

優化您的組織與Genai代理商的電子郵件營銷優化您的組織與Genai代理商的電子郵件營銷Apr 13, 2025 am 11:44 AM

介紹 恭喜!您經營一家成功的業務。通過您的網頁,社交媒體活動,網絡研討會,會議,免費資源和其他來源,您每天收集5000個電子郵件ID。下一個明顯的步驟是

Apache Pinot實時應用程序性能監視Apache Pinot實時應用程序性能監視Apr 13, 2025 am 11:40 AM

介紹 在當今快節奏的軟件開發環境中,確保最佳應用程序性能至關重要。監視實時指標,例如響應時間,錯誤率和資源利用率可以幫助MAIN

Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Apr 13, 2025 am 11:23 AM

“您有幾個用戶?”他扮演。 阿爾特曼回答說:“我認為我們上次說的是每週5億個活躍者,而且它正在迅速增長。” “你告訴我,就像在短短幾週內翻了一番,”安德森繼續說道。 “我說那個私人

pixtral -12b:Mistral AI'第一個多模型模型 - 分析Vidhyapixtral -12b:Mistral AI'第一個多模型模型 - 分析VidhyaApr 13, 2025 am 11:20 AM

介紹 Mistral發布了其第一個多模式模型,即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型?現在可以拍攝圖像和Tex

生成AI應用的代理框架 - 分析Vidhya生成AI應用的代理框架 - 分析VidhyaApr 13, 2025 am 11:13 AM

想像一下,擁有一個由AI驅動的助手,不僅可以響應您的查詢,還可以自主收集信息,執行任務甚至處理多種類型的數據(TEXT,圖像和代碼)。聽起來有未來派?在這個a

生成AI在金融部門的應用生成AI在金融部門的應用Apr 13, 2025 am 11:12 AM

介紹 金融業是任何國家發展的基石,因為它通過促進有效的交易和信貸可用性來推動經濟增長。交易的便利和信貸

在線學習和被動攻擊算法指南在線學習和被動攻擊算法指南Apr 13, 2025 am 11:09 AM

介紹 數據是從社交媒體,金融交易和電子商務平台等來源的前所未有的速度生成的。處理這種連續的信息流是一個挑戰,但它提供了

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。