首頁  >  文章  >  科技週邊  >  AI百科:ChatGPT的工作原理

AI百科:ChatGPT的工作原理

王林
王林轉載
2023-04-12 13:31:034464瀏覽

AI百科:ChatGPT的工作原理

ChatGPT迅速獲得了數百萬人的關注,但許多人都持謹慎態度,因為都不了解它的工作原理。而本文就是試圖將其分解,以便更容易理解。

然而,就其核心而言,ChatGPT是一個非常複雜的系統。如果想要玩ChatGPT或想弄清楚它是什麼,核心介面是一個聊天窗口,可以在其中提問或提供查詢,AI會做出回應。要記住的一個重要細節是,在聊天中,上下文會被保留,這意味著訊息可以引用先前的訊息,而ChatGPT將能夠根據上下文地理解這一點。

當在聊天框中輸入查詢時會發生什麼?

神經網路

#首先,在ChatGPT的框架下,還有很多東西要發現。機器學習在過去10年裡一直在迅速發展,ChatGPT利用了許多最先進的技術來實現其成果。

AI百科:ChatGPT的工作原理

神經網路是相互連接的「神經元」層,每個神經元負責接收輸入、處理輸入,並將其傳遞給網絡中的下一個神經元。神經網路構成了當今人工智慧的支柱。輸入通常是一組稱為「特徵」的數值,表示正在處理的資料的某些方面。例如,在語言處理的情況下,特徵可能是表示句子中每個單字的意思的單字嵌入。

詞嵌入只是一種文本的數字表示,神經網路將使用它來理解文本的語義,然後可以將其用於其他目的,例如以語義邏輯的方式進行回應!

#因此,在ChatGPT中按回車鍵後,該文本首先被轉換為詞嵌入,這些詞嵌入是在整個互聯網上的文本上進行訓練的。然後有一個經過訓練的神經網絡,在給定輸入詞嵌入的情況下,輸出一組合適的響應詞嵌入。然後,使用應用於輸入查詢的逆操作將這些嵌入入翻譯成人類可讀的單字。這個解碼後的輸出就是ChatGPT印出來的內容。

ChatGPT模型大小

轉換和輸出產生的計算成本非常高。 ChatGPT位於GPT-3之上,GPT-3是一個擁有1750億個參數的大型語言模型。這意味著在OpenAI使用其大型資料集調整的廣泛神經網路中有1750億個權重。

因此,每個查詢至少需要兩次1750億次計算,加起來很快。 OpenAI可能已經找到了一種方法來快取這些計算以降低計算成本,但不知道這些資訊是否已經發佈到任何地方。此外,預計將於今年年初發布的GPT-4,據稱參數增加了1000倍!

計算複雜性會導致實際成本!如果ChatGPT很快成為付費產品,不必感到驚訝,因為OpenAI目前正在花費數百萬美元免費運營它。

編碼器、解碼器和RNN

自然語言處理中常用的一種神經網路結構是編碼器-解碼器網路。這些網路的設計目的是將輸入序列「編碼」為緊湊表示,然後將該表示「解碼」為輸出序列。

傳統上,編碼器-解碼器網路已經與循環神經網路(RNN)配對,用於處理順序資料。編碼器處理輸入序列並產生固定長度的向量表示,然後將其傳遞給解碼器。解碼器處理這個向量並產生輸出序列。

編碼器-解碼器網路已廣泛應用於機器翻譯等任務,其中輸入是一種語言的句子,輸出是將該句子翻譯成另一種語言。它們也被應用於摘要和圖像說明生成任務。

AI百科:ChatGPT的工作原理

變壓器與注意力

#與編碼器-解碼器結構類似,變壓器包括兩個元件;然而,轉換器的不同之處在於它使用一種自關注機制,允許輸入的每個元素關注所有其他元素,從而允許它捕獲元素之間的關係,而不管它們彼此之間的距離如何。

變壓器還使用多頭注意力,允許它同時專注於輸入的多個部分。這使得它能夠捕獲輸入文字中的複雜關係並產生高度準確的結果。

在2017年發表「Attention is All You Need」論文時,變壓器取代了編碼器-解碼器架構,成為自然語言處理的最先進模型,因為它可以在較長的文本中實現更好的性能。

AI百科:ChatGPT的工作原理

變壓器架構,取自https://arxiv.org/pdf/1706.03762.pdf

生成式預訓練

生成式預訓練是一種在自然語言處理領域特別成功的技術。它涉及以無監督的方式在海量資料集上訓練廣泛的神經網絡,以學習資料的通用表示。這個預訓練網絡可以針對特定任務進行微調,例如語言翻譯或問答,從而提高效能。

AI百科:ChatGPT的工作原理

生成式預訓練架構,摘自《透過生成式預訓練提升語言理解能力》

在ChatGPT的範例中,這意味著對GPT-3模型的最後一層進行微調,以適應在聊天中回答問題的用例,這也利用了人工標記。下圖可以更詳細了解ChatGPT微調:

AI百科:ChatGPT的工作原理

ChatGPT 微調步驟,來自https://arxiv.org/pdf/2203.02155.pdf

把一切結合在一起

因此,在ChatGPT的框架下有許多活動部件,這些部件只會不斷增長。看到它如何繼續發展將是非常有趣的,因為許多不同領域的進步將幫助類似GPT的模型獲得進一步的採用。

在接下來的一兩年裡,我們可能會看到這種新的使能技術帶來的重大顛覆。

以上是AI百科:ChatGPT的工作原理的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除