首頁  >  文章  >  科技週邊  >  GPT-4 模型架構外洩:包含 1.8 兆參數、採用混合專家模型

GPT-4 模型架構外洩:包含 1.8 兆參數、採用混合專家模型

WBOY
WBOY轉載
2023-07-16 11:53:22771瀏覽

GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型

7 月13 日消息,外媒Semianalysis 最近對OpenAI 今年3 月發布的GPT-4 大模型進行了揭秘,其中包括GPT-4 模型架構、訓練和推理的基礎設施、參數量、訓練資料集、token 數、成本、混合專家模型(Mixture of Experts)等具體的參數和資訊

GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型

▲ 圖源 Semianalysis

外媒表示,GPT-4 在120 層中總共包含了1.8 兆參數,而GPT- 3 只有約1750 億個參數。而為了維持合理的成本,OpenAI 採用混合專家模型來進行建構

IT之家註:混合專家模型(Mixture of Experts)是一種神經網絡,該系統根據資料進行分離訓練多個模型,在各模型輸出後,系統將這些模型整合輸出為一個單獨的任務。

GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型

▲ 圖源 Semianalysis

#▲ 圖源 Semianalysis

#據悉,

GPT-4 使用了16 個混合專家模型(mixture of experts),每個有1110億個參數,每次前向傳遞路由經過兩個專家模型

此外,它有 550 億個共享注意力參數,使用了包含 13 兆 tokens 的資料集訓練,tokens 不是唯一的,根據迭代次數計算為更多的 tokens。

GPT-4 預訓練階段的上下文長度為8k,32k 版本是對8k 微調的結果,訓練成本相當高,外媒表示,8x H100 也無法以每秒33.33 個Token 的速度提供所需的密集參數模型,因此訓練模型需要導致極高的推理成本,以H100 物理機每小時1 美元計算,那麼一次的訓練成本就高達6300 萬美元(約4.51 億元人民幣)。

###對此,###OpenAI 選擇使用雲端的A100 GPU 訓練模型,將最終訓練成本降至2150 萬美元(約1.54 億元)左右,用稍微更長的時間,降低了訓練成本###。 ###

以上是GPT-4 模型架構外洩:包含 1.8 兆參數、採用混合專家模型的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除