適合驅動AIGC的網路的特徵是什麼？-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

適合驅動AIGC的網路的特徵是什麼？

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 22, 2023 pm 03:43 PM

網路aigc數位化

2023年，是AI人工智慧技術全面爆紅的一年。

以ChatGPT、GPT-4、文心一言為代表的AIGC大模型，集文本撰寫、代碼開發、詩詞創作等功能於一體，展現出了超強的內容生產能力，帶給人們極大震撼。

作為一個通訊老人，除了AIGC大模型本身之外，小棗君更加關注的，是模型背後的通訊技術。到底是一張怎樣的強大網絡，在支持著AIGC的運作？此外，AI浪潮的全面來襲，將對傳統網路帶來什麼樣的變革？

█ AIGC，到底需要多大的算力？

眾所周知，數據、演算法和算力，是人工智慧發展的三大基本要素。

適合驅動AIGC的網路的特徵是什麼？

前面提到的幾個AIGC大模型，之所以那麼厲害，不僅是因為它們背後有大量的資料投餵，也因為演算法在不斷進化升級。更重要的是，人類的算力規模，已經發展到一定程度了。強大的算力基礎設施，完全能夠支撐AIGC的運算需求。

AIGC發展到現在，訓練模型參數從千億級飆升到了兆級。為了完成這麼大規模的訓練，底層支撐的GPU數量，也達到了萬卡等級規模。

以ChatGPT為例，他們使用了微軟的超算基礎設施進行訓練，據說動用了10000塊V100 GPU，組成了一個高頻寬叢集。一次訓練，需要消耗算力約3640 PF-days（即每秒1千萬億次計算，運行3640天）。

一塊V100的FP32算力，是0.014 PFLOPS（算力單位，等於每秒1千萬億次的浮點運算）。一萬塊V100，那就是140 PFLOPS。

也就是說，如果GPU的使用率是100%，那麼，完成一次訓練，就要3640÷140=26（天）。

GPU的利用率是不可能達到100%，如果以33%算（OpenAI提供的假設利用率），那就是26再翻三倍，等於78天。

可以看出，GPU的算力、GPU的使用率，對大模型的訓練有很大影響。

那麼問題來了，影響GPU利用率的最大因素，是什麼呢？

答案是：網路。

一萬甚至幾萬塊的GPU，作為計算集群，與儲存集群進行資料交互，需要極大的頻寬。此外，GPU叢集進行訓練運算時，都不是獨立的，而是混合並行。 GPU之間，有大量的資料交換，也需要極大的頻寬。

如果網路不給力，數據傳輸慢，GPU就要等待數據，導致利用率下降。利用率下降，訓練時間就會增加，成本也會增加，使用者體驗會變差。

業界曾經做過一個模型，計算出網路頻寬吞吐能力、通訊時延與GPU利用率之間的關係，如下圖所示：

適合驅動AIGC的網路的特徵是什麼？

大家可以看到，網路吞吐能力越強，GPU利用率越高；通訊動態時延越大，GPU利用率越低。

一句話，沒有好網絡，別玩大模型。

█ 怎樣的網絡，才能支撐AIGC的運作？

為了因應AI叢集運算對網路的調整，業界也是想了不少辦法的。

傳統的因應策略，主要是三種：Infiniband、RDMA、框式交換器。我們分別來簡單了解一下。

Infiniband網路

Infiniband（直譯為「無限頻寬」技術，縮寫為IB）組網，搞數據通訊的童鞋應該不會陌生。

這是目前組成高效能網路的最佳途徑，頻寬極高，可實現無擁塞和低時延。 ChatGPT、GPT-4所使用的，據說就是Infiniband組網。

如果說Infiniband網路有什麼缺點的話，那就是一個字－貴。相較於傳統乙太網路的組網，Infiniband組網的成本會貴好幾倍。這項技術比較封閉，業界目前成熟的供應商只有1家，用戶沒什麼選擇權。

RDMA網路

#RDMA的全名為Remote Direct Memory Access（遠端直接數據訪問）。它是一種新型的通訊機制。在RDMA方案裡，應用程式的數據，不再經過CPU和複雜的作業系統，而是直接和網路卡通信，不僅大幅提升了吞吐能力，也降低了延遲。

適合驅動AIGC的網路的特徵是什麼？

RDMA最早提出時，是承載在InfiniBand網路中的。現在，RDMA逐漸移植到了乙太網路上。

目前，高效能網路的主流網路方案，是基於RoCE v2（RDMA over Converged Ethernet，基於融合乙太網路的RDMA）協定來組成支援RDMA的網絡。

這個方案有兩個重要的搭配技術，分別是PFC（Priority Flow Control，基於優先權的流量控制）和ECN（Explicit Congestion Notification，明確擁塞通知）。它們是為了避免連結中的擁塞而產生的技術，但是，頻繁被觸發，反而會導致發送端暫停發送，或降速發送，進而拉低通訊頻寬。（下文也會提到它們）

框式交換器

##國外有部分網路公司，寄望於利用採用框式交換器（DNX晶片VOQ技術），來滿足建置高效能網路的需求。

DNX：broadcom（博通）的晶片系列

VOQ：Virtual Output Queue，虛擬輸出佇列

#這種方案看似可行，但也面臨以下幾個挑戰。

首先，框式交換器的擴充能力一般。機框大小限制了最大連接埠數，如想做更大規模的集群，需要橫向擴展多個機框。

其次，框式交換器的裝置功耗大。機框內線卡晶片、Fabric晶片、風扇等數量眾多，單設備的功耗超過2萬瓦，有的甚至3萬多瓦，對機櫃供電能力要求太高。

第三，框式交換器的單一裝置連接埠數量多，故障域大。

基於上述原因，框式交換器設備只適合小規模部署AI運算叢集。

█ 到底什麼是DDC

前面說的都是傳統方案。既然這些傳統方案不行，當然就要想新辦法。

於是，一種名叫DDC的全新解決方案，閃亮登場了。

DDC，全名叫做Distributed Disaggregated Chassis（分散式分散式機箱）。

它是前面框式交換器的「分拆版」。框式交換器的擴充能力不足，那麼，我們乾脆把它給拆開，將一個設備變成多個設備，不就OK了？

適合驅動AIGC的網路的特徵是什麼？

#框式設備，一般分為交換網路板（背板）和業務線卡（闆卡）兩部分，相互之間用連接器連接。

DDC方案，將交換網路板變成了NCF設備，將業務線卡變成了NCP設備。連接器，則變成了光纖。框式設備的管理功能，在DDC架構中，也變成了NCC。

NCF：Network Cloud Fabric（網路雲端管理控制平面）

NCP：Network Cloud Packet Processing（網路雲端封包處理）

NCC：Network Cloud Controller（網路雲控制器）

#DDC從集中式變成分散式之後，擴充能力大大增強了。它可以根據AI集群的大小，靈活設計組網規模。

我們來舉兩個例子（單POD組網和多POD組網）。

單POD組網中，採用96台NCP作為接入，其中NCP下行共18個400G接口，負責連接AI計算集群的網卡。上行共40個200G接口，最大可連接40台NCF，NCF提供96個200G接口，此規模上下行頻寬為超速比1.1:1。整個POD可支撐1728個400G網路接口，依照一台伺服器配8塊GPU來計算，可支撐216台AI計算伺服器。

適合驅動AIGC的網路的特徵是什麼？

單POD組網

#多層POD群組網，規模可以變得更大。

在多層POD網路中，NCF裝置要犧牲一半的SerDes，用來連接第二層的NCF。所以，此時單POD採用48台NCP作為接入，下行共18個400G接口。

適合驅動AIGC的網路的特徵是什麼？

多POD群組網

單一POD內，可以支撐864個400G介面（48×18）。透過橫向增加POD（8個），實現規模擴容，整體最大可支撐6912個400G網路連接埠（864×8）。

NCP上行40個200G，接POD內40台NCF。 POD內NCF採用48個200G接口，48個200G接口分為12個一組上行到第二級的NCF。第二級NCF採用40個平面（Plane），每個平面4台NCF-P，分別對應在POD內的40台NCF。

整個網路的POD內實現了1.1:1的超速比（北向頻寬大於南向頻寬），而在POD和二級NCF之間實現了1: 1的收斂比（南向頻寬/北向頻寬）。

適合驅動AIGC的網路的特徵是什麼？

#█ DDC的技術特性

站在規模和頻寬吞吐的角度，DDC已經可以滿足AI大模型訓練對於網路的需求。

然而，網路的運作過程是複雜的，DDC也需要在時延對抗、負載平衡、管理效率等方面有所提升。

基於VOQ Cell的轉送機制，對抗丟包

網路在運作的過程中，可能會出現突發流量，造成接收端來不及處理，造成壅塞和丟包。

為了回應這種情況，DDC採取了基於VOQ Cell的轉送機制。

適合驅動AIGC的網路的特徵是什麼？

#從網路接收傳送端到封包之後，會分類到VOQ（虛擬輸出隊列）中儲存。

在傳送封包前，NCP會先傳送Credit封包，確定接收端是否有足夠的快取空間處理這些封包。

如果接收端OK，則將封包分片成Cells（封包的小切片），並且動態負載平衡到中間的Fabric節點（NCF）。

如果接收端暫時沒能力處理封包，封包會在傳送端的VOQ中暫存，並不會直接轉送到接收端。

在接收端，這些Cells會進行重組和存儲，進而轉送到網路中。

切片後的Cells，將採用輪詢的機制傳送。它能夠充分利用到每一條上行鏈路，確保所有上行鏈路的傳輸資料量近似相等。

適合驅動AIGC的網路的特徵是什麼？

#輪詢機制

#這樣的機制，充分利用了緩存，可以大幅減少丟包，甚至不會產生丟包狀況。資料重傳減少了，整體通訊延遲更穩定更低，從而可以提高頻寬利用率，進而提升業務吞吐效率。

PFC單跳部署，避免死鎖

#前面我們提到，RDMA無損網路中引入了PFC（基於優先順序的流量控制）技術，進行流量控制。

簡單來說，PFC就是在一條乙太網路鏈路上創建8 個虛擬通道，並為每個虛擬通道指定對應優先級，允許單獨暫停和重啟其中任一虛擬通道，同時允許其它虛擬通道的流量無中斷通過。

適合驅動AIGC的網路的特徵是什麼？

#PFC可以實現基於佇列的流量控制，但是，它也存在一個問題，那就是死鎖。

所謂死鎖，就是多個交換器之間，因為環路等原因，同時出現了擁塞（各自連接埠快取消耗超過了閾值），又都在等待對方釋放資源，因而導致的「僵持狀態」（所有交換器的資料流永久堵塞）。

DDC的網路下，就不存在PFC的死鎖問題。因為，站在整個網路的角度，所有NCP和NCF可以看成一台設備。對AI伺服器來說，整個DDC，就是一個交換機，不存在多級交換器。所以，就不存在死鎖。

適合驅動AIGC的網路的特徵是什麼？

#另外，根據DDC的資料轉送機制，可在介面處部署ECN（顯式擁塞通知）。

ECN機制下，網路設備一旦偵測到RoCE v2流量出現了擁塞（內部的Credit和快取機制無法支撐突發流量），就會傳送CNP（Congestion Notification Packets，壅塞通知訊息），要求降速。

分散式OS，提升可靠性

#最後再來看看管理控制平面。

前面我們提到，在DDC架構中，框式裝置的管理功能變成了NCC（網路雲端控制器）。 NCC非常重要，如果採用單點式的方式，萬一出現問題，就會導致整網故障。

為了避免這樣的問題，DDC可以取消NCC的集中控制面，建構分散式OS（作業系統）。

基於分散式OS，可以基於SDN維運控制器，透過標準介面（Netconf、GRPC等）配置管理設備。這樣的話，每台NCP和NCF獨立管理，有獨立的控制面和管理面，大大提升了系統的可靠性，也更方便部署。

█ DDC的商業進展

##綜上所述，相對傳統組網，DDC在組網規模、擴展能力、可靠性、成本、部署速度方面，擁有顯著優勢。它是網路技術升級的產物，提供了顛覆原有網路架構的思路，可以實現網路硬體的解耦、網路架構的統一、轉送容量的擴展。

業界曾經使用OpenMPI測試套件進行過框式裝置和傳統網路設備的比較模擬測試。測試結論是：在All-to-All場景下，相較於傳統組網，框式設備的頻寬利用率提升了約20%（對應GPU利用率提升8%左右）。

正是因為DDC的顯著能力優勢，現在這項技術已成為業界的重點發展方向。例如銳捷網絡，他們就率先推出了兩款可交付的DDC產品，分別是400G NCP交換機－RG-S6930-18QC40F1，以及200G NCF交換器－RG-X56-96F1。

適合驅動AIGC的網路的特徵是什麼？

RG-S6930-18QC40F1交換器的高度為2U，提供18個400G的面板口，40個200G的Fabric內聯口，4個風扇和2個電源。

RG-X56-96F1交換器的高度為4U，提供96個200G的Fabric內聯口，8個風扇和4個電源供應器。

據悉，銳捷網路還會持續研發、推出400G埠形態的產品。

█ 最後的話

AIGC的崛起，已經掀起了互聯網產業的新一輪科技革命。

我們可以看到，越來越多的企業，正在加入這個賽道，參與競爭。這意味著，網路基礎設施的升級，迫在眉睫。

DDC的出現，將大幅提升網路基礎設施的能力，不僅能有效應對AI革命對網路基礎設施的挑戰，更將協助整個社會的數位轉型，加速人類數智時代的全面到來。

以上是適合驅動AIGC的網路的特徵是什麼？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

人工智能治療師在這裡：您需要了解的14個開創性的心理健康工具Apr 30, 2025 am 11:17 AM

儘管它無法提供訓練有素的治療師的人類聯繫和直覺，但研究表明，許多人很樂意與相對無面和匿名的AI機器人分享他們的擔憂和擔憂。這是否總是好我

叫AI到雜貨店過道Apr 30, 2025 am 11:16 AM

人工智能（AI）是一種技術數十年的技術，正在徹底改變食品零售業。從大規模的效率提高和成本降低到精簡的各種業務功能的流程，AI的影響是Undeniabl

從生成的AI中進行佩普談話來提升您的精神Apr 30, 2025 am 11:15 AM

讓我們來談談。對創新的AI突破的分析是我正在進行的AI中正在進行的《福布斯》列覆蓋範圍的一部分，包括識別和解釋各種有影響力的AI複雜性（請參閱此處的鏈接）。此外，對於我的comp

為什麼AI驅動的超個性化是所有企業必須的Apr 30, 2025 am 11:14 AM

保持專業形象需要偶爾的衣櫃更新。在線購物方便時，它缺乏面對面嘗試的確定性。我的解決方案？ AI驅動的個性化。我設想AI助手策劃服裝Selecti

忘記Duolingo：Google Translate的新AI功能教授語言Apr 30, 2025 am 11:13 AM

谷歌翻譯新增語言學習功能據Android Authority報導，應用專家AssembleDebug發現，最新版本的谷歌翻譯應用包含一個新的“練習”模式的測試代碼，旨在幫助用戶通過個性化活動來提高他們的語言技能。此功能目前對用戶不可見，但AssembleDebug能夠部分激活它並查看其一些新的用戶界面元素。激活後，該功能會在屏幕底部添加一個新的“畢業帽”圖標，標有“Beta”徽章，表明“練習”功能最初將以實驗形式發布。相關的彈出提示顯示“練習為你量身定制的活動！”，這意味著谷歌將生成定制的