搜尋
首頁科技週邊人工智慧適合驅動AIGC的網路的特徵是什麼?

2023年,是AI人工智慧技術全面爆紅的一年。

以ChatGPT、GPT-4、文心一言為代表的AIGC大模型,集文本撰寫、代碼開發、詩詞創作等功能於一體,展現出了超強的內容生產能力,帶給人們極大震撼。

作為一個通訊老人,除了AIGC大模型本身之外,小棗君更加關注的,是模型背後的通訊技術。到底是一張怎樣的強大網絡,在支持著AIGC的運作?此外,AI浪潮的全面來襲,將對傳統網路帶來什麼樣的變革?

█ AIGC,到底需要多大的算力?

眾所周知,數據、演算法和算力,是人工智慧發展的三大基本要素。

適合驅動AIGC的網路的特徵是什麼?

前面提到的幾個AIGC大模型,之所以那麼厲害,不僅是因為它們背後有大量的資料投餵,也因為演算法在不斷進化升級。更重要的是,人類的算力規模,已經發展到一定程度了。強大的算力基礎設施,完全能夠支撐AIGC的運算需求。

AIGC發展到現在,訓練模型參數從千億級飆升到了兆級。為了完成這麼大規模的訓練,底層支撐的GPU數量,也達到了萬卡等級規模。

以ChatGPT為例,他們使用了微軟的超算基礎設施進行訓練,據說動用了10000塊V100 GPU,組成了一個高頻寬叢集。一次訓練,需要消耗算力約3640 PF-days(即每秒1千萬億次計算,運行3640天)。

一塊V100的FP32算力,是0.014 PFLOPS(算力單位,等於每秒1千萬億次的浮點運算)。一萬塊V100,那就是140 PFLOPS。

也就是說,如果GPU的使用率是100%,那麼,完成一次訓練,就要3640÷140=26(天)。

GPU的利用率是不可能達到100%,如果以33%算(OpenAI提供的假設利用率),那就是26再翻三倍,等於78天。

可以看出,GPU的算力、GPU的使用率,對大模型的訓練有很大影響。

那麼問題來了,影響GPU利用率的最大因素,是什麼呢?

答案是:網路。

一萬甚至幾萬塊的GPU,作為計算集群,與儲存集群進行資料交互,需要極大的頻寬。此外,GPU叢集進行訓練運算時,都不是獨立的,而是混合並行。 GPU之間,有大量的資料交換,也需要極大的頻寬。

如果網路不給力,數據傳輸慢,GPU就要等待數據,導致利用率下降。利用率下降,訓練時間就會增加,成本也會增加,使用者體驗會變差。

業界曾經做過一個模型,計算出網路頻寬吞吐能力、通訊時延與GPU利用率之間的關係,如下圖所示:

適合驅動AIGC的網路的特徵是什麼?

大家可以看到,網路吞吐能力越強,GPU利用率越高;通訊動態時延越大,GPU利用率越低。

一句話,沒有好網絡,別玩大模型。

█ 怎樣的網絡,才能支撐AIGC的運作?

為了因應AI叢集運算對網路的調整,業界也是想了不少辦法的。

傳統的因應策略,主要是三種:Infiniband、RDMA、框式交換器。我們分別來簡單了解一下。

Infiniband網路


Infiniband(直譯為「無限頻寬」技術,縮寫為IB)組網,搞數據通訊的童鞋應該不會陌生。


這是目前組成高效能網路的最佳途徑,頻寬極高,可實現無擁塞和低時延。 ChatGPT、GPT-4所使用的,據說就是Infiniband組網。


如果說Infiniband網路有什麼缺點的話,那就是一個字-貴。相較於傳統乙太網路的組網,Infiniband組網的成本會貴好幾倍。這項技術比較封閉,業界目前成熟的供應商只有1家,用戶沒什麼選擇權。


  • RDMA網路


#RDMA的全名為Remote Direct Memory Access(遠端直接數據訪問)。它是一種新型的通訊機制。在RDMA方案裡,應用程式的數據,不再經過CPU和複雜的作業系統,而是直接和網路卡通信,不僅大幅提升了吞吐能力,也降低了延遲。


適合驅動AIGC的網路的特徵是什麼?


#

RDMA最早提出時,是承載在InfiniBand網路中的。現在,RDMA逐漸移植到了乙太網路上。


目前,高效能網路的主流網路方案,是基於RoCE v2(RDMA over Converged Ethernet,基於融合乙太網路的RDMA)協定來組成支援RDMA的網絡。


這個方案有兩個重要的搭配技術,分別是PFC(Priority Flow Control,基於優先權的流量控制)和ECN(Explicit Congestion Notification,明確擁塞通知)。它們是為了避免連結中的擁塞而產生的技術,但是,頻繁被觸發,反而會導致發送端暫停發送,或降速發送,進而拉低通訊頻寬。 (下文也會提到它們)


  • 框式交換器


##國外有部分網路公司,寄望於利用採用框式交換器(DNX晶片VOQ技術),來滿足建置高效能網路的需求。


DNX:broadcom(博通)的晶片系列

VOQ:Virtual Output Queue,虛擬輸出佇列


#這種方案看似可行,但也面臨以下幾個挑戰。


首先,框式交換器的擴充能力一般。機框大小限制了最大連接埠數,如想做更大規模的集群,需要橫向擴展多個機框。


其次,框式交換器的裝置功耗大。機框內線卡晶片、Fabric晶片、風扇等數量眾多,單設備的功耗超過2萬瓦,有的甚至3萬多瓦,對機櫃供電能力要求太高。


第三,框式交換器的單一裝置連接埠數量多,故障域大。


基於上述原因,框式交換器設備只適合小規模部署AI運算叢集。



█ 到底什麼是DDC


前面說的都是傳統方案。既然這些傳統方案不行,當然就要想新辦法。


於是,一種名叫DDC的全新解決方案,閃亮登場了。


DDC,全名叫做Distributed Disaggregated Chassis(分散式分散式機箱)。


它是前面框式交換器的「分拆版」。框式交換器的擴充能力不足,那麼,我們乾脆把它給拆開,將一個設備變成多個設備,不就OK了?


適合驅動AIGC的網路的特徵是什麼?


#框式設備,一般分為交換網路板(背板)和業務線卡(闆卡)兩部分,相互之間用連接器連接。


DDC方案,將交換網路板變成了NCF設備,將業務線卡變成了NCP設備。連接器,則變成了光纖。框式設備的管理功能,在DDC架構中,也變成了NCC。


NCF:Network Cloud Fabric(網路雲端管理控制平面)

NCP:Network Cloud Packet Processing(網路雲端封包處理)

NCC:Network Cloud Controller(網路雲控制器)


#DDC從集中式變成分散式之後,擴充能力大大增強了。它可以根據AI集群的大小,靈活設計組網規模。


我們來舉兩個例子(單POD組網和多POD組網)。


單POD組網中,採用96台NCP作為接入,其中NCP下行共18個400G接口,負責連接AI計算集群的網卡。上行共40個200G接口,最大可連接40台NCF,NCF提供96個200G接口,此規模上下行頻寬為超速比1.1:1。整個POD可支撐1728個400G網路接口,依照一台伺服器配8塊GPU來計算,可支撐216台AI計算伺服器。


適合驅動AIGC的網路的特徵是什麼?

單POD組網


#多層POD群組網,規模可以變得更大。


在多層POD網路中,NCF裝置要犧牲一半的SerDes,用來連接第二層的NCF。所以,此時單POD採用48台NCP作為接入,下行共18個400G接口。


適合驅動AIGC的網路的特徵是什麼?

多POD群組網


單一POD內,可以支撐864個400G介面(48×18)。透過橫向增加POD(8個),實現​​規模擴容,整體最大可支撐6912個400G網路連接埠(864×8)。


NCP上行40個200G,接POD內40台NCF。 POD內NCF採用48個200G接口,48個200G接口分為12個一組上行到第二級的NCF。第二級NCF採用40個平面(Plane),每個平面4台NCF-P,分別對應在POD內的40台NCF。


整個網路的POD內實現了1.1:1的超速比(北向頻寬大於南向頻寬),而在POD和二級NCF之間實現了1: 1的收斂比(南向頻寬/北向頻寬)。


適合驅動AIGC的網路的特徵是什麼?



#█ DDC的技術特性


站在規模和頻寬吞吐的角度,DDC已經可以滿足AI大模型訓練對於網路的需求。


然而,網路的運作過程是複雜的,DDC也需要在時延對抗、負載平衡、管理效率等方面有所提升。


  • 基於VOQ Cell的轉送機制,對抗丟包


網路在運作的過程中,可能會出現突發流量,造成接收端來不及處理,造成壅塞和丟包。


為了回應這種情況,DDC採取了基於VOQ Cell的轉送機制。


適合驅動AIGC的網路的特徵是什麼?


#從網路接收傳送端到封包之後,會分類到VOQ(虛擬輸出隊列)中儲存。


在傳送封包前,NCP會先傳送Credit封包,確定接收端是否有足夠的快取空間處理這些封包。


如果接收端OK,則將封包分片成Cells(封包的小切片),並且動態負載平衡到中間的Fabric節點(NCF)。


如果接收端暫時沒能力處理封包,封包會在傳送端的VOQ中暫存,並不會直接轉送到接收端。


在接收端,這些Cells會進行重組和存儲,進而轉送到網路中。


切片後的Cells,將採用輪詢的機制傳送。它能夠充分利用到每一條上行鏈路,確保所有上行鏈路的傳輸資料量近似相等。


適合驅動AIGC的網路的特徵是什麼?

#輪詢機制


#這樣的機制,充分利用了緩存,可以大幅減少丟包,甚至不會產生丟包狀況。資料重傳減少了,整體通訊延遲更穩定更低,從而可以提高頻寬利用率,進而提升業務吞吐效率。


  • PFC單跳部署,避免死鎖


#前面我們提到,RDMA無損網路中引入了PFC(基於優先順序的流量控制)技術,進行流量控制。


簡單來說,PFC就是在一條乙太網路鏈路上創建8 個虛擬通道,並為每個虛擬通道指定對應優先級,允許單獨暫停和重啟其中任一虛擬通道,同時允許其它虛擬通道的流量無中斷通過。


適合驅動AIGC的網路的特徵是什麼?


#PFC可以實現基於佇列的流量控制,但是,它也存在一個問題,那就是死鎖。


所謂死鎖,就是多個交換器之間,因為環路等原因,同時出現了擁塞(各自連接埠快取消耗超過了閾值),又都在等待對方釋放資源,因而導致的「僵持狀態」(所有交換器的資料流永久堵塞)。


DDC的網路下,就不存在PFC的死鎖問題。因為,站在整個網路的角度,所有NCP和NCF可以看成一台設備。對AI伺服器來說,整個DDC,就是一個交換機,不存在多級交換器。所以,就不存在死鎖。


適合驅動AIGC的網路的特徵是什麼?


#另外,根據DDC的資料轉送機制,可在介面處部署ECN(顯式擁塞通知)。


ECN機制下,網路設備一旦偵測到RoCE v2流量出現了擁塞(內部的Credit和快取機制無法支撐突發流量),就會傳送CNP(Congestion Notification Packets,壅塞通知訊息),要求降速。


  • 分散式OS,提升可靠性


#最後再來看看管理控制平面。


前面我們提到,在DDC架構中,框式裝置的管理功能變成了NCC(網路雲端控制器)。 NCC非常重要,如果採用單點式的方式,萬一出現問題,就會導致整網故障。


為了避免這樣的問題,DDC可以取消NCC的集中控制面,建構分散式OS(作業系統)。


基於分散式OS,可以基於SDN維運控制器,透過標準介面(Netconf、GRPC等)配置管理設備。這樣的話,每台NCP和NCF獨立管理,有獨立的控制面和管理面,大大提升了系統的可靠性,也更方便部署。



█ DDC的商業進展


##綜上所述,相對傳統組網,DDC在組網規模、擴展能力、可靠性、成本、部署速度方面,擁有顯著優勢。它是網路技術升級的產物,提供了顛覆原有網路架構的思路,可以實現網路硬體的解耦、網路架構的統一、轉送容量的擴展。


業界曾經使用OpenMPI測試套件進行過框式裝置和傳統網路設備的比較模擬測試。測試結論是:在All-to-All場景下,相較於傳統組網,框式設備的頻寬利用率提升了約20%(對應GPU利用率提升8%左右)。


正是因為DDC的顯著能力優勢,現在這項技術已成為業界的重點發展方向。例如銳捷網絡,他們就率先推出了兩款可交付的DDC產品,分別是400G NCP交換機-RG-S6930-18QC40F1,以及200G NCF交換器-RG-X56-96F1。


適合驅動AIGC的網路的特徵是什麼?


RG-S6930-18QC40F1交換器的高度為2U,提供18個400G的面板口,40個200G的Fabric內聯口,4個風扇和2個電源。


RG-X56-96F1交換器的高度為4U,提供96個200G的Fabric內聯口,8個風扇和4個電源供應器。


據悉,銳捷網路還會持續研發、推出400G埠形態的產品。



█ 最後的話


AIGC的崛起,已經掀起了互聯網產業的新一輪科技革命。


我們可以看到,越來越多的企業,正在加入這個賽道,參與競爭。這意味著,網路基礎設施的升級,迫在眉睫。


DDC的出現,將大幅提升網路基礎設施的能力,不僅能有效應對AI革命對網路基礎設施的挑戰,更將協助整個社會的數位轉型,加速人類數智時代的全面到來。

以上是適合驅動AIGC的網路的特徵是什麼?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
人工智能治療師在這裡:您需要了解的14個開創性的心理健康工具人工智能治療師在這裡:您需要了解的14個開創性的心理健康工具Apr 30, 2025 am 11:17 AM

儘管它無法提供訓練有素的治療師的人類聯繫和直覺,但研究表明,許多人很樂意與相對無面和匿名的AI機器人分享他們的擔憂和擔憂。 這是否總是好我

叫AI到雜貨店過道叫AI到雜貨店過道Apr 30, 2025 am 11:16 AM

人工智能(AI)是一種技術數十年的技術,正在徹底改變食品零售業。 從大規模的效率提高和成本降低到精簡的各種業務功能的流程,AI的影響是Undeniabl

從生成的AI中進行佩普談話來提升您的精神從生成的AI中進行佩普談話來提升您的精神Apr 30, 2025 am 11:15 AM

讓我們來談談。 對創新的AI突破的分析是我正在進行的AI中正在進行的《福布斯》列覆蓋範圍的一部分,包括識別和解釋各種有影響力的AI複雜性(請參閱此處的鏈接)。此外,對於我的comp

為什麼AI驅動的超個性化是所有企業必須的為什麼AI驅動的超個性化是所有企業必須的Apr 30, 2025 am 11:14 AM

保持專業形象需要偶爾的衣櫃更新。 在線購物方便時,它缺乏面對面嘗試的確定性。 我的解決方案? AI驅動的個性化。 我設想AI助手策劃服裝Selecti

忘記Duolingo:Google Translate的新AI功能教授語言忘記Duolingo:Google Translate的新AI功能教授語言Apr 30, 2025 am 11:13 AM

谷歌翻譯新增語言學習功能 據Android Authority報導,應用專家AssembleDebug發現,最新版本的谷歌翻譯應用包含一個新的“練習”模式的測試代碼,旨在幫助用戶通過個性化活動來提高他們的語言技能。此功能目前對用戶不可見,但AssembleDebug能夠部分激活它並查看其一些新的用戶界面元素。 激活後,該功能會在屏幕底部添加一個新的“畢業帽”圖標,標有“Beta”徽章,表明“練習”功能最初將以實驗形式發布。 相關的彈出提示顯示“練習為你量身定制的活動!”,這意味著谷歌將生成定制的

他們正在為AI製作TCP/IP,這就是Nanda他們正在為AI製作TCP/IP,這就是NandaApr 30, 2025 am 11:12 AM

麻省理工學院的研究人員正在開發Nanda,這是為AI代理設計的開創性的Web協議。 Nanda的縮寫是網絡代理和分散的AI,通過添加Internet功能,使AI Agen能夠構建人類的模型上下文協議(MCP)。

提示:DeepFake檢測是一項蓬勃發展的業務提示:DeepFake檢測是一項蓬勃發展的業務Apr 30, 2025 am 11:11 AM

Meta的最新冒險:與Chatgpt競爭的AI應用程序 Facebook,Instagram,WhatsApp和Threads的母公司Meta正在啟動新的AI功能應用程序。 這個獨立的應用程序Meta AI旨在直接與Openai的Chatgpt競爭。 槓桿

接下來的兩年在AI網絡安全方面為業務領導者接下來的兩年在AI網絡安全方面為業務領導者Apr 30, 2025 am 11:10 AM

導航AI網絡攻擊的上升潮流 最近,CISO的傑森·克林頓(Jason Clinton)擬人化,強調了與非人類身份相關的新興風險 - 作為機器對機器的通信增殖,維護這些“身份”

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!