搜尋
首頁科技週邊人工智慧適合驅動AIGC的網路的特徵是什麼?

2023年,是AI人工智慧技術全面爆紅的一年。

以ChatGPT、GPT-4、文心一言為代表的AIGC大模型,集文本撰寫、代碼開發、詩詞創作等功能於一體,展現出了超強的內容生產能力,帶給人們極大震撼。

作為一個通訊老人,除了AIGC大模型本身之外,小棗君更加關注的,是模型背後的通訊技術。到底是一張怎樣的強大網絡,在支持著AIGC的運作?此外,AI浪潮的全面來襲,將對傳統網路帶來什麼樣的變革?

█ AIGC,到底需要多大的算力?

眾所周知,數據、演算法和算力,是人工智慧發展的三大基本要素。

適合驅動AIGC的網路的特徵是什麼?

前面提到的幾個AIGC大模型,之所以那麼厲害,不僅是因為它們背後有大量的資料投餵,也因為演算法在不斷進化升級。更重要的是,人類的算力規模,已經發展到一定程度了。強大的算力基礎設施,完全能夠支撐AIGC的運算需求。

AIGC發展到現在,訓練模型參數從千億級飆升到了兆級。為了完成這麼大規模的訓練,底層支撐的GPU數量,也達到了萬卡等級規模。

以ChatGPT為例,他們使用了微軟的超算基礎設施進行訓練,據說動用了10000塊V100 GPU,組成了一個高頻寬叢集。一次訓練,需要消耗算力約3640 PF-days(即每秒1千萬億次計算,運行3640天)。

一塊V100的FP32算力,是0.014 PFLOPS(算力單位,等於每秒1千萬億次的浮點運算)。一萬塊V100,那就是140 PFLOPS。

也就是說,如果GPU的使用率是100%,那麼,完成一次訓練,就要3640÷140=26(天)。

GPU的利用率是不可能達到100%,如果以33%算(OpenAI提供的假設利用率),那就是26再翻三倍,等於78天。

可以看出,GPU的算力、GPU的使用率,對大模型的訓練有很大影響。

那麼問題來了,影響GPU利用率的最大因素,是什麼呢?

答案是:網路。

一萬甚至幾萬塊的GPU,作為計算集群,與儲存集群進行資料交互,需要極大的頻寬。此外,GPU叢集進行訓練運算時,都不是獨立的,而是混合並行。 GPU之間,有大量的資料交換,也需要極大的頻寬。

如果網路不給力,數據傳輸慢,GPU就要等待數據,導致利用率下降。利用率下降,訓練時間就會增加,成本也會增加,使用者體驗會變差。

業界曾經做過一個模型,計算出網路頻寬吞吐能力、通訊時延與GPU利用率之間的關係,如下圖所示:

適合驅動AIGC的網路的特徵是什麼?

大家可以看到,網路吞吐能力越強,GPU利用率越高;通訊動態時延越大,GPU利用率越低。

一句話,沒有好網絡,別玩大模型。

█ 怎樣的網絡,才能支撐AIGC的運作?

為了因應AI叢集運算對網路的調整,業界也是想了不少辦法的。

傳統的因應策略,主要是三種:Infiniband、RDMA、框式交換器。我們分別來簡單了解一下。

Infiniband網路


Infiniband(直譯為「無限頻寬」技術,縮寫為IB)組網,搞數據通訊的童鞋應該不會陌生。


這是目前組成高效能網路的最佳途徑,頻寬極高,可實現無擁塞和低時延。 ChatGPT、GPT-4所使用的,據說就是Infiniband組網。


如果說Infiniband網路有什麼缺點的話,那就是一個字-貴。相較於傳統乙太網路的組網,Infiniband組網的成本會貴好幾倍。這項技術比較封閉,業界目前成熟的供應商只有1家,用戶沒什麼選擇權。


  • RDMA網路


#RDMA的全名為Remote Direct Memory Access(遠端直接數據訪問)。它是一種新型的通訊機制。在RDMA方案裡,應用程式的數據,不再經過CPU和複雜的作業系統,而是直接和網路卡通信,不僅大幅提升了吞吐能力,也降低了延遲。


適合驅動AIGC的網路的特徵是什麼?


#

RDMA最早提出時,是承載在InfiniBand網路中的。現在,RDMA逐漸移植到了乙太網路上。


目前,高效能網路的主流網路方案,是基於RoCE v2(RDMA over Converged Ethernet,基於融合乙太網路的RDMA)協定來組成支援RDMA的網絡。


這個方案有兩個重要的搭配技術,分別是PFC(Priority Flow Control,基於優先權的流量控制)和ECN(Explicit Congestion Notification,明確擁塞通知)。它們是為了避免連結中的擁塞而產生的技術,但是,頻繁被觸發,反而會導致發送端暫停發送,或降速發送,進而拉低通訊頻寬。 (下文也會提到它們)


  • 框式交換器


##國外有部分網路公司,寄望於利用採用框式交換器(DNX晶片VOQ技術),來滿足建置高效能網路的需求。


DNX:broadcom(博通)的晶片系列

VOQ:Virtual Output Queue,虛擬輸出佇列


#這種方案看似可行,但也面臨以下幾個挑戰。


首先,框式交換器的擴充能力一般。機框大小限制了最大連接埠數,如想做更大規模的集群,需要橫向擴展多個機框。


其次,框式交換器的裝置功耗大。機框內線卡晶片、Fabric晶片、風扇等數量眾多,單設備的功耗超過2萬瓦,有的甚至3萬多瓦,對機櫃供電能力要求太高。


第三,框式交換器的單一裝置連接埠數量多,故障域大。


基於上述原因,框式交換器設備只適合小規模部署AI運算叢集。



█ 到底什麼是DDC


前面說的都是傳統方案。既然這些傳統方案不行,當然就要想新辦法。


於是,一種名叫DDC的全新解決方案,閃亮登場了。


DDC,全名叫做Distributed Disaggregated Chassis(分散式分散式機箱)。


它是前面框式交換器的「分拆版」。框式交換器的擴充能力不足,那麼,我們乾脆把它給拆開,將一個設備變成多個設備,不就OK了?


適合驅動AIGC的網路的特徵是什麼?


#框式設備,一般分為交換網路板(背板)和業務線卡(闆卡)兩部分,相互之間用連接器連接。


DDC方案,將交換網路板變成了NCF設備,將業務線卡變成了NCP設備。連接器,則變成了光纖。框式設備的管理功能,在DDC架構中,也變成了NCC。


NCF:Network Cloud Fabric(網路雲端管理控制平面)

NCP:Network Cloud Packet Processing(網路雲端封包處理)

NCC:Network Cloud Controller(網路雲控制器)


#DDC從集中式變成分散式之後,擴充能力大大增強了。它可以根據AI集群的大小,靈活設計組網規模。


我們來舉兩個例子(單POD組網和多POD組網)。


單POD組網中,採用96台NCP作為接入,其中NCP下行共18個400G接口,負責連接AI計算集群的網卡。上行共40個200G接口,最大可連接40台NCF,NCF提供96個200G接口,此規模上下行頻寬為超速比1.1:1。整個POD可支撐1728個400G網路接口,依照一台伺服器配8塊GPU來計算,可支撐216台AI計算伺服器。


適合驅動AIGC的網路的特徵是什麼?

單POD組網


#多層POD群組網,規模可以變得更大。


在多層POD網路中,NCF裝置要犧牲一半的SerDes,用來連接第二層的NCF。所以,此時單POD採用48台NCP作為接入,下行共18個400G接口。


適合驅動AIGC的網路的特徵是什麼?

多POD群組網


單一POD內,可以支撐864個400G介面(48×18)。透過橫向增加POD(8個),實現​​規模擴容,整體最大可支撐6912個400G網路連接埠(864×8)。


NCP上行40個200G,接POD內40台NCF。 POD內NCF採用48個200G接口,48個200G接口分為12個一組上行到第二級的NCF。第二級NCF採用40個平面(Plane),每個平面4台NCF-P,分別對應在POD內的40台NCF。


整個網路的POD內實現了1.1:1的超速比(北向頻寬大於南向頻寬),而在POD和二級NCF之間實現了1: 1的收斂比(南向頻寬/北向頻寬)。


適合驅動AIGC的網路的特徵是什麼?



#█ DDC的技術特性


站在規模和頻寬吞吐的角度,DDC已經可以滿足AI大模型訓練對於網路的需求。


然而,網路的運作過程是複雜的,DDC也需要在時延對抗、負載平衡、管理效率等方面有所提升。


  • 基於VOQ Cell的轉送機制,對抗丟包


網路在運作的過程中,可能會出現突發流量,造成接收端來不及處理,造成壅塞和丟包。


為了回應這種情況,DDC採取了基於VOQ Cell的轉送機制。


適合驅動AIGC的網路的特徵是什麼?


#從網路接收傳送端到封包之後,會分類到VOQ(虛擬輸出隊列)中儲存。


在傳送封包前,NCP會先傳送Credit封包,確定接收端是否有足夠的快取空間處理這些封包。


如果接收端OK,則將封包分片成Cells(封包的小切片),並且動態負載平衡到中間的Fabric節點(NCF)。


如果接收端暫時沒能力處理封包,封包會在傳送端的VOQ中暫存,並不會直接轉送到接收端。


在接收端,這些Cells會進行重組和存儲,進而轉送到網路中。


切片後的Cells,將採用輪詢的機制傳送。它能夠充分利用到每一條上行鏈路,確保所有上行鏈路的傳輸資料量近似相等。


適合驅動AIGC的網路的特徵是什麼?

#輪詢機制


#這樣的機制,充分利用了緩存,可以大幅減少丟包,甚至不會產生丟包狀況。資料重傳減少了,整體通訊延遲更穩定更低,從而可以提高頻寬利用率,進而提升業務吞吐效率。


  • PFC單跳部署,避免死鎖


#前面我們提到,RDMA無損網路中引入了PFC(基於優先順序的流量控制)技術,進行流量控制。


簡單來說,PFC就是在一條乙太網路鏈路上創建8 個虛擬通道,並為每個虛擬通道指定對應優先級,允許單獨暫停和重啟其中任一虛擬通道,同時允許其它虛擬通道的流量無中斷通過。


適合驅動AIGC的網路的特徵是什麼?


#PFC可以實現基於佇列的流量控制,但是,它也存在一個問題,那就是死鎖。


所謂死鎖,就是多個交換器之間,因為環路等原因,同時出現了擁塞(各自連接埠快取消耗超過了閾值),又都在等待對方釋放資源,因而導致的「僵持狀態」(所有交換器的資料流永久堵塞)。


DDC的網路下,就不存在PFC的死鎖問題。因為,站在整個網路的角度,所有NCP和NCF可以看成一台設備。對AI伺服器來說,整個DDC,就是一個交換機,不存在多級交換器。所以,就不存在死鎖。


適合驅動AIGC的網路的特徵是什麼?


#另外,根據DDC的資料轉送機制,可在介面處部署ECN(顯式擁塞通知)。


ECN機制下,網路設備一旦偵測到RoCE v2流量出現了擁塞(內部的Credit和快取機制無法支撐突發流量),就會傳送CNP(Congestion Notification Packets,壅塞通知訊息),要求降速。


  • 分散式OS,提升可靠性


#最後再來看看管理控制平面。


前面我們提到,在DDC架構中,框式裝置的管理功能變成了NCC(網路雲端控制器)。 NCC非常重要,如果採用單點式的方式,萬一出現問題,就會導致整網故障。


為了避免這樣的問題,DDC可以取消NCC的集中控制面,建構分散式OS(作業系統)。


基於分散式OS,可以基於SDN維運控制器,透過標準介面(Netconf、GRPC等)配置管理設備。這樣的話,每台NCP和NCF獨立管理,有獨立的控制面和管理面,大大提升了系統的可靠性,也更方便部署。



█ DDC的商業進展


##綜上所述,相對傳統組網,DDC在組網規模、擴展能力、可靠性、成本、部署速度方面,擁有顯著優勢。它是網路技術升級的產物,提供了顛覆原有網路架構的思路,可以實現網路硬體的解耦、網路架構的統一、轉送容量的擴展。


業界曾經使用OpenMPI測試套件進行過框式裝置和傳統網路設備的比較模擬測試。測試結論是:在All-to-All場景下,相較於傳統組網,框式設備的頻寬利用率提升了約20%(對應GPU利用率提升8%左右)。


正是因為DDC的顯著能力優勢,現在這項技術已成為業界的重點發展方向。例如銳捷網絡,他們就率先推出了兩款可交付的DDC產品,分別是400G NCP交換機-RG-S6930-18QC40F1,以及200G NCF交換器-RG-X56-96F1。


適合驅動AIGC的網路的特徵是什麼?


RG-S6930-18QC40F1交換器的高度為2U,提供18個400G的面板口,40個200G的Fabric內聯口,4個風扇和2個電源。


RG-X56-96F1交換器的高度為4U,提供96個200G的Fabric內聯口,8個風扇和4個電源供應器。


據悉,銳捷網路還會持續研發、推出400G埠形態的產品。



█ 最後的話


AIGC的崛起,已經掀起了互聯網產業的新一輪科技革命。


我們可以看到,越來越多的企業,正在加入這個賽道,參與競爭。這意味著,網路基礎設施的升級,迫在眉睫。


DDC的出現,將大幅提升網路基礎設施的能力,不僅能有效應對AI革命對網路基礎設施的挑戰,更將協助整個社會的數位轉型,加速人類數智時代的全面到來。

以上是適合驅動AIGC的網路的特徵是什麼?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
统一角色、百变场景,视频生成神器PixVerse被网友玩出了花,超强一致性成「杀招」统一角色、百变场景,视频生成神器PixVerse被网友玩出了花,超强一致性成「杀招」Apr 01, 2024 pm 02:11 PM

又双叒叕是一个新功能的亮相。你是否会遇见过想要给图片角色换个背景,但是AI总是搞出「物非人也非」的效果。即使在Midjourney、DALL・E这样成熟的生成工具中,保持角色一致性还得有些prompt技巧,不然人物就会变来变去,根本达不到你想要的结果。不过,这次算是让你遇着了。AIGC工具PixVerse的「角色-视频」新功能可以帮你实现这一切。不仅如此,它能生成动态视频,让你的角色更加生动。输入一张图,你就能够得到相应的动态视频结果,在保持角色一致性的基础上,丰富的背景元素和角色动态让生成结果

ChatGPT克星,介绍五款免费又好用的AIGC检测工具ChatGPT克星,介绍五款免费又好用的AIGC检测工具May 22, 2023 pm 02:38 PM

简介ChatGPT推出后,犹如潘多拉魔盒被打开了。我们现在正观察到许多工作方式的技术转变。人们正在使用ChatGPT创建网站、应用程序,甚至写小说。随着AI生成工具的大肆宣传和引入,我们也已经看到了不良行为者的增加。如果你关注最新消息,你一定曾听说ChatGPT已经通过了沃顿商学院的MBA考试。迄今为止,ChatGPT通过的考试涵盖了从医学到法律学位等多个领域。除了考试之外,学生们正在用它来提交作业,作家们正在提交生成性内容,而研究人员只需输入提示语就能产生高质量的论文。为了打击生成性内容的滥用

小米相册 AIGC 编辑功能正式上线:支持智能扩图、魔法消除 Pro小米相册 AIGC 编辑功能正式上线:支持智能扩图、魔法消除 ProMar 14, 2024 pm 10:22 PM

3月14日消息,小米官方今日宣布,小米相册AIGC编辑功能正式上线小米14Ultra手机,并将在本月内全量上线小米14、小米14Pro和RedmiK70系列手机。AI大模型为小米相册带来两个新功能:智能扩图与魔法消除Pro。AI智能扩图支持对构图不好的图片进行扩展和自动构图,操作方式为:打开相册编辑-进入裁切旋转-点击智能扩图。魔法消除Pro能够对游客照中的路人进行无痕消除,使用方式为:打开相册编辑-进入魔法消除-点击右上角的Pro。目前,小米14Ultra机器已经上线智能扩图与魔法消除Pro功

营销效果大幅提升,AIGC视频创作就该这么用营销效果大幅提升,AIGC视频创作就该这么用Jun 25, 2024 am 12:01 AM

经过一年多的发展,AIGC已经从文字对话、图片生成逐步向视频生成迈进。回想四个月前,Sora的诞生让视频生成赛道经历了一场洗牌,大力推动了AIGC在视频创作领域的应用范围和深度。在人人都在谈论大模型的时代,我们一方面惊讶于视频生成带来的视觉震撼,另一方面又面临着落地难问题。诚然,大模型从技术研发到应用实践还处于一个磨合期,仍需结合实际业务场景进行调优,但理想与现实的距离正在被逐步缩小。营销作为人工智能技术的重要落地场景,成为了很多企业及从业者想要突破的方向。掌握了恰当方法,营销视频的创作过程就会

AIGC革新客户服务,维音构建“1+5”生成式AI智能产品矩阵AIGC革新客户服务,维音构建“1+5”生成式AI智能产品矩阵Sep 15, 2023 am 11:57 AM

由自然语言处理、语音识别、语音合成、机器学习等技术组成的人工智能技术,应用于各行各业获得广泛认可。置身于AI应用的前沿,从2022年底开始,维音不断见证AIGC技术所带来的惊喜,也有幸参与到这场覆盖全球的技术浪潮。经过训练、测试、调优和应用,维音将其丰富的客户服务行业经验与强大的大模型能力相结合,开发出了适用于坐席端和业务端的生成式AI客服机器人。同时,维音还将底层能力与维音Vision系列智能产品相互连接,最终形成了“1+5”维音生成式AI智能产品矩阵其中,“1”是维音自主训练的大模型服务平台

实测7款「Sora级」视频生成神器,谁有本事登上「铁王座」?实测7款「Sora级」视频生成神器,谁有本事登上「铁王座」?Aug 05, 2024 pm 07:19 PM

机器之能报道编辑:杨文谁能成为AI视频圈的King?美剧《权力的游戏》中,有一把「铁王座」。传说,它由巨龙「黑死神」熔掉上千把敌人丢弃的利剑铸成,象征着无上的权威。为了坐上这把铁椅子,各大家族展开了一场场争斗和厮杀。而自Sora出现以来,AI视频圈也掀起了一场轰轰烈烈的「权力的游戏」,这场游戏的玩家主要有大洋彼岸的RunwayGen-3、Luma,国内的快手可灵、字节即梦、智谱清影、Vidu、PixVerseV2等。今天我们就来测评一下,看看究竟谁有资格登上AI视频圈的「铁王座」。-1-文生视频

美图公司AIGC落地B端新场景,“AI海报”进一步提升设计效率美图公司AIGC落地B端新场景,“AI海报”进一步提升设计效率May 25, 2023 pm 09:11 PM

5月16日,美图公司旗下美图设计室上线“AI海报”功能,该功能旨在降低设计门槛,提高制作效率。在AIGC的加持下,让更多非专业人士也能轻松制作出高质量海报。传统的海报制作方式包括使用Photoshop专业设计工具和使用海报模板这类便捷设计工具。PS需要专业设计师才能熟练操作,但即使是专业设计师,也需要花费较多时间不断调整尺寸、配色等细节,耗费大量时间和精力。没有设计基础的人只能使用现成的海报模板来完成设计,但选择模板、替换图片、替换文本同样消耗时间,而且即便用户花了大量时间,有时候也无法达到理想

AI在用 | 川普魂穿《黑神话》,3D「魔改」悟空……一只黑猴勾起多少种AI玩法?AI在用 | 川普魂穿《黑神话》,3D「魔改」悟空……一只黑猴勾起多少种AI玩法?Aug 21, 2024 pm 10:50 PM

机器之能报道编辑:杨文以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式,但绝大部分人依然不知道该如何使用。因此,我们推出了「AI在用」专栏,通过直观、有趣且简洁的人工智能使用案例,来具体介绍AI使用方法,并激发大家思考。我们也欢迎读者投稿亲自实践的创新型用例。投稿邮箱:content@jiqizhixin.com这两天被一只黑猴子刷了屏。这热度高得有多离谱?抖音、微博、公众号,只要一划拉,全在聊这款国产游戏《黑神话:悟空》,甚至官媒都下场开直播。还有公司直接放假,让员工在

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
2 週前By尊渡假赌尊渡假赌尊渡假赌
倉庫:如何復興隊友
1 個月前By尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒險:如何獲得巨型種子
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境