ChatGPT、AIGC、大模型……一系列眼花撩亂的名詞橫空出世,AI商業價值引發社會的高度關注。隨著訓練模型規模的成長,支撐AI算力的資料中心網路也成為熱點。提升算力效率,建構高效能網路…大廠們各顯神通,努力在以太產業宏圖上開拓AI網路的「F1新賽道」。
在這場AI的軍備競賽中,DDC高調出鏡,一夕之間似乎成為了建構高性能AI網路革命性技術的代名詞。但真如看上去那麼美好嗎?讓我們詳細分析,冷靜判斷。
始於2019年,DDC的本質是以盒盒路由器取代框式路由器
隨著DCN流量的快速成長,DCI網路升級需求日益迫切。然而,DCI路由器框式設備擴容能力受機框大小限制;同時設備功耗大,擴容機框時對機櫃電力、散熱等要求較高,改造成本高。在此背景下,2019年AT&T向OCP提交了基於商用晶片的盒式路由器規範,提出了DDC(Disaggregated Distributed Chassis)的概念。簡單來說,DDC就是使用若干個低功耗盒式設備組成的群集替換框式設備業務線卡和網板等硬體單元,盒式設備間透過線纜互連。整個叢集透過集中式或分散式的NOS(網路作業系統)管理,以期突破DCI單框裝置效能和功耗瓶頸的問題。
DDC宣稱的優點包括:
突破框式裝置擴充限制:透過多裝置叢集實現擴容,不受機框尺寸限制;
降低單點功耗:多台低功耗的盒式設備分散部署,解決了功耗集中的問題,降低機櫃電力和散熱的要求;
提升頻寬利用率:與傳統的ETH網Hash交換相比,DDC採用訊號元(Cell)交換,基於Cell進行負載平衡,有助於於提升頻寬利用率;
緩解丟包:使用裝置大快取能力滿足DCI場景高收斂比要求。先透過VOQ(Virtual Output Queue)技術先將網路中接收到的封包分配到不同的虛擬出佇列中,再透過Credit通訊機制確定接收端有足夠的快取空間後再發送這些報文,從而減少由於出口壅塞帶來的丟包。
DDC方案在DCI場景僅曇花一現
想法看起來很完美,可落地卻並非一帆風順。 DriveNets公司的Network Cloud產品是業界第一個、也是唯一一個商用的DDC解決方案,整套軟體適配通用白盒路由器。但至今在市面上未見到明確的銷售案例。 AT&T作為DDC架構方案提出者,在2020年自建的IP骨幹網路中灰階部署了DDC方案,但後續基本上也沒有太多聲響。為什麼這朵水花並沒有掀起多大的浪呢?這應該歸咎於DDC存在的四大缺陷。
缺陷一:不可靠的設備管控平面
框式設備各部件透過硬體高度整合、可靠度極高的PCIe匯流排實現控制管理面互聯,並設備都使用雙主機板設計,確保設備的管控平面高可靠。 DDC則使用「壞了就換」的易損模組線纜互連,構築多設備集群並支撐集群管控平面運作。雖然突破了框式設備的規模,但這種不可靠的互聯方式為管控面帶來了極大風險。兩台設備堆疊,異常時會出現腦裂、表項不同步等問題。對於DDC這不可靠的管控平面而言,這種問題更容易發生。
缺陷二:高度複雜的裝置NOS
#SONiC社群已有基於VOQ架構下的分散式轉送機框設計,並持續迭代補充與修改以便於滿足對DDC的支援。雖然白盒確實已經有很多落地案例,但「白框」卻少有人挑戰。建構一個拉遠的“白框”,不僅需要考慮集群內多設備的狀態、表項資訊的同步和管理,還需要考慮到版本升級、回滾、熱補丁等多個實際場景在多設備下的系統化實現。 DDC對集群的NOS複雜度要求指數級提升,目前業界沒有成熟商用案例,存在很大的開發風險。
缺陷三:可維護方案缺失
網路是不可靠的,因此ETH網路做了大量可維護和可定位的特性或工具,例如耳熟能詳的INT、MOD。這些工具可以對特定的流進行監控,並識別丟包的流特徵,從而進行定位排障。但DDC使用的信元僅是報文的一個切片,沒有相關IP等五元組信息,無法關聯到具體的業務流。 DDC一旦出現丟包問題,目前的運維手段無法定位到丟包點,維護方案嚴重缺失。
缺陷四:成本提升
DDC為突破機框尺寸限制,需要將叢集的各裝置透過高速的線纜/模組連網;連網成本遠高於框式設備線路卡和網板之間透過PCB走線和高速連結器互聯,且規模越大互聯成本越高。
同時為降低單點功耗集中,透過線纜/模組互聯的DDC叢集整體功耗高於框式裝置。相同一代的晶片,假設DDC集群設備之間以模組互聯,集群功耗較框式設備高30%。
拒絕炒剩飯,DDC方案同樣不適用於AI網絡
DDC方案的不成熟和不完善,在DCI場景上已黯然退場。但目前在AI風口下竟然死灰復燃。筆者認為,DDC同樣不適用於AI網絡,接下來我們將詳細分析。
AI網路的兩大核心訴求:高吞吐、低時延
AI網路支撐的業務其特徵是流數量少,單一流的頻寬大;同時流量不均勻,常出現多打一或多打多的情況(All-to-All和All-Reduce)。所以極易出現流量負載不均、連結利用率低、頻繁的流量壅塞所導致的丟包等問題,無法充分釋放算力。
DDC只解決了Hash問題,同樣帶來眾多缺陷
DDC使用信元交換將封包切片成Cells,並根據可達資訊採用輪詢機制發送。流量負載會較為平衡的分配到每一條鏈路,實現頻寬的充分利用,並較好解決了Hash問題。但在這個之外,DDC在AI場景依然存在四大缺陷。
缺陷一:硬體要求特定設備,封閉專網不通用
DDC架構中的訊號元交換和VOQ技術,皆依賴特定硬體晶片實作。目前DCN網路設備均無法利舊使用。 ETH網的快速發展,得益於其即插即用的便利性和通用化、標準化。 DCC依賴硬體並透過私有的交換協定建構了一張封閉的專網,並不通用。
缺陷二:大快取設計增加網路成本,不適合大規格DCN組網
DDC方案若進入DCN,除去高昂的連網成本外,還背負著晶片大快取的成本負擔。 DCN網路目前皆使用小型快取設備,最大僅64M;而源自DCI場景的DDC方案通常晶片的HBM達到上GB。大規模的DCN網路相較DCI而言,更在意網路成本。
缺陷三:網路靜態時延增加,不符合AI場景
作為釋放算力的高效能AI網絡,目標時縮短業務的完成時間。 DDC的大快取能力將封包緩存,勢必增加硬體轉送靜態延遲。同時訊號元交換,對封包的切片、封裝和重組,同樣增加網路轉送延遲。透過測試資料比較,DDC較傳統ETH網轉送時延增大1.4倍。
缺陷四:隨著DC規模增加,DDC不可靠的問題會更劣化
相對DDC在DCI場景取代框式裝置的場景而言, DDC進入DCN需要滿足更大的一個集群,至少滿足一個網路POD。這意味著這個拉遠的「框「,各個部件距離更遠。那麼對於這個集群的管控平面的可靠性、設備網路NOS的同步管理、網路POD級的運維管理要求更高。 DDC的各種缺陷將會裂解。
DDC最多是個過渡方案
當然,任何問題都不是不能解決的。接受部分約束,對於這種特定場景,很容易成為各大廠「炫技」的舞台。網路追求可靠、極簡、高效,厭棄複雜度。特別是目前「減員增效」的大背景下,確實要考慮下DDC落地的代價。
Faced with the problem of network load sharing in AI scenarios, many cases have been solved through global static or dynamic orchestration of forwarding paths. In the future, it can also be solved through the network card on the end side based on Packet Spray and out-of-order Solved by rearrangement. Therefore, DDC is at best a short-term transition plan.
After a deep dive, the driving force behind DDC may be DNX
Finally, let’s talk about the mainstream network chip companyBroadcom (Broadcom), we compare The two familiar product series are StrataXGS and StrataDNX. XGS continues the high-bandwidth, low-cost route, quickly launches small cache, large-bandwidth chip products, and continues to dominate the DCN network occupancy rate. StrataDNX, however, carries the cost of a large cache and continues the myth of VOQ cell exchange, hoping that DDC will enter DC to continue its life. There seems to be no case in North America. The domestic DDC may be the last straw for DNX.
Today, a large number of hardware facilities such as GPUs have been restricted to a certain extent in our country. Do we really need DDC? Let’s leave more opportunities for domestically produced devices!
以上是用DDC來建構AI網路?這可能只是一個美好的幻覺的詳細內容。更多資訊請關注PHP中文網其他相關文章!