用DDC來建構AI網路？這可能只是一個美好的幻覺-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

用DDC來建構AI網路？這可能只是一個美好的幻覺

PHPz

May 11, 2023 pm 01:46 PM

ai網路

用DDC來建構AI網路？這可能只是一個美好的幻覺

ChatGPT、AIGC、大模型……一系列眼花撩亂的名詞橫空出世，AI商業價值引發社會的高度關注。隨著訓練模型規模的成長，支撐AI算力的資料中心網路也成為熱點。提升算力效率，建構高效能網路…大廠們各顯神通，努力在以太產業宏圖上開拓AI網路的「F1新賽道」。

在這場AI的軍備競賽中，DDC高調出鏡，一夕之間似乎成為了建構高性能AI網路革命性技術的代名詞。但真如看上去那麼美好嗎？讓我們詳細分析，冷靜判斷。

始於2019年，DDC的本質是以盒盒路由器取代框式路由器

隨著DCN流量的快速成長，DCI網路升級需求日益迫切。然而，DCI路由器框式設備擴容能力受機框大小限制；同時設備功耗大，擴容機框時對機櫃電力、散熱等要求較高，改造成本高。在此背景下，2019年AT&T向OCP提交了基於商用晶片的盒式路由器規範，提出了DDC（Disaggregated Distributed Chassis）的概念。簡單來說，DDC就是使用若干個低功耗盒式設備組成的群集替換框式設備業務線卡和網板等硬體單元，盒式設備間透過線纜互連。整個叢集透過集中式或分散式的NOS（網路作業系統）管理，以期突破DCI單框裝置效能和功耗瓶頸的問題。

用DDC來建構AI網路？這可能只是一個美好的幻覺

DDC宣稱的優點包括：

突破框式裝置擴充限制：透過多裝置叢集實現擴容，不受機框尺寸限制；

降低單點功耗：多台低功耗的盒式設備分散部署，解決了功耗集中的問題，降低機櫃電力和散熱的要求；

提升頻寬利用率：與傳統的ETH網Hash交換相比，DDC採用訊號元（Cell）交換，基於Cell進行負載平衡，有助於於提升頻寬利用率；

用DDC來建構AI網路？這可能只是一個美好的幻覺

緩解丟包：使用裝置大快取能力滿足DCI場景高收斂比要求。先透過VOQ（Virtual Output Queue）技術先將網路中接收到的封包分配到不同的虛擬出佇列中，再透過Credit通訊機制確定接收端有足夠的快取空間後再發送這些報文，從而減少由於出口壅塞帶來的丟包。

用DDC來建構AI網路？這可能只是一個美好的幻覺

DDC方案在DCI場景僅曇花一現

想法看起來很完美，可落地卻並非一帆風順。 DriveNets公司的Network Cloud產品是業界第一個、也是唯一一個商用的DDC解決方案，整套軟體適配通用白盒路由器。但至今在市面上未見到明確的銷售案例。 AT&T作為DDC架構方案提出者，在2020年自建的IP 骨幹網路中灰階部署了DDC方案，但後續基本上也沒有太多聲響。為什麼這朵水花並沒有掀起多大的浪呢？這應該歸咎於DDC存在的四大缺陷。

缺陷一：不可靠的設備管控平面

框式設備各部件透過硬體高度整合、可靠度極高的PCIe匯流排實現控制管理面互聯，並設備都使用雙主機板設計，確保設備的管控平面高可靠。 DDC則使用「壞了就換」的易損模組線纜互連，構築多設備集群並支撐集群管控平面運作。雖然突破了框式設備的規模，但這種不可靠的互聯方式為管控面帶來了極大風險。兩台設備堆疊，異常時會出現腦裂、表項不同步等問題。對於DDC這不可靠的管控平面而言，這種問題更容易發生。

缺陷二：高度複雜的裝置NOS

SONiC社群已有基於VOQ架構下的分散式轉送機框設計，並持續迭代補充與修改以便於滿足對DDC的支援。雖然白盒確實已經有很多落地案例，但「白框」卻少有人挑戰。建構一個拉遠的“白框”，不僅需要考慮集群內多設備的狀態、表項資訊的同步和管理，還需要考慮到版本升級、回滾、熱補丁等多個實際場景在多設備下的系統化實現。 DDC對集群的NOS複雜度要求指數級提升，目前業界沒有成熟商用案例，存在很大的開發風險。

缺陷三：可維護方案缺失

網路是不可靠的，因此ETH網路做了大量可維護和可定位的特性或工具，例如耳熟能詳的INT、MOD。這些工具可以對特定的流進行監控，並識別丟包的流特徵，從而進行定位排障。但DDC使用的信元僅是報文的一個切片，沒有相關IP等五元組信息，無法關聯到具體的業務流。 DDC一旦出現丟包問題，目前的運維手段無法定位到丟包點，維護方案嚴重缺失。

缺陷四：成本提升

DDC為突破機框尺寸限制，需要將叢集的各裝置透過高速的線纜/模組連網；連網成本遠高於框式設備線路卡和網板之間透過PCB走線和高速連結器互聯，且規模越大互聯成本越高。

同時為降低單點功耗集中，透過線纜/模組互聯的DDC叢集整體功耗高於框式裝置。相同一代的晶片，假設DDC集群設備之間以模組互聯，集群功耗較框式設備高30%。

拒絕炒剩飯，DDC方案同樣不適用於AI網絡

DDC方案的不成熟和不完善，在DCI場景上已黯然退場。但目前在AI風口下竟然死灰復燃。筆者認為，DDC同樣不適用於AI網絡，接下來我們將詳細分析。

AI網路的兩大核心訴求：高吞吐、低時延

AI網路支撐的業務其特徵是流數量少，單一流的頻寬大；同時流量不均勻，常出現多打一或多打多的情況（All-to-All和All-Reduce）。所以極易出現流量負載不均、連結利用率低、頻繁的流量壅塞所導致的丟包等問題，無法充分釋放算力。

DDC只解決了Hash問題，同樣帶來眾多缺陷

DDC使用信元交換將封包切片成Cells，並根據可達資訊採用輪詢機制發送。流量負載會較為平衡的分配到每一條鏈路，實現頻寬的充分利用，並較好解決了Hash問題。但在這個之外，DDC在AI場景依然存在四大缺陷。

缺陷一：硬體要求特定設備，封閉專網不通用

DDC架構中的訊號元交換和VOQ技術，皆依賴特定硬體晶片實作。目前DCN網路設備均無法利舊使用。 ETH網的快速發展，得益於其即插即用的便利性和通用化、標準化。 DCC依賴硬體並透過私有的交換協定建構了一張封閉的專網，並不通用。

缺陷二：大快取設計增加網路成本，不適合大規格DCN組網

DDC方案若進入DCN，除去高昂的連網成本外，還背負著晶片大快取的成本負擔。 DCN網路目前皆使用小型快取設備，最大僅64M；而源自DCI場景的DDC方案通常晶片的HBM達到上GB。大規模的DCN網路相較DCI而言，更在意網路成本。

缺陷三：網路靜態時延增加，不符合AI場景

作為釋放算力的高效能AI網絡，目標時縮短業務的完成時間。 DDC的大快取能力將封包緩存，勢必增加硬體轉送靜態延遲。同時訊號元交換，對封包的切片、封裝和重組，同樣增加網路轉送延遲。透過測試資料比較，DDC較傳統ETH網轉送時延增大1.4倍。

缺陷四：隨著DC規模增加，DDC不可靠的問題會更劣化

相對DDC在DCI場景取代框式裝置的場景而言， DDC進入DCN需要滿足更大的一個集群，至少滿足一個網路POD。這意味著這個拉遠的「框「，各個部件距離更遠。那麼對於這個集群的管控平面的可靠性、設備網路NOS的同步管理、網路POD級的運維管理要求更高。 DDC的各種缺陷將會裂解。

DDC最多是個過渡方案

當然，任何問題都不是不能解決的。接受部分約束，對於這種特定場景，很容易成為各大廠「炫技」的舞台。網路追求可靠、極簡、高效，厭棄複雜度。特別是目前「減員增效」的大背景下，確實要考慮下DDC落地的代價。

Faced with the problem of network load sharing in AI scenarios, many cases have been solved through global static or dynamic orchestration of forwarding paths. In the future, it can also be solved through the network card on the end side based on Packet Spray and out-of-order Solved by rearrangement. Therefore, DDC is at best a short-term transition plan.

After a deep dive, the driving force behind DDC may be DNX

Finally, let’s talk about the mainstream network chip companyBroadcom (Broadcom), we compare The two familiar product series are StrataXGS and StrataDNX. XGS continues the high-bandwidth, low-cost route, quickly launches small cache, large-bandwidth chip products, and continues to dominate the DCN network occupancy rate. StrataDNX, however, carries the cost of a large cache and continues the myth of VOQ cell exchange, hoping that DDC will enter DC to continue its life. There seems to be no case in North America. The domestic DDC may be the last straw for DNX.

Today, a large number of hardware facilities such as GPUs have been restricted to a certain extent in our country. Do we really need DDC? Let’s leave more opportunities for domestically produced devices!

以上是用DDC來建構AI網路？這可能只是一個美好的幻覺的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

擁抱面部是否7B型號奧林匹克賽車擊敗克勞德3.7？Apr 23, 2025 am 11:49 AM

擁抱Face的OlympicCoder-7B：強大的開源代碼推理模型開發以代碼為中心的語言模型的競賽正在加劇，擁抱面孔與強大的競爭者一起參加了比賽：OlympicCoder-7B，一種產品

4個新的雙子座功能您可以錯過Apr 23, 2025 am 11:48 AM

你們當中有多少人希望AI可以做更多的事情，而不僅僅是回答問題？我知道我有，最近，我對它的變化感到驚訝。 AI聊天機器人不僅要聊天，還關心創建，研究

Camunda為經紀人AI編排編寫了新的分數Apr 23, 2025 am 11:46 AM

隨著智能AI開始融入企業軟件平台和應用程序的各個層面（我們必須強調的是，既有強大的核心工具，也有一些不太可靠的模擬工具），我們需要一套新的基礎設施能力來管理這些智能體。總部位於德國柏林的流程編排公司Camunda認為，它可以幫助智能AI發揮其應有的作用，並與新的數字工作場所中的準確業務目標和規則保持一致。該公司目前提供智能編排功能，旨在幫助組織建模、部署和管理AI智能體。從實際的軟件工程角度來看，這意味著什麼？確定性與非確定性流程的融合該公司表示，關鍵在於允許用戶（通常是數據科學家、軟件

策劃的企業AI體驗是否有價值？Apr 23, 2025 am 11:45 AM

參加Google Cloud Next '25，我渴望看到Google如何區分其AI產品。有關代理空間（此處討論）和客戶體驗套件（此處討論）的最新公告很有希望，強調了商業價值

如何為抹布找到最佳的多語言嵌入模型？Apr 23, 2025 am 11:44 AM

為您的檢索增強發電（RAG）系統選擇最佳的多語言嵌入模型在當今的相互聯繫的世界中，建立有效的多語言AI系統至關重要。強大的多語言嵌入模型對於RE至關重要

麝香：奧斯汀的機器人需要每10,000英里進行干預Apr 23, 2025 am 11:42 AM

特斯拉的Austin Robotaxi發射：仔細觀察Musk的主張埃隆·馬斯克（Elon Musk）最近宣布，特斯拉即將在德克薩斯州奧斯汀推出的Robotaxi發射，最初出於安全原因部署了一支小型10-20輛汽車，並有快速擴張的計劃。 h

AI震驚的樞軸：從工作工具到數字治療師和生活教練Apr 23, 2025 am 11:41 AM

人工智能的應用方式可能出乎意料。最初，我們很多人可能認為它主要用於代勞創意和技術任務，例如編寫代碼和創作內容。然而，哈佛商業評論最近報導的一項調查表明情況並非如此。大多數用戶尋求人工智能的並非是代勞工作，而是支持、組織，甚至是友誼！報告稱，人工智能應用案例的首位是治療和陪伴。這表明其全天候可用性以及提供匿名、誠實建議和反饋的能力非常有價值。另一方面，營銷任務（例如撰寫博客、創建社交媒體帖子或廣告文案）在流行用途列表中的排名要低得多。這是為什麼呢？讓我們看看研究結果及其對我們人類如何繼續將