Rumah > Artikel > Peranti teknologi > Gunakan DDC untuk membina rangkaian AI? Ini mungkin hanya ilusi yang indah
ChatGPT, AIGC, model besar... Satu siri istilah yang mempesonakan telah muncul, dan nilai komersial AI telah menarik perhatian besar daripada masyarakat. Apabila skala model latihan meningkat, pusat data rangkaian yang menyokong kuasa pengkomputeran AI juga telah menjadi topik hangat. Tingkatkan kecekapan kuasa pengkomputeran dan bina rangkaian berprestasi tinggi... Pengeluar utama menunjukkan bakat mereka dan bekerja keras untuk membuka "landasan F1 baharu" untuk rangkaian AI dalam industri Ethernet.
Dalam perlumbaan senjata AI ini, DDC membuat penampilan berprofil tinggi dan semalaman seolah-olah menjadi sinonim dengan teknologi revolusioner untuk membina rangkaian AI berprestasi tinggi. Tetapi adakah ia benar-benar indah seperti yang kelihatan? Marilah kita menganalisis secara terperinci dan menilai dengan tenang.
Bermula pada 2019, intipati DDC adalah untuk menggantikan penghala bingkai dengan penghala kotak
Dengan pertumbuhan pesat trafik DCN, keperluan untuk peningkatan rangkaian DCI semakin meningkat semakin mendesak. Walau bagaimanapun, kapasiti pengembangan peralatan bingkai penghala DCI adalah terhad oleh saiz bingkai pada masa yang sama, peralatan menggunakan kuasa tinggi Apabila mengembangkan bingkai, keperluan untuk kuasa kabinet dan pelesapan haba adalah tinggi, dan kos transformasi adalah tinggi. Berdasarkan latar belakang ini, pada tahun 2019 AT&T menyerahkan spesifikasi penghala kotak berdasarkan cip komersial kepada OCP dan mencadangkan konsep DDC (Distributed Distributed Chassis). Ringkasnya, DDC menggunakan kluster yang terdiri daripada beberapa peranti berkotak kuasa rendah untuk menggantikan unit perkakasan seperti kad talian perkhidmatan dan papan rangkaian peranti modular. Peranti berkotak disambungkan melalui kabel. Keseluruhan kluster diuruskan melalui NOS (sistem pengendalian rangkaian) terpusat atau teragih untuk memecahkan kesesakan prestasi dan penggunaan kuasa peralatan rangka tunggal DCI.
Kelebihan yang dituntut oleh DDC termasuk:
Memecahkan had pengembangan peralatan jenis bingkai: Pengembangan dicapai melalui pelbagai -penghimpunan peranti, tanpa kawalan mesin Sekatan saiz bingkai;
Mengurangkan penggunaan kuasa satu titik: Berbilang peranti jenis kotak kuasa rendah digunakan dalam cara terpencar, yang menyelesaikan masalah penggunaan kuasa tertumpu dan mengurangkan kuasa kabinet dan keperluan pelesapan haba
Tingkatkan penggunaan lebar jalur: Berbanding dengan pertukaran Hash rangkaian ETH tradisional, DDC menggunakan pertukaran sel (Sel); dan melaksanakan pengimbangan beban berdasarkan Sel, yang membantu Untuk meningkatkan penggunaan jalur lebar; keperluan nisbah penumpuan bagi senario DCI. Pertama, teknologi VOQ (Virtual Output Queue) digunakan untuk memperuntukkan paket yang diterima dalam rangkaian kepada outqueues maya yang berbeza, dan kemudian menggunakan mekanisme komunikasi Kredit untuk menentukan bahawa hujung penerima mempunyai ruang penimbal yang mencukupi sebelum menghantar paket ini, dengan itu mengurangkan risiko kehilangan Paket disebabkan oleh kesesakan jalan keluar.
Penyelesaian DDC hanyalah kilat dalam kuali dalam adegan DCI
Idea nampak sempurna, tetapi pelaksanaannya adalah tidak lancar. Produk Awan Rangkaian DriveNets ialah penyelesaian DDC komersial yang pertama dan satu-satunya dalam industri, dan keseluruhan perisian disesuaikan dengan penghala kotak putih universal. Bagaimanapun, tiada kes jualan yang jelas dilihat di pasaran setakat ini. Sebagai pencadang penyelesaian seni bina DDC, AT&T menggunakan penyelesaian DDC dalam skala kelabu dalam IP
rangkaian tulang belakang yang dibina sendiri pada tahun 2020, tetapi terdapat sedikit susulan. Mengapa percikan ini tidak menghasilkan banyak ombak? Ini harus dikaitkan dengan empat kelemahan utama DDC.
Kecacatan 1: Pengurusan peralatan dan satah kawalan yang tidak boleh dipercayaiKomponen peralatan berbingkai merealisasikan sambungan satah kawalan dan pengurusan melalui bas PCIe yang sangat bersepadu dan boleh dipercayai. Semua peralatan menggunakan reka bentuk papan kawalan dwi utama untuk memastikan kebolehpercayaan yang tinggi bagi satah pengurusan dan kawalan peralatan. DDC menggunakan kabel modul terdedah "ganti jika rosak" untuk saling bersambung bagi membina kluster berbilang peranti dan menyokong operasi satah pengurusan dan kawalan kluster. Walaupun ia menembusi skala peralatan jenis kotak, kaedah interkoneksi yang tidak boleh dipercayai ini membawa risiko besar kepada permukaan pengurusan dan kawalan. Apabila dua peranti disusun, masalah seperti otak berpecah dan tidak disegerakkan entri jadual mungkin berlaku. Bagi bidang pengurusan dan kawalan DDC yang tidak boleh dipercayai, masalah seperti ini lebih berkemungkinan berlaku.
Kecacatan 2: Peralatan yang sangat kompleks NOS
Komuniti SONiC telah pun mereka bentuk bingkai pemajuan teragih berdasarkan seni bina VOQ, dan terus mengulang dan mengubah suainya untuk menyokong DDC. Walaupun terdapat banyak kes pelaksanaan kotak putih, beberapa orang mencabar "kotak putih". Untuk membina "bingkai putih" jauh, kita bukan sahaja perlu mempertimbangkan status berbilang peranti dalam gugusan, penyegerakan dan pengurusan maklumat kemasukan jadual, tetapi juga perlu mempertimbangkan berbilang senario praktikal seperti peningkatan versi, rollback dan panas. tampalan di bawah pelaksanaan berbilang peranti. DDC telah meningkatkan keperluan kerumitan NOS secara eksponen untuk kluster Pada masa ini, tiada kes komersial yang matang dalam industri, dan terdapat risiko pembangunan yang besar.
Kecacatan 3: Kekurangan penyelesaian yang boleh diselenggara
Rangkaian tidak boleh dipercayai, jadi rangkaian ETH telah membuat banyak ciri atau alatan yang boleh diselenggara dan diposisikan, seperti yang biasa INT, MOD. Alat ini boleh memantau aliran tertentu dan mengenal pasti ciri aliran kehilangan paket untuk mencari dan menyelesaikan masalah. Walau bagaimanapun, sel yang digunakan oleh DDC hanyalah sekeping mesej, tanpa IP yang berkaitan dan maklumat lima tuple yang lain, dan tidak boleh dikaitkan dengan aliran perkhidmatan tertentu. Sebaik sahaja kehilangan paket berlaku dalam DDC, kaedah operasi dan penyenggaraan semasa tidak dapat mengesan titik kehilangan paket, dan pelan penyelenggaraan amat kurang.
Kecacatan 4: Peningkatan kos
Untuk menembusi had saiz bingkai, DDC perlu menyambungkan pelbagai peranti dalam kelompok melalui kabel/modul berkelajuan tinggi ; kos penyambungan adalah jauh Kad talian dan papan rangkaian yang lebih tinggi daripada peralatan jenis bingkai disambungkan melalui jejak PCB dan pautan berkelajuan tinggi, dan semakin besar skala, semakin tinggi kos penyambungan.
Pada masa yang sama, untuk mengurangkan kepekatan penggunaan kuasa pada satu titik, penggunaan kuasa keseluruhan gugusan DDC yang saling bersambung melalui kabel/modul adalah lebih tinggi daripada peranti jenis bingkai. Untuk cip generasi yang sama, dengan mengandaikan bahawa peranti kluster DDC disambungkan oleh modul, penggunaan kuasa kluster adalah 30% lebih tinggi daripada peranti jenis bingkai.
Enggan menggoreng sisa, penyelesaian DDC juga tidak sesuai untuk rangkaian AI
Ketidakmatangan dan ketidaksempurnaan penyelesaian DDC dengan sedihnya telah meninggalkan adegan DCI. Tetapi pada masa ini, ia telah membuat kebangkitan semula di bawah tekanan AI. Penulis percaya bahawa DDC juga tidak sesuai untuk rangkaian AI Seterusnya, kami akan menganalisisnya secara terperinci.
Dua permintaan teras rangkaian AI: daya pemprosesan tinggi dan kependaman rendah
Ciri-ciri perkhidmatan yang disokong oleh rangkaian AI ialah bilangan aliran yang kecil dan lebar jalur yang besar bagi satu aliran; Pada masa yang sama, aliran trafik tidak sekata, dan selalunya terdapat situasi di mana satu atau lebih terjejas (All-to-All dan All-Reduce). Oleh itu, ia sangat terdedah kepada masalah seperti beban trafik yang tidak sekata, penggunaan pautan rendah, kehilangan paket yang disebabkan oleh kesesakan lalu lintas yang kerap, dsb., dan tidak dapat melepaskan sepenuhnya kuasa pengkomputeran.
DDC hanya menyelesaikan masalah Hash, tetapi juga membawa banyak kecacatan
DDC menggunakan penukaran sel untuk menghiris mesej ke dalam Sel, dan menggunakan tinjauan berdasarkan mekanisme maklumat kebolehcapaian adalah dihantar. Beban trafik akan diagihkan kepada setiap pautan dengan cara yang agak seimbang, menggunakan lebar jalur sepenuhnya dan menyelesaikan masalah cincang dengan lebih baik. Tetapi selain daripada ini, DDC masih mempunyai empat kelemahan utama dalam senario AI.
Kecacatan 1: Perkakasan memerlukan peralatan khusus dan tidak universal untuk rangkaian peribadi tertutup
Pensuisan sel dan teknologi VOQ dalam seni bina DDC semuanya bergantung pada perkakasan tertentu. cip untuk pelaksanaan. Pada masa ini, peralatan rangkaian DCN tidak boleh digunakan semula. Perkembangan pesat rangkaian ETH mendapat manfaat daripada kemudahan plug-and-play, generalisasi dan penyeragaman. DCC bergantung pada perkakasan dan membina rangkaian peribadi tertutup melalui protokol pensuisan proprietari, yang tidak universal.
Kecacatan 2: Reka bentuk cache yang besar meningkatkan kos rangkaian dan tidak sesuai untuk rangkaian DCN berskala besar
Jika penyelesaian DDC memasuki DCN, sebagai tambahan kepada tinggi kos penyambungan, ia juga menanggung beban Ini mengurangkan beban kos cache besar pada cip. Rangkaian DCN pada masa ini menggunakan peranti cache kecil, dengan maksimum hanya 64M penyelesaian DDC yang diperoleh daripada senario DCI biasanya mempunyai cip HBM melebihi GB. Berbanding dengan DCI, rangkaian DCN berskala besar lebih mementingkan kos rangkaian.
Kecacatan 3: Kelewatan rangkaian statik meningkat dan tidak sepadan dengan senario AI
Sebagai rangkaian AI berprestasi tinggi yang mengeluarkan kuasa pengkomputeran, matlamatnya ialah untuk memendekkan masa penyiapan perkhidmatan. Keupayaan cache yang besar bagi paket cache DDC, yang pasti akan meningkatkan kelewatan statik pemajuan perkakasan. Pada masa yang sama, penukaran sel, penghirisan, enkapsulasi dan pemasangan semula mesej turut meningkatkan kelewatan penghantaran semula rangkaian. Melalui ujian perbandingan data, kelewatan pemajuan DDC meningkat sebanyak 1.4 kali ganda berbanding dengan rangkaian ETH tradisional.
Kecacatan 4: Apabila skala DC meningkat, masalah ketidakpercayaan DDC akan bertambah buruk
Berbanding dengan senario di mana DDC menggantikan peralatan berasaskan bingkai dalam senario DCI, DDC perlu memenuhi kluster yang lebih besar untuk memasuki DCN, atau sekurang-kurangnya satu POD rangkaian. Ini bermakna bahawa "kotak" adalah lebih jauh, dan komponen adalah lebih jauh. Kemudian terdapat keperluan yang lebih tinggi untuk kebolehpercayaan satah pengurusan dan kawalan kelompok ini, pengurusan penyegerakan NOS rangkaian peranti, dan pengurusan operasi dan penyelenggaraan peringkat POD rangkaian. Pelbagai kelemahan DDC akan retak.
DDC adalah paling banyak penyelesaian peralihan
Sudah tentu, tiada masalah yang tidak dapat diselesaikan. Menerima beberapa kekangan, senario khusus ini dengan mudah boleh menjadi peringkat bagi pengeluar utama untuk "menunjukkan kemahiran mereka". Rangkaian mengejar kebolehpercayaan, kesederhanaan dan kecekapan, dan menolak kerumitan. Terutama di bawah latar belakang semasa "mengurangkan kakitangan dan meningkatkan kecekapan", kita benar-benar perlu mempertimbangkan kos pelaksanaan DDC.
Apabila berhadapan dengan masalah perkongsian beban rangkaian dalam senario AI, banyak kes telah diselesaikan melalui orkestrasi statik atau dinamik laluan pemajuan pada masa hadapan, ia juga boleh diselesaikan melalui kad rangkaian bahagian terminal. berdasarkan Packet Spray dan out-of-order Diselesaikan dengan penyusunan semula. Oleh itu, DDC adalah pelan peralihan jangka pendek yang terbaik.
Selepas menyelam secara mendalam, kuasa penggerak di sebalik DDC mungkin DNX
Akhir sekali, mari kita bercakap tentang syarikat cip rangkaian arus perdana Broadcom (Broadcom ), kami lebih Dua siri produk biasa ialah StrataXGS dan StrataDNX. XGS meneruskan laluan lebar jalur tinggi, kos rendah, dengan cepat melancarkan produk cip dengan cache kecil dan lebar jalur yang besar, dan terus menguasai kadar penghunian rangkaian DCN. StrataDNX, bagaimanapun, menanggung kos cache yang besar dan meneruskan mitos pertukaran sel VOQ+, dengan harapan DDC akan memasuki DC untuk meneruskan hayatnya. Nampaknya tidak ada kes di Amerika Utara DDC Domestik mungkin yang terakhir untuk DNX.
Hari ini, sejumlah besar kemudahan perkakasan seperti GPU telah dihadkan pada tahap tertentu di negara kita. Adakah kita benar-benar memerlukan DDC? Mari tinggalkan lebih banyak peluang untuk peranti keluaran dalam negara!
Atas ialah kandungan terperinci Gunakan DDC untuk membina rangkaian AI? Ini mungkin hanya ilusi yang indah. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!