Rumah  >  Artikel  >  Peranti teknologi  >  Apakah ciri-ciri rangkaian yang sesuai untuk memacu AIGC?

Apakah ciri-ciri rangkaian yang sesuai untuk memacu AIGC?

WBOY
WBOYke hadapan
2023-04-22 15:43:17818semak imbas

2023 akan menjadi tahun apabila teknologi kecerdasan buatan AI meledak dalam populariti.

Model besar AIGC yang diwakili oleh ChatGPT, GPT-4 dan Wen Xinyiyan mengintegrasikan penulisan teks, pembangunan kod, penciptaan puisi dan fungsi lain menjadi satu, menunjukkan keupayaan pengeluaran kandungan yang kukuh dan membawa Orang ramai sangat terkejut.

Sebagai orang lama dalam komunikasi, selain model besar AIGC itu sendiri, Xiao Zaojun lebih mementingkan teknologi komunikasi di sebalik model tersebut. Apakah jenis rangkaian berkuasa yang menyokong operasi AIGC? Di samping itu, apakah jenis perubahan yang akan dibawa oleh gelombang AI kepada rangkaian tradisional?

█ AIGC, berapa banyak kuasa pengkomputeran yang diperlukan?

Seperti yang kita sedia maklum, data, algoritma dan kuasa pengkomputeran adalah tiga elemen asas untuk pembangunan kecerdasan buatan.

Apakah ciri-ciri rangkaian yang sesuai untuk memacu AIGC?

Sebab model besar AIGC yang disebutkan di atas sangat berkuasa bukan sahaja kerana suapan data yang besar di belakangnya, tetapi juga kerana algoritma sentiasa berkembang dan menaik taraf. Lebih penting lagi, skala kuasa pengkomputeran manusia telah berkembang pada tahap tertentu. Infrastruktur pengkomputeran yang berkuasa boleh menyokong sepenuhnya keperluan pengkomputeran AIGC.

Dengan pembangunan AIGC, parameter model latihan telah melonjak daripada ratusan bilion kepada trilion. Untuk melengkapkan latihan berskala besar itu, bilangan GPU yang disokong oleh lapisan asas juga telah mencapai skala 10,000 kad.

Ambil ChatGPT sebagai contoh Mereka menggunakan infrastruktur superkomputer Microsoft untuk latihan Dikatakan bahawa 10,000 GPU V100 digunakan untuk membentuk kluster lebar jalur tinggi. Satu latihan memerlukan lebih kurang 3640 PF-hari kuasa pengkomputeran (iaitu 1 kuadrilion pengiraan sesaat, berjalan selama 3640 hari).

Kuasa pengkomputeran FP32 bagi V100 ialah 0.014 PFLOPS (unit kuasa pengkomputeran, bersamaan dengan 1 kuadrilion operasi titik terapung sesaat). Sepuluh ribu V100, itu 140 PFLOPS.

Dengan kata lain, jika penggunaan GPU adalah 100%, maka ia akan mengambil masa 3640÷140=26 (hari) untuk menyelesaikan sesi latihan.

Penggunaan GPU adalah mustahil untuk mencapai 100%. Jika dikira sebagai 33% (andaian penggunaan yang disediakan oleh OpenAI), ia akan menjadi 26 kali tiga kali, iaitu bersamaan dengan 78 hari.

Dapat dilihat bahawa kuasa pengkomputeran GPU dan penggunaan GPU mempunyai impak yang besar pada latihan model besar.

Maka persoalannya ialah, apakah faktor terbesar yang mempengaruhi penggunaan GPU?

Jawapannya ialah: rangkaian.

Sepuluh ribu atau bahkan puluhan ribu GPU, sebagai gugusan pengkomputeran, memerlukan sejumlah besar lebar jalur untuk berinteraksi dengan gugusan storan. Di samping itu, apabila kluster GPU melakukan pengiraan latihan, mereka tidak bebas, tetapi bercampur dan selari. Terdapat sejumlah besar pertukaran data antara GPU, yang juga memerlukan lebar jalur yang besar.

Jika rangkaian tidak kuat dan penghantaran data perlahan, GPU perlu menunggu data, mengakibatkan penggunaan berkurangan. Apabila penggunaan berkurangan, masa latihan akan meningkat, kos akan meningkat, dan pengalaman pengguna akan merosot.

Industri pernah membuat model untuk mengira hubungan antara pemprosesan lebar jalur rangkaian, kelewatan komunikasi dan penggunaan GPU, seperti yang ditunjukkan dalam rajah di bawah:

Apakah ciri-ciri rangkaian yang sesuai untuk memacu AIGC?

Seperti anda boleh lihat, lebih kuat keupayaan pemprosesan rangkaian, lebih tinggi penggunaan GPU; lebih besar kelewatan dinamik komunikasi, lebih rendah penggunaan GPU.

Ringkasnya, jika anda tidak mempunyai rangkaian yang baik, jangan bermain dengan model besar.

█ Apakah jenis rangkaian yang boleh menyokong operasi AIGC?

Untuk mengatasi pelarasan rangkaian yang disebabkan oleh pengkomputeran kelompok AI, industri juga telah memikirkan pelbagai cara.

Terdapat tiga strategi tindak balas tradisional utama: Infiniband, RDMA dan suis modular. Mari kita lihat secara ringkas setiap daripada mereka.

Rangkaian Infiniband


Infiniband (diterjemah secara literal sebagai teknologi "jalur lebar tanpa had", disingkatkan sebagai IB), kasut kanak-kanak yang terlibat dalam komunikasi data haruslah biasa .


Ini merupakan cara terbaik untuk membina rangkaian berprestasi tinggi pada masa ini, dengan lebar jalur yang sangat tinggi, yang tidak boleh mencapai kesesakan dan kependaman rendah. Apa yang digunakan oleh ChatGPT dan GPT-4 dikatakan sebagai rangkaian Infiniband.


Jika terdapat sebarang kelemahan rangkaian Infiniband, ia adalah satu perkataan - mahal. Berbanding dengan rangkaian Ethernet tradisional, kos rangkaian Infiniband akan menjadi beberapa kali lebih mahal. Teknologi ini agak tertutup pada masa ini hanya terdapat satu pembekal matang dalam industri, dan pengguna mempunyai sedikit pilihan.


  • Rangkaian RDMA


Nama penuh RDMA ialah Remote Direct Memory Access (Remote Akses Data Langsung). Ia adalah jenis mekanisme komunikasi baharu. Dalam penyelesaian RDMA, data aplikasi tidak lagi melalui CPU dan sistem pengendalian yang kompleks, tetapi secara langsung berkomunikasi dengan kad rangkaian, yang bukan sahaja meningkatkan daya pengeluaran tetapi juga mengurangkan kependaman.


Apakah ciri-ciri rangkaian yang sesuai untuk memacu AIGC?


Apabila RDMA mula-mula dicadangkan, ia telah dibawa pada rangkaian InfiniBand. Kini, RDMA dipindahkan secara beransur-ansur ke Ethernet.


Pada masa ini, penyelesaian rangkaian arus perdana untuk rangkaian berprestasi tinggi adalah untuk membina rangkaian yang menyokong RDMA berdasarkan RoCE v2 (RDMA over Converged Ethernet, RDMA berdasarkan Converged Ethernet ) protokol .


Penyelesaian ini mempunyai dua teknologi pemadanan yang penting, iaitu PFC (Kawalan Aliran Keutamaan, kawalan aliran berasaskan keutamaan) dan ECN (Pemberitahuan Kesesakan Eksplisit, pemberitahuan kesesakan eksplisit). Ia adalah teknologi yang dicipta untuk mengelakkan kesesakan dalam pautan Walau bagaimanapun, jika ia dicetuskan dengan kerap, ia akan menyebabkan pengirim menangguhkan penghantaran atau memperlahankan penghantaran, sekali gus mengurangkan lebar jalur komunikasi. (Ia juga akan disebut di bawah)


  • Suis berbingkai


Ada beberapa di luar negara Syarikat Internet berharap untuk menggunakan suis modular (cip DNX + teknologi VOQ) untuk memenuhi keperluan membina rangkaian berprestasi tinggi.


DNX: siri cip broadcom (Broadcom)

VOQ: Barisan Output Maya, baris gilir output maya


Penyelesaian ini nampaknya boleh dilaksanakan, tetapi ia juga menghadapi cabaran berikut.


Pertama sekali, keupayaan pengembangan suis modular adalah sederhana. Saiz casis mengehadkan bilangan port maksimum Jika anda ingin membina kelompok yang lebih besar, anda perlu mengembangkan secara mendatar merentasi berbilang casis.


Kedua, penggunaan kuasa suis modular adalah tinggi. Terdapat sejumlah besar cip kad talian, cip fabrik, kipas, dan lain-lain dalam casis Penggunaan kuasa satu peranti melebihi 20,000 watt, malah ada yang melebihi 30,000 watt Keperluan untuk kapasiti bekalan kuasa kabinet adalah terlalu tinggi.


Ketiga, satu peranti suis modular mempunyai bilangan port yang besar dan domain kerosakan yang besar.


Berdasarkan sebab di atas, peralatan suis modular hanya sesuai untuk penggunaan skala kecil kelompok pengkomputeran AI.



█ Apakah sebenarnya DDC


Perkara yang dinyatakan di atas adalah semuanya rancangan tradisional. Oleh kerana penyelesaian tradisional ini tidak berfungsi, sudah tentu kita perlu mencari cara baharu.


Jadi, penyelesaian serba baharu yang dipanggil DDC membuat penampilan sulungnya.


DDC, nama penuhnya ialah Distributed Disaggregated Chassis.


Ia ialah "versi terbelah" suis bingkai hadapan. Keupayaan pengembangan suis modular tidak mencukupi, jadi kita hanya boleh membukanya dan menukar satu peranti kepada berbilang peranti Bukankah itu OK?


Apakah ciri-ciri rangkaian yang sesuai untuk memacu AIGC?


Peralatan berbingkai biasanya dibahagikan kepada papan rangkaian pensuisan (backplane) dan barisan perniagaan Kedua-duanya bahagian kad (kad papan) disambungkan antara satu sama lain dengan penyambung.


Penyelesaian DDC menukarkan papan rangkaian kepada peralatan NCF dan kad talian perniagaan kepada peralatan NCP. Penyambung menjadi gentian optik. Fungsi pengurusan peranti modular juga menjadi NCC dalam seni bina DDC.


NCF: Fabrik Awan Rangkaian (satah kawalan pengurusan awan rangkaian)

NCP: Pemprosesan Paket Awan Rangkaian (pemprosesan paket awan rangkaian)

NCC: Pengawal Awan Rangkaian


Selepas DDC ditukar daripada berpusat kepada diedarkan, kebolehskalaannya telah dipertingkatkan. Ia boleh mereka bentuk skala rangkaian secara fleksibel mengikut saiz kelompok AI.


Mari kita berikan dua contoh (rangkaian POD tunggal dan rangkaian berbilang POD).


Dalam rangkaian POD tunggal, 96 NCP digunakan sebagai pusat akses Antaranya, NCP mempunyai sejumlah 18 antara muka hiliran 400G, yang bertanggungjawab untuk menyambungkan rangkaian. kad kumpulan pengkomputeran AI. Terdapat sejumlah 40 antara muka 200G dalam pautan atas, dan maksimum 40 NCF boleh disambungkan dengan 96 antara muka 200G Jalur lebar pautan atas dan bawah pada skala ini mempunyai nisbah lebih kelajuan 1.1:1. Keseluruhan POD boleh menyokong 1,728 antara muka rangkaian 400G Dikira berdasarkan pelayan yang dilengkapi dengan 8 GPU, ia boleh menyokong 216 pelayan pengkomputeran AI.


Apakah ciri-ciri rangkaian yang sesuai untuk memacu AIGC?

Rangkaian POD tunggal


Rangkaian POD berbilang peringkat, skala boleh menjadi lebih besar .


Dalam rangkaian POD berbilang peringkat, peranti NCF mesti mengorbankan separuh daripada SerDes untuk menyambung ke NCF peringkat kedua. Oleh itu, pada masa ini, satu POD menggunakan 48 NCP untuk akses, dengan jumlah 18 antara muka 400G dalam pautan ke bawah.


Apakah ciri-ciri rangkaian yang sesuai untuk memacu AIGC?

Rangkaian berbilang POD


Satu POD boleh menyokong 864 A Antara muka 400G (48×18). Dengan menambahkan POD (8) secara mendatar, skala boleh dikembangkan dan keseluruhan sistem boleh menyokong maksimum 6912 port rangkaian 400G (864×8).


NCP mempunyai 40 pautan naik 200G dan bersambung kepada 40 NCF dalam POD. NCF dalam POD menggunakan 48 antara muka 200G, dan antara muka 48 200G dibahagikan kepada kumpulan 12 hulu ke NCF peringkat kedua. NCF tahap kedua menggunakan 40 satah (Satah), setiap satah mempunyai 4 NCF-P, bersamaan dengan 40 NCF dalam POD.


Nisbah terlebih kelajuan 1.1:1 dicapai dalam POD keseluruhan rangkaian (lebar jalur utara lebih besar daripada lebar jalur selatan), manakala nisbah lebih laju 1: 1 dicapai antara POD dan NCF sekunder nisbah penumpuan 1 (lebar jalur selatan/utara).


Apakah ciri-ciri rangkaian yang sesuai untuk memacu AIGC?



█ Ciri teknikal DDC


Dari perspektif skala dan pemprosesan lebar jalur, DDC sudah boleh memenuhi keperluan rangkaian untuk latihan model besar AI.


Walau bagaimanapun, proses pengendalian rangkaian adalah rumit, dan DDC juga perlu menambah baik dalam aspek seperti pertempuran kelewatan, pengimbangan beban dan kecekapan pengurusan.


  • Mekanisme pemajuan berdasarkan VOQ+Cell untuk memerangi kehilangan paket


Rangkaian adalah berfungsi Semasa proses, trafik pecah mungkin berlaku, menyebabkan hujung penerima tidak dapat memprosesnya, menyebabkan kesesakan dan kehilangan paket.


Untuk menangani situasi ini, DDC menggunakan mekanisme pemajuan berdasarkan VOQ+Cell.


Apakah ciri-ciri rangkaian yang sesuai untuk memacu AIGC?


Selepas pengirim menerima paket data daripada rangkaian, ia akan diklasifikasikan kepada VOQ (baris gilir keluaran maya).


Sebelum menghantar paket data, NCP akan menghantar mesej Kredit terlebih dahulu untuk menentukan sama ada hujung penerima mempunyai ruang penimbal yang mencukupi untuk memproses mesej ini.


Jika hujung penerima OK, paket akan dipecahkan kepada Sel (hirisan kecil paket) dan secara dinamik memuatkan seimbang ke nod Fabrik perantaraan (NCF).


Jika penghujung penerima tidak dapat memproses mesej buat sementara waktu, mesej itu akan disimpan sementara dalam VOQ penghujung penghantaran dan tidak akan dimajukan terus ke penghujung penerima. .


Pada penghujung penerimaan, Sel-sel ini akan disusun semula dan disimpan, dan kemudian dimajukan ke rangkaian.


Sel yang dihiris akan dihantar menggunakan mekanisme pengundian. Ia boleh menggunakan sepenuhnya setiap pautan atas dan memastikan jumlah data yang dihantar pada semua pautan naik adalah lebih kurang sama.


Apakah ciri-ciri rangkaian yang sesuai untuk memacu AIGC?

Mekanisme pengundian


Mekanisme ini menggunakan sepenuhnya cache , yang boleh mengurangkan kehilangan paket dan juga menghapuskan kehilangan paket. Penghantaran semula data dikurangkan, dan kelewatan komunikasi keseluruhan adalah lebih stabil dan lebih rendah, yang boleh meningkatkan penggunaan lebar jalur dan dengan itu meningkatkan kecekapan pemprosesan perniagaan.


  • PFC single-hop penempatan untuk mengelakkan kebuntuan


Seperti yang kami nyatakan sebelum ini, PFC (trafik berasaskan keutamaan) telah diperkenalkan dalam RDMA lossless kawalan rangkaian) teknologi untuk kawalan aliran.


Ringkasnya, PFC adalah untuk mencipta 8 saluran maya pada pautan Ethernet, dan menetapkan keutamaan yang sepadan kepada setiap saluran maya, membenarkan penggantungan bebas dan memulakan semula mana-mana satu daripada maya saluran membenarkan trafik dari saluran maya lain melalui tanpa gangguan.


Apakah ciri-ciri rangkaian yang sesuai untuk memacu AIGC?


PFC boleh melaksanakan kawalan aliran berasaskan baris gilir, tetapi ia juga mempunyai masalah, Itu kebuntuan.


Apa yang dipanggil kebuntuan ialah kesesakan berlaku pada masa yang sama antara berbilang suis disebabkan gelung dan sebab lain (penggunaan cache setiap port melebihi ambang), dan mereka semua menunggu. Pihak yang satu lagi mengeluarkan sumber, mengakibatkan "jalan buntu" (aliran data semua suis disekat secara kekal).


Dengan rangkaian DDC, tiada masalah kebuntuan PFC. Kerana, dari perspektif keseluruhan rangkaian, semua NCP dan NCF boleh dianggap sebagai satu peranti. Untuk pelayan AI, keseluruhan DDC hanyalah suis, dan tiada suis berbilang peringkat. Oleh itu, tidak ada kebuntuan.


Apakah ciri-ciri rangkaian yang sesuai untuk memacu AIGC?


Selain itu, menurut mekanisme pemajuan data DDC, ECN boleh digunakan di antara muka (pemberitahuan kesesakan eksplisit).


Di bawah mekanisme ECN, sebaik sahaja peranti rangkaian mengesan bahawa trafik RoCE v2 sesak (mekanisme Kredit dalaman dan caching tidak dapat menyokong trafik pecah), ia akan menghantar mesej kepada pelayan. CNP (Paket Pemberitahuan Kesesakan, mesej pemberitahuan kesesakan), memerlukan pengurangan kelajuan.


  • OS yang diedarkan, meningkatkan kebolehpercayaan


Akhir sekali, mari kita lihat pengurusan pesawat kawalan.


Kami menyebut sebelum ini bahawa dalam seni bina DDC, fungsi pengurusan peranti modular menjadi NCC (Pengawal Awan Rangkaian). NCC sangat penting Jika kaedah titik tunggal digunakan, jika berlaku masalah, ia akan menyebabkan keseluruhan rangkaian gagal.


Untuk mengelakkan masalah sedemikian, DDC boleh membatalkan satah kawalan berpusat NCC dan membina OS (sistem pengendalian) teragih.


Berdasarkan OS yang diedarkan, ia boleh mengkonfigurasi dan mengurus peralatan melalui antara muka standard (Netconf, GRPC, dll.) berdasarkan pengawal operasi dan penyelenggaraan SDN. Dalam kes ini, setiap NCP dan NCF diurus secara bebas dan mempunyai pesawat kawalan dan pesawat pengurusan bebas, yang meningkatkan kebolehpercayaan sistem dan menjadikannya lebih mudah untuk digunakan.



█ Kemajuan komersial DDC


Ringkasnya, agak Berbanding dengan rangkaian tradisional, DDC mempunyai kelebihan yang ketara dari segi skala rangkaian, kebolehskalaan, kebolehpercayaan, kos dan kelajuan penggunaan. Ia adalah produk peningkatan teknologi rangkaian dan memberikan idea untuk menumbangkan seni bina rangkaian asal, yang dapat merealisasikan penyahgandingan perkakasan rangkaian, penyatuan seni bina rangkaian, dan pengembangan kapasiti pemajuan.


Industri telah menggunakan suite ujian OpenMPI untuk menjalankan ujian simulasi perbandingan antara peralatan bingkai dan peralatan rangkaian tradisional. Kesimpulan ujian ialah: dalam senario All-to-All, berbanding dengan rangkaian tradisional, penggunaan lebar jalur peranti jenis bingkai meningkat kira-kira 20% (bersamaan dengan peningkatan penggunaan GPU kira-kira 8%).


Tepatnya kerana kelebihan keupayaan DDC yang ketara, teknologi ini kini telah menjadi hala tuju pembangunan utama industri. Sebagai contoh, Ruijie Networks menerajui pelancaran dua produk DDC yang boleh dihantar, iaitu suis 400G NCP-RG-S6930-18QC40F1 dan suis 200G NCF-RG-X56-96F1.


Apakah ciri-ciri rangkaian yang sesuai untuk memacu AIGC?


Suis RG-S6930-18QC40F1 berketinggian 2U dan menyediakan 18 port panel 400G, 40 port sebaris Fabrik 200G, 4 kipas dan 2 bekalan kuasa.


Suis RG-X56-96F1 berketinggian 4U dan menyediakan 96 port sebaris Fabrik 200G, 8 kipas dan 4 bekalan kuasa.


Dilaporkan bahawa Ruijie Networks akan terus membangunkan dan melancarkan produk dalam bentuk port 400G.



█ Kata akhir


Kebangkitan AIGC telah mencetuskan Internet Satu pusingan baharu revolusi teknologi dalam industri.


Kita dapat lihat semakin banyak syarikat menyertai trek ini dan mengambil bahagian dalam pertandingan itu. Ini bermakna bahawa peningkatan infrastruktur rangkaian akan berlaku.


Kemunculan DDC akan meningkatkan keupayaan infrastruktur rangkaian dengan berkesan bukan sahaja akan bertindak balas terhadap cabaran yang ditimbulkan oleh revolusi AI terhadap infrastruktur rangkaian, tetapi akan juga membantu transformasi digital seluruh masyarakat, mempercepatkan ketibaan penuh era kecerdasan digital manusia.

Atas ialah kandungan terperinci Apakah ciri-ciri rangkaian yang sesuai untuk memacu AIGC?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam