Rumah > Artikel > Peranti teknologi > Untuk model AI yang besar, Tencent Cloud mendedahkan sepenuhnya rangkaian pengkomputeran berprestasi tinggi Xingmai yang dibangunkan sendiri buat kali pertama
Wabak AIGC bukan sahaja membawa cabaran kuasa pengkomputeran, tetapi juga meletakkan permintaan yang tidak pernah berlaku sebelum ini pada rangkaian.
Pada 26 Jun, Tencent Cloud mendedahkan sepenuhnya rangkaian pengkomputeran berprestasi tinggi Xingmai yang dibangunkan sendiri buat kali pertama: Rangkaian Xingmai mempunyai lebar jalur komunikasi 3.2T tertinggi dalam industri, yang boleh meningkatkan penggunaan GPU sebanyak 40% dan menjimatkan 30% hingga 60% kos latihan membawa 10 kali peningkatan prestasi komunikasi kepada model AI yang besar. Kluster pengkomputeran generasi baharu Tencent Cloud HCC boleh menyokong skala pengkomputeran besar lebih daripada 100,000 kad.
Wang Yachen, Naib Presiden Tencent Cloud, berkata: "Rangkaian Xingmai dilahirkan untuk model besar. Perkhidmatan rangkaian berprestasi tinggi yang disediakannya dengan lebar jalur yang besar, penggunaan tinggi dan kehilangan paket sifar akan membantu menembusi kesesakan kuasa pengkomputeran dan pelepasan selanjutnya Potensi AI, meningkatkan kecekapan latihan model besar perusahaan secara menyeluruh, dan mempercepatkan peningkatan berulang dan pelaksanaan teknologi model besar pada awan.”
Bina rangkaian berprestasi tinggi khusus untuk model besar dan tingkatkan penggunaan GPU sebanyak 40%
Kepopularan AIGC telah membawa lonjakan dalam bilangan parameter model AI yang besar daripada ratusan juta kepada trilion. Untuk menyokong latihan berskala besar bagi data besar-besaran, sejumlah besar pelayan membentuk kelompok pengkomputeran melalui rangkaian berkelajuan tinggi dan saling berkaitan untuk menyelesaikan tugas latihan bersama-sama.
Sebaliknya, lebih besar kluster GPU, lebih besar kehilangan komunikasi tambahan Kluster besar tidak bermakna kuasa pengkomputeran yang besar. Era model besar AI telah membawa cabaran besar kepada rangkaian, termasuk keperluan lebar jalur yang tinggi, penggunaan tinggi dan kehilangan maklumat.
Jalur lebar rangkaian berkelajuan rendah tradisional tidak dapat memenuhi model besar dengan ratusan bilion atau trilion parameter Semasa proses latihan, perkadaran komunikasi boleh setinggi 50%. Pada masa yang sama, protokol rangkaian tradisional dengan mudah boleh menyebabkan kesesakan rangkaian, kependaman tinggi dan kehilangan paket, dan hanya 0.1% daripada kehilangan paket rangkaian boleh menyebabkan kehilangan kuasa pengkomputeran sebanyak 50%, akhirnya mengakibatkan pembaziran sumber kuasa pengkomputeran yang serius.
Berdasarkan keupayaan penyelidikan kendiri yang komprehensif, Tencent Cloud telah menjalankan peningkatan perisian dan perkakasan serta inovasi dalam suis, protokol komunikasi, perpustakaan komunikasi dan sistem pengendalian, dan merupakan yang pertama melancarkan rangkaian berprestasi tinggi berdedikasi model besar terkemuka dalam industri. - Rangkaian Xingmai.
Dari segi perkakasan, Rangkaian Xingmai adalah berdasarkan platform R&D rangkaian Tencent dan menggunakan semua peralatan yang dibangunkan sendiri untuk membina pangkalan sambungan bagi mencapai penggunaan dan konfigurasi automatik.
Dari segi perisian, protokol rangkaian TiTa Tencent Cloud yang dibangunkan sendiri menggunakan teknologi kawalan dan pengurusan kesesakan termaju, yang boleh memantau dan melaraskan kesesakan rangkaian dalam masa nyata, memenuhi keperluan komunikasi antara sejumlah besar nod pelayan, dan memastikan pertukaran data yang lancar dan kependaman rendah Mencapai kehilangan paket sifar di bawah beban tinggi, menjadikan kecekapan komunikasi kelompok mencapai lebih daripada 90%.
Selain itu, Tencent Cloud juga mereka bentuk perpustakaan komunikasi kolektif berprestasi tinggi TCCL untuk Rangkaian Xingmai dan menyepadukannya ke dalam penyelesaian tersuai, membolehkan sistem merealisasikan persepsi kualiti rangkaian peringkat mikrosaat. Dengan menggunakan mekanisme penjadualan dinamik untuk memperuntukkan saluran komunikasi secara munasabah, gangguan latihan akibat masalah rangkaian dapat dielakkan dengan berkesan, dan kelewatan komunikasi dapat dikurangkan sebanyak 40%.
Ketersediaan rangkaian juga menentukan kestabilan pengkomputeran keseluruhan kluster. Untuk memastikan ketersediaan rangkaian Xingmai yang tinggi, Tencent Cloud telah membangunkan sistem operasi rangkaian timbunan penuh hujung ke hujung Melalui pemantauan tiga dimensi rangkaian akhir dan sistem penentududukan pintar, masalah rangkaian akhir dibatasi secara automatik. dan dianalisis, supaya masa penyelesaian masalah keseluruhan boleh dipendekkan Tahap hari dikurangkan kepada tahap minit. Selepas penambahbaikan, masa penggunaan keseluruhan sistem latihan model berskala besar telah dipendekkan kepada 4.5 hari, memastikan ketepatan 100% konfigurasi asas.
Selepas tiga generasi evolusi teknologi, kami telah memupuk dan menyelidik secara mendalam integrasi perisian dan perkakasan
Di sebalik peningkatan menyeluruh Rangkaian Xingmai adalah hasil daripada tiga generasi evolusi teknologi rangkaian pusat data Tencent.
Pada hari-hari awal pembangunan Tencent, trafik rangkaian pusat data terutamanya terdiri daripada trafik utara-selatan untuk pengguna mengakses pelayan pusat data Seni bina rangkaian terutamanya berdasarkan akses, pengagregatan dan jalan keluar. Pada peringkat ini, peralatan rangkaian komersial digunakan terutamanya untuk membina rangkaian pusat data piawai, menyokong pertumbuhan pengguna dalam talian QQ sebanyak lebih daripada 100 juta dan skala pelayan lebih daripada 100,000.
Dengan peningkatan data besar dan pengkomputeran awan, trafik timur-barat antara pelayan telah meningkat secara beransur-ansur, dan penyewa awan telah mencipta keperluan virtualisasi dan pengasingan untuk rangkaian. Seni bina rangkaian pusat data telah berkembang secara beransur-ansur menjadi seni bina rangkaian awan yang membawa trafik utara-selatan dan timur-barat Tencent Cloud telah membina peralatan rangkaian dan sistem pengurusan yang dibangunkan sendiri sepenuhnya untuk mencipta rangkaian pusat data berskala ultra besar. dengan hampir 2 juta pelayan.
Tencent Cloud ialah yang pertama melancarkan rangkaian pengkomputeran berprestasi tinggi di China untuk memenuhi keperluan model AI yang besar, dan mengguna pakai seni bina pemisah untuk lalu lintas timur-barat dan utara-selatan. Ia telah membina seni bina rangkaian bebas dengan lebar jalur ultra-besar yang memenuhi ciri-ciri trafik latihan AI, dan bekerjasama dengan perisian dan kemudahan perkakasan yang dibangunkan sendiri untuk mencapai kawalan bebas keseluruhan sistem dan memenuhi permintaan baharu untuk prestasi rangkaian daripada pengkomputeran super kuasa.
Baru-baru ini, Tencent Cloud mengeluarkan kluster pengkomputeran berprestasi tinggi HCC generasi baharu, yang berasaskan rangkaian berprestasi tinggi Xingmai Ia boleh mencapai lebar jalur sambungan ultra-tinggi 3.2T, dan prestasi pengkomputeran adalah 3 kali lebih tinggi daripada sebelumnya. generasi. Ia dibina untuk latihan model besar AI yang boleh dipercayai, asas rangkaian berprestasi tinggi.
Pada masa hadapan, Tencent Cloud akan terus melabur dalam penyelidikan dan pembangunan teknologi asas untuk menyediakan sokongan teknikal yang kukuh untuk transformasi digital dan pintar pelbagai industri.
Atas ialah kandungan terperinci Untuk model AI yang besar, Tencent Cloud mendedahkan sepenuhnya rangkaian pengkomputeran berprestasi tinggi Xingmai yang dibangunkan sendiri buat kali pertama. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!