Rumah > Artikel > Peranti teknologi > Pangkalan besar AI, jawapan kepada era model besar
“Wen Xinyiyan telah menamatkan latihan mengenai kluster GPU berprestasi tinggi terbesar dalam bidang AI negara.”
Seawal 2021 Pada Jun 2020, untuk memenuhi tugas latihan model besar masa hadapan, Baidu Intelligent Cloud mula merancang pembinaan kluster GPU berprestasi tinggi baharu, dan bersama-sama menyelesaikan reka bentuk seni bina rangkaian IB yang boleh memuatkan lebih daripada 10,000 kad bersama NVIDIA. Setiap nod dalam kluster Setiap kad GPU disambungkan melalui rangkaian IB dan pembinaan kluster akan disiapkan pada April 2022, menyediakan kuasa pengkomputeran tahap EFLOPS kluster tunggal.
Pada Mac 2023, Wen Xinyiyan dilahirkan dalam kelompok berprestasi tinggi ini dan terus mengulangi keupayaan baharu. Pada masa ini, saiz kluster ini masih berkembang.
Dr. Junjie Lai, Pengurus Besar Penyelesaian dan Kejuruteraan di NVIDIA China: Kelompok GPU yang disambungkan oleh rangkaian IB berkelajuan tinggi adalah infrastruktur utama dalam era model besar. Kelompok GPU/IB berprestasi tinggi terbesar dalam pasaran pengkomputeran awan domestik yang dibina bersama oleh NVIDIA dan Baidu Intelligent Cloud akan mempercepatkan kejayaan Baidu yang lebih besar dalam bidang model besar.
Kumpulan berprestasi tinggi bukanlah pengumpulan kuasa pengkomputeran yang mudah Ia juga memerlukan reka bentuk dan pengoptimuman khas untuk mengeluarkan sepenuhnya potensi kuasa pengkomputeran.
Semasa latihan yang diedarkan, GPU sentiasa berkomunikasi antara dan dalam mesin. Semasa menggunakan rangkaian berprestasi tinggi seperti IB dan RoCE untuk menyediakan perkhidmatan berkemampuan tinggi dan kependaman rendah untuk komunikasi antara mesin, ia juga perlu untuk mereka bentuk khas sambungan rangkaian dalaman pelayan dan topologi komunikasi dalam rangkaian kluster untuk memenuhi keperluan komunikasi keperluan latihan model besar.
Mencapai pengoptimuman reka bentuk muktamad memerlukan pemahaman yang mendalam tentang maksud setiap operasi dalam tugas AI kepada infrastruktur. Strategi selari yang berbeza dalam latihan teragih, iaitu, cara membahagikan model, data dan parameter, akan menghasilkan keperluan komunikasi data yang berbeza Contohnya, keselarian data dan keselarian model akan memperkenalkan sebilangan besar operasi Allreduce intra-mesin dan antara mesin. masing-masing, dan paralelisme pakar akan Menghasilkan operasi All2All antara mesin, paralelisme hibrid 4D akan memperkenalkan operasi komunikasi yang dihasilkan oleh pelbagai strategi selari.
Untuk tujuan ini, Baidu Smart Cloud mengoptimumkan reka bentuk daripada kedua-dua pelayan bersendirian dan rangkaian kluster untuk membina kluster GPU berprestasi tinggi.
Dari segi pelayan yang berdiri sendiri, komputer AI super Baidu Smart Cloud X-MAN kini telah berkembang kepada generasi keempatnya. X-MAN 4.0 mewujudkan komunikasi antara kad berprestasi tinggi untuk GPU, menyediakan 134 GB/s lebar jalur Allreduce dalam satu mesin. Pada masa ini, ini merupakan produk pelayan Baidu dengan tahap penyesuaian tertinggi dan bahan yang paling khusus. Dalam senarai MLCommons 1.1, X-MAN 4.0 meletakkan TOP2 dalam prestasi perkakasan mesin tunggal dengan konfigurasi yang sama.
Dari segi rangkaian kluster, seni bina Clos tiga lapisan yang dioptimumkan untuk latihan model besar direka khas untuk memastikan prestasi dan pecutan kluster semasa latihan berskala besar. Berbanding dengan kaedah tradisional, seni bina ini telah dioptimumkan dengan lapan rel untuk meminimumkan bilangan lompatan dalam komunikasi antara mana-mana kad dengan nombor yang sama dalam mesin yang berbeza, dan menyediakan sokongan untuk operasi Allreduce bagi kad yang sama dengan perkadaran terbesar trafik rangkaian dalam latihan AI tinggi dan perkhidmatan rangkaian kependaman.
Seni bina rangkaian ini boleh menyokong kluster berskala besar sehingga 16,000 kad Skala ini merupakan skala terbesar bagi semua rangkaian kotak rangkaian IB pada peringkat ini. Prestasi rangkaian kluster ini adalah stabil dan konsisten pada tahap 98%, yang hampir dengan keadaan komunikasi yang stabil. Disahkan oleh pasukan algoritma model besar, beratus-ratus bilion kerja latihan model telah diserahkan pada kluster berskala ultra-besar ini, dan kecekapan latihan keseluruhan pada saiz mesin yang sama ialah 3.87 kali ganda daripada kluster generasi sebelumnya.
Walau bagaimanapun, membina kluster heterogen berskala besar dan berprestasi tinggi hanyalah langkah pertama untuk berjaya melaksanakan model besar. Untuk memastikan kejayaan menyelesaikan tugas latihan model besar AI, pengoptimuman perisian dan perkakasan yang lebih sistematik diperlukan.
Dalam beberapa tahun kebelakangan ini, saiz parameter model besar akan meningkat sebanyak 10 kali setahun. Sekitar tahun 2020, model dengan ratusan bilion parameter akan dianggap sebagai model besar Menjelang 2022, ia sudah memerlukan ratusan bilion parameter untuk dipanggil model besar.
Sebelum model besar, latihan model AI biasanya memerlukan satu mesin dengan satu kad, atau satu mesin dengan berbilang kad Kitaran latihan berjulat dari jam ke hari. Kini, untuk melengkapkan latihan model besar dengan ratusan bilion parameter, latihan teragih kelompok besar dengan ratusan pelayan dan ribuan kad GPU/XPU telah menjadi satu kemestian, dan kitaran latihan juga telah dilanjutkan kepada beberapa bulan.
Untuk melatih GPT-3 dengan 175 bilion parameter (300 bilion data token), 1 blok A100 mengambil masa 32 tahun berdasarkan pengiraan prestasi puncak separuh ketepatan dan 1024 blok A100 mengambil masa 34 hari berdasarkan penggunaan sumber sebanyak 45%. Sudah tentu, walaupun masa tidak diambil kira, satu A100 tidak boleh melatih model dengan skala parameter 100 bilion, kerana parameter model telah melebihi kapasiti memori satu kad.
Untuk menjalankan latihan model besar dalam persekitaran latihan yang diedarkan, kitaran latihan dipendekkan daripada beberapa dekad kepada berpuluh-puluh hari untuk satu kad Ia perlu menerobos pelbagai cabaran seperti dinding pengkomputeran, dinding memori video dan dinding komunikasi. supaya semua sumber dalam kluster dapat digunakan sepenuhnya untuk mempercepatkan proses latihan dan memendekkan kitaran latihan.
Dinding pengkomputeran merujuk kepada perbezaan besar antara kuasa pengkomputeran satu kad dan jumlah kuasa pengkomputeran model. A100 mempunyai kuasa pengkomputeran kad tunggal hanya 312 TFLOPS, manakala GPT-3 memerlukan jumlah kuasa pengkomputeran sebanyak 314 ZFLOP, perbezaan 9 pesanan magnitud.
Dinding memori video merujuk kepada ketidakupayaan satu kad untuk menyimpan sepenuhnya parameter model besar. 175 bilion parameter GPT-3 sahaja memerlukan 700 GB memori video (setiap parameter dikira sebagai 4 bait), manakala NVIDIA A100 GPU hanya mempunyai 80 GB memori video.
Intipati dinding pengkomputeran dan dinding memori video ialah percanggahan antara kapasiti kad tunggal yang terhad dan keperluan penyimpanan dan pengkomputeran yang besar bagi model. Ini boleh diselesaikan melalui latihan yang diedarkan, tetapi selepas latihan yang diedarkan, anda akan menghadapi masalah dinding komunikasi.
Dinding komunikasi, terutamanya kerana setiap unit pengkomputeran kluster memerlukan penyegerakan parameter yang kerap di bawah latihan teragih, dan prestasi komunikasi akan menjejaskan kelajuan pengkomputeran keseluruhan. Jika dinding komunikasi tidak dikendalikan dengan baik, berkemungkinan kluster akan menjadi lebih besar dan kecekapan latihan akan berkurangan. Berjaya menembusi dinding komunikasi dicerminkan dalam skalabiliti kuat kelompok, iaitu, keupayaan pecutan berbilang kad kelompok sepadan dengan skala. Nisbah pecutan linear berbilang kad ialah penunjuk untuk menilai keupayaan pecutan berbilang kad dalam gugusan Lebih tinggi nilainya, lebih baik.
Dinding ini mula kelihatan semasa latihan berbilang mesin dan berbilang kad. Apabila parameter model besar menjadi lebih besar dan lebih besar, saiz kelompok yang sepadan juga menjadi lebih besar dan lebih besar, dan ketiga-tiga dinding ini menjadi lebih tinggi dan lebih tinggi. Pada masa yang sama, semasa latihan jangka panjang kelompok besar, kegagalan peralatan mungkin berlaku, yang boleh menjejaskan atau mengganggu proses latihan.
Secara umumnya, dari perspektif infrastruktur, keseluruhan proses latihan model besar boleh dibahagikan secara kasar kepada dua peringkat berikut:
Selepas menyerahkan model besar untuk dilatih, rangka kerja AI akan mempertimbangkan secara menyeluruh struktur model besar dan maklumat lain, serta keupayaan kluster latihan, untuk merangka strategi latihan selari untuk tugas latihan ini, dan menyelesaikan penempatan tugas AI. Proses ini adalah untuk membuka model dan meletakkan tugas, iaitu, cara membuka model besar dan cara meletakkan bahagian yang dibuka ke dalam setiap GPU/XPU kluster.
Untuk tugas AI yang diletakkan untuk dijalankan pada GPU/XPU, rangka kerja AI akan bersama-sama melatih kluster untuk melaksanakan pengoptimuman pautan penuh pada masa jalan satu kad dan tahap komunikasi kluster, mempercepatkan operasi setiap Tugas AI semasa latihan model besar, termasuk pemuatan data, pengiraan operator, strategi komunikasi, dsb. Sebagai contoh, pengendali biasa yang menjalankan tugas AI digantikan dengan pengendali berprestasi tinggi yang dioptimumkan, dan strategi komunikasi yang menyesuaikan diri dengan strategi selari semasa dan keupayaan rangkaian kluster latihan disediakan.
Tugas latihan model besar mula berjalan mengikut strategi selari yang dirumuskan di atas, dan kluster latihan menyediakan pelbagai sumber berprestasi tinggi untuk tugas AI. Sebagai contoh, dalam persekitaran apakah tugas AI dijalankan, cara menyediakan dok sumber untuk tugas AI, kaedah penyimpanan apakah yang digunakan oleh tugas AI untuk membaca dan menyimpan data, jenis kemudahan rangkaian apakah yang dilakukan oleh GPU /XPU berkomunikasi melalui, dsb.
Pada masa yang sama, semasa proses operasi, kluster latihan akan bergabung dengan rangka kerja AI untuk menyediakan persekitaran yang boleh dipercayai untuk latihan jangka panjang model besar melalui toleransi kesalahan elastik dan kaedah lain. Contohnya, cara memerhati dan melihat status berjalan pelbagai sumber dan tugas AI dalam kluster, dsb., dan cara menjadualkan sumber dan tugas AI apabila kluster berubah, dsb.
Daripada pembongkaran dua peringkat di atas, kita dapati bahawa keseluruhan proses latihan model besar bergantung pada kerjasama rapat rangka kerja AI dan kluster latihan untuk melengkapkan penembusan ketiga-tiga dinding dan bersama-sama memastikan latihan model besar Cekap dan stabil.
Menggabungkan pengumpulan teknologi dan amalan kejuruteraan bertahun-tahun dalam bidang AI dan model besar, Baidu melancarkan sepenuhnya- timbunan pada penghujung tahun 2022 Infrastruktur AI yang dibangunkan sendiri "Pangkalan Besar AI" termasuk timbunan teknologi tiga lapisan "model rangka kerja cip". Ia mempunyai teknologi utama yang dibangunkan sendiri dan produk terkemuka di semua peringkat, sepadan dengan Kunlun Teras, PaddlePaddle dan WeChat model jantung besar.
Berdasarkan tiga lapisan susunan teknologi ini, Baidu Intelligent Cloud telah melancarkan dua platform kejuruteraan AI utama, "Platform Tengah AI" dan "Platform Pengkomputeran Heterogen AI Baidu Baidu", yang masing-masing dalam pembangunan dan sumber. Meningkatkan kecekapan di semua peringkat, menembusi tiga dinding, dan mempercepatkan proses latihan.
Antaranya, "platform tengah AI" bergantung pada rangka kerja AI untuk membangunkan strategi selari dan persekitaran yang dioptimumkan untuk proses latihan model besar, meliputi keseluruhan kitaran hayat latihan. "Baidu Baige" merealisasikan keupayaan cip yang cekap dan menyediakan pengurusan pelbagai sumber AI dan keupayaan penjadualan tugas.
"Pangkalan Besar AI" Baidu telah menjalankan integrasi tindanan penuh dan pengoptimuman sistem bagi setiap lapisan susunan teknologi, melengkapkan pembinaan awan dan teknologi pintar integrasi. Pengoptimuman hujung ke hujung dan pecutan latihan model besar boleh dicapai.
Hou Zhenyu, Naib Presiden Kumpulan Baidu: Latihan model besar ialah projek yang sistematik, dan saiz kluster, masa latihan dan kos semuanya meningkat dengan banyak berbanding dengan lalu. Tanpa pengoptimuman tindanan penuh, sukar untuk memastikan kejayaan menyiapkan latihan model besar. Pelaburan teknikal dan amalan kejuruteraan Baidu dalam model besar selama ini telah membolehkan kami mewujudkan satu set lengkap keupayaan tindanan perisian untuk mempercepatkan latihan model besar.
Seterusnya, kami akan menggabungkan dua peringkat proses latihan model besar yang dinyatakan di atas untuk menerangkan bagaimana pelbagai lapisan timbunan teknologi "AI Big Base" disepadukan antara satu sama lain. Pengoptimuman sistem untuk mencapai pengoptimuman hujung ke hujung dan pecutan latihan model besar.
Flying Paddle boleh memberikan keselarian data, keselarian model, keselarian saluran paip, pengumpulan dan penghirisan parameter, dan keselarian pakar untuk model besar latihan dan strategi selari yang kaya. Strategi selari ini boleh memenuhi keperluan melatih model besar dengan parameter antara berbilion hingga ratusan bilion, malah bertrilion, dan mencapai kejayaan dalam pengkomputeran dan dinding memori video. Pada April 2021, Feipiao adalah yang pertama dalam industri yang mencadangkan strategi selari hibrid 4D, yang boleh menyokong latihan ratusan bilion model besar untuk disiapkan pada peringkat bulanan.
Baidu Baige mempunyai keupayaan kesedaran topologi kelompok yang disediakan khas untuk senario latihan model besar, termasuk kesedaran seni bina intra-nod, kesedaran seni bina antara nod, dsb., seperti kuasa pengkomputeran dalam setiap pelayan Maklumat seperti kuasa, CPU dan GPU/XPU, kaedah pautan GPU/XPU dan GPU/XPU, dan kaedah pautan rangkaian GPU/XPU dan GPU/XPU antara pelayan.
Sebelum tugas latihan model besar mula dijalankan, Fei Paddle boleh membentuk graf sumber teragih bersatu untuk kluster berdasarkan keupayaan kesedaran topologi platform Baidu Baige. Pada masa yang sama, dayung terbang membentuk pandangan pengiraan logik bersatu berdasarkan model besar yang akan dilatih.
Berdasarkan dua gambar ini, Feipiao secara automatik mencari segmentasi model optimum dan strategi gabungan perkakasan untuk model, dan memperuntukkan parameter model, kecerunan dan status pengoptimum kepada GPU/GPU yang berbeza mengikut strategi optimum XPU, selesaikan penempatan tugas AI untuk meningkatkan prestasi latihan.
Sebagai contoh, meletakkan tugas AI selari model pada GPU berbeza pada pelayan yang sama, dan GPU ini dipautkan melalui NVSwitch di dalam pelayan. Letakkan tugas AI selari data dan saluran paip pada GPU dengan nombor yang sama pada pelayan berbeza dan GPU ini dipautkan melalui IB atau RoCE. Melalui kaedah meletakkan tugas AI mengikut jenis tugas AI ini, sumber kluster boleh digunakan dengan cekap dan latihan model besar dapat dipercepatkan.
Semasa menjalankan tugas latihan, jika kluster berubah, seperti kegagalan sumber atau skala kluster berubah, Baidu Baige akan melaksanakan toleransi kesalahan penggantian atau pengembangan dan pengecutan elastik. Memandangkan lokasi nod yang mengambil bahagian dalam pengiraan telah berubah, mod komunikasi antara mereka mungkin tidak lagi optimum. Flying Paddle boleh melaraskan secara automatik segmentasi model dan strategi penempatan tugas AI berdasarkan maklumat kluster terkini. Pada masa yang sama, Baidu Baige melengkapkan penjadualan tugas dan sumber yang sepadan.
Pandangan sumber dan pengkomputeran bersatu Fei Paddle serta keupayaan selari automatik, digabungkan dengan keupayaan penjadualan anjal Baidu Baige, merealisasikan latihan teragih adaptif hujung-ke-hujung bagi model besar, meliputi keseluruhan hayat kitaran latihan kelompok.
Ini adalah interaksi mendalam antara rangka kerja AI dan platform kuasa pengkomputeran heterogen AI Ia merealisasikan pengoptimuman sistem triniti kuasa pengkomputeran, rangka kerja dan algoritma, menyokong latihan automatik dan fleksibel. model besar, dan mempunyai prestasi terukur hujung ke hujung sebanyak 2.1 kali Peningkatan prestasi memastikan kecekapan latihan berskala besar.
Selepas menyelesaikan pemisahan model dan penempatan tugas AI, semasa proses latihan, untuk memastikan pengendali boleh digunakan dalam pelbagai rangka kerja AI arus perdana seperti Flying Paddle dan Pytorch serta pelbagai kad pengkomputeran Ia boleh mempercepatkan pengiraan, dan platform Baidu Baige mempunyai suite pecutan AI terbina dalam. Suite pecutan AI termasuk pecutan penyimpanan lapisan data, latihan dan perpustakaan pecutan inferens AIAK, yang mengoptimumkan keseluruhan pautan daripada dimensi pemuatan data, pengiraan model, komunikasi teragih dan dimensi lain.
Antaranya, pengoptimuman pemuatan data dan pengiraan model secara berkesan dapat meningkatkan kecekapan operasi satu kad, pengoptimuman komunikasi teragih, digabungkan dengan rangkaian berprestasi tinggi seperti IB berkelompok atau RoCE dan topologi komunikasi yang dioptimumkan khas, sebagai serta strategi penempatan tugas AI yang munasabah untuk bersama-sama menyelesaikan masalah dinding komunikasi.
Nisbah pecutan berbilang kad Baidu Baige dalam kelompok skala kilo kad telah mencapai 90%, membolehkan kuasa pengkomputeran keseluruhan kelompok dikeluarkan sepenuhnya.
Dalam keputusan ujian MLPerf Training v2.1 yang dikeluarkan pada November 2022, keputusan prestasi latihan model yang diserahkan oleh Baidu menggunakan Fei Paddle ditambah Baidu Baige menduduki tempat pertama di dunia di bawah konfigurasi GPU yang sama, hujung ke- tamat Kedua-dua masa latihan dan daya pengeluaran latihan melebihi rangka kerja NGC PyTorch.
Baidu Baige boleh menyediakan pelbagai pengkomputeran, rangkaian, storan dan sumber AI lain, termasuk pelayan logam terdedah anjal Baidu Taihang BBC, rangkaian IB, rangkaian RoCE dan storan fail selari PFS , penyimpanan objek BOS, pecutan storan tasik data RapidFS dan sumber pengkomputeran awan lain yang sesuai untuk latihan model besar.
Apabila tugas sedang dijalankan, sumber berprestasi tinggi ini boleh digabungkan secara munasabah untuk meningkatkan lagi kecekapan operasi AI dan merealisasikan pecutan pengkomputeran tugas AI sepanjang proses. Sebelum tugas AI bermula, data latihan dalam storan objek BOS boleh dipanaskan, dan data boleh dimuatkan ke dalam pecutan storan tasik data RapidFS melalui rangkaian RDMA anjal. Rangkaian RDMA anjal boleh mengurangkan kependaman komunikasi sebanyak 2 hingga 3 kali berbanding rangkaian tradisional, dan mempercepatkan pembacaan data tugas AI berdasarkan storan berprestasi tinggi. Akhir sekali, pengiraan tugas AI dilakukan melalui pelayan logam kosong elastik Baidu Taihang berprestasi tinggi BBC atau pelayan awan BCC.
Apabila menjalankan tugas AI, ia bukan sahaja memerlukan sumber berprestasi tinggi, tetapi juga memastikan kestabilan kluster dan meminimumkan berlakunya kegagalan sumber untuk mengelakkan gangguan latihan. Walau bagaimanapun, kegagalan sumber tidak boleh dielakkan sepenuhnya Rangka kerja AI dan kluster latihan perlu bersama-sama memastikan bahawa tugas latihan boleh dipulihkan daripada keadaan terkini selepas terganggu, dengan itu menyediakan persekitaran yang boleh dipercayai untuk latihan jangka panjang. model.
Pustaka koleksi heterogen Baidu ECCL yang dibangunkan sendiri menyokong komunikasi antara teras Kunlun dan cip heterogen lain, dan menyokong persepsi nod perlahan dan nod rosak. Melalui keanjalan sumber Baidu Baige dan strategi toleransi kesalahan, nod perlahan dan nod yang rosak dihapuskan, dan topologi seni bina terkini disalurkan semula kepada Feipiao untuk mengatur semula tugas dan memperuntukkan tugas latihan yang sepadan kepada XPU/GPU lain untuk memastikan latihan lancar dengan cekap.
Model besar ialah teknologi penting untuk kecerdasan buatan untuk bergerak ke arah kecerdasan umum Menguasai model besar dengan baik adalah jawapan yang mesti dilalui peningkatan pintar lengkap. Kuasa pengkomputeran berskala ultra besar dan pengoptimuman perisian bersepadu tindanan penuh adalah jawapan terbaik kepada soalan mesti dijawab ini.
Untuk membantu masyarakat dan industri melatih model besar mereka sendiri dengan pantas dan merebut peluang semasa, Baidu Intelligent Cloud mengeluarkan Pusat Pengkomputeran Pintar Yangquan pada penghujung tahun 2022, dilengkapi dengan keupayaan timbunan penuh untuk "Pangkalan Besar AI" Baidu, yang boleh memberikan 4 EFLOPS kuasa pengkomputeran heterogen. Pada masa ini, ini merupakan pusat data terbesar dan paling berteknologi maju di Asia.
Pada masa ini, Baidu Smart Cloud telah membuka semua keupayaan "AI Big Base" kepada dunia luar, merealisasikan AI inklusif dalam era model besar, melalui awan tengah di pelbagai wilayah, edge clouds BEC, pengkomputeran tempatan clusters LCC, private Ia dihantar dalam pelbagai bentuk seperti Cloud ABC Stack, membolehkan masyarakat dan industri mendapatkan perkhidmatan pintar dengan mudah.
Atas ialah kandungan terperinci Pangkalan besar AI, jawapan kepada era model besar. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!