Rumah >Peranti teknologi >AI >Strategi paralelisme yang dioptimumkan yang dikeluarkan oleh DeepSeek

Strategi paralelisme yang dioptimumkan yang dikeluarkan oleh DeepSeek

Lisa Kudrow
Lisa Kudrowasal
2025-03-03 18:34:10261semak imbas

Sebagai sebahagian daripada #OpensourceWeek Day 4, DeepSeek memperkenalkan 2 alat baru untuk menjadikan pembelajaran mendalam lebih cepat dan lebih cekap: DualPipe dan EPLB. Alat ini membantu memperbaiki bagaimana komputer mengendalikan pengiraan dan komunikasi semasa latihan, menjadikan proses lebih lancar dan lebih cepat. Di dunia pembelajaran yang mendalam yang berubah-ubah, mencari cara untuk melatih model yang lebih baik semasa menggunakan sumber yang lebih sedikit adalah kunci. DualPipe dan EPLB adalah langkah besar ke hadapan dalam menyelesaikan cabaran -cabaran ini. Artikel ini menerangkan bagaimana alat ini berfungsi dan bagaimana mereka dapat membuat perbezaan dalam pembelajaran mendalam.

? Hari 4 dari #OpensourceWeek: Strategi Paralelisme Dioptimumkan

✅ DualPipe-Algoritma Parallelism Pipeline Bidirectional untuk Latihan Pengiraan-Komunikasi dalam Latihan V3/R1. https://t.co/gbtxsvwlt4
>>> uffb-pengimbang beban pakar-paralel untuk V3/R1.
Tanda -tanda hari ini 4 Perayaan Sumber Minggu Terbuka kami, berikutan pelancaran FlashML yang berjaya pada Hari 1, Deepep pada Hari 2, dan DeepGemm pada Hari 3.
Jadual Kandungan

Memahami Paralelisme Pipeline
Ciri-ciri

Butiran Teknikal

pengimbangan beban hierarki

    pengimbangan beban global
  • data profil
    • Aplikasi
    • Arahan Masa Depan
    Kesimpulan
    • Memahami Parallelism Pipeline
    • Parallelism Pipeline adalah pendekatan yang memudahkan pemprosesan serentak pelbagai segmen urutan latihan model. Dengan memisahkan model dan mengendalikan pelbagai input sekaligus, paralelisme saluran paip dapat menyingkat tempoh latihan. Walau bagaimanapun, metodologi saluran paip tradisional terdedah kepada ketidakcekapan, termasuk selang terbiar atau "gelembung," yang menjejaskan prestasi. Inovasi seperti DualPipe diperkenalkan untuk memperbaiki ketidakcekapan ini dan meningkatkan kecekapan keseluruhan.
    • Dalam pembelajaran mendalam, ungkapan "gelembung dalam saluran paip" mencirikan selang ketidakaktifan pada GPU semasa latihan selari saluran paip, di mana segmen saluran paip terhenti, sementara menunggu data dari segmen terdahulu. Ini menghasilkan "jurang" atau "gelembung" dalam perkembangan pengiraan, memuncak dalam pengurusan sumber GPU yang tidak cekap.
    • DualPipe: Parallelism Pipeline Bidirectional

      DualPipe adalah algoritma paralelisme saluran paip canggih yang bertujuan untuk memaksimumkan tumpang tindih antara fasa pengiraan pengiraan ke hadapan dan ke belakang. Pendekatan ini amat bermanfaat dalam mengurangkan gelembung saluran paip, yang dapat menghalang kecekapan latihan dengan ketara.

      Ciri -ciri utama

      • tumpang tindih penuh: mencapai tumpang tindih fasa ke hadapan dan ke belakang, memastikan sumber digunakan dengan berkesan.
      • Bubbles saluran paip yang dikurangkan: meminimumkan masa terbiar semasa latihan, yang membawa kepada penggunaan sumber yang lebih baik dan masa latihan yang lebih cepat.

      butiran teknikal

      Prestasi algoritma boleh digambarkan melalui contoh penjadualan yang melibatkan 8 PP dan 20 batch mikro. Batch mikro dalam arah terbalik adalah simetri kepada mereka yang berada di arah hadapan, memudahkan ilustrasi.

      Method Bubble Parameter Activation
      1F1B (PP-1)(? ?) PP
      ZB1P (PP-1)(? ?-2?) PP
      DualPipe (PP/2-1)(?&? ?-3?) PP 1
      kaedah Bubble parameter Pengaktifan 1f1b (pp-1) (??) 1 × pp zb1p (pp-1) (?? -2?) 1 × pp DualPipe (pp/2-1) (? &?? -3?) 2 × pp 1

      di mana:

      • ?: Masa pelaksanaan bahagian hadapan
      • ?: Masa pelaksanaan bahagian belakang penuh
      • ?: Masa pelaksanaan "mundur untuk berat" Chunk
      • ? &?: Masa pelaksanaan dua ketulan yang saling bertindih ke hadapan dan ke belakang

      Strategi paralelisme yang dioptimumkan yang dikeluarkan oleh DeepSeek

      Contoh Konfigurasi Penjadualan DualPipe untuk 8 pp (Parallelism Pipeline) dan 20 mikro batch, dengan tumpuan pada dua arah. Batch mikro yang diproses dalam arah terbalik mencerminkan mereka ke arah hadapan, yang membolehkan kita menghilangkan pengenal batch mereka demi memudahkan ilustrasi. Dua sel yang berkongsi sempadan hitam biasa terlibat dalam tugas pengiraan dan komunikasi yang bertindih.

      Untuk maklumat lanjut lawati DualPipe GitHub Repository

      ePLB: Pengimbang beban pakar-selari

      EPLB, atau pengimbang beban pakar-selari, mengoptimumkan pengimbangan beban dalam latihan V3/R1. Ia dengan cekap mengedarkan beban kerja di pelbagai unit pemprosesan, meningkatkan prestasi keseluruhan.

      Ciri Utama

        Parallelism Pakar: Menggunakan model pakar untuk mengimbangi beban dengan berkesan, memastikan setiap unit pemprosesan digunakan untuk potensi penuhnya.
      • pengimbangan beban dinamik: menyesuaikan diri dengan beban kerja yang berbeza-beza semasa latihan, yang membolehkan pelarasan masa nyata untuk mengekalkan prestasi yang optimum.
      Butiran Teknikal

      EPLB (pengedaran beban saluran paip yang cekap) bertujuan untuk tugasan tugas -tugas yang bijak untuk sumber yang boleh diakses untuk mengurangkan selang terbiar dan meningkatkan throughput. Metodologi ini semakin tinggi dalam konteks di mana model atau tugas yang berbeza -beza memerlukan tahap kuasa pengiraan yang berbeza.

      Algoritma mengimbangi beban menggunakan dua dasar yang berbeza, disesuaikan dengan keadaan yang berbeza -beza:

      mengimbangi beban hierarki

      Dasar pengimbangan beban hierarki mengaktifkan apabila bilangan nod pelayan membahagikan secara merata ke dalam kiraan kumpulan pakar. Strategi ini memanfaatkan penghalaan pakar yang terhad oleh kumpulan dengan menganjurkan kumpulan pakar pada nod dengan cara yang menggalakkan pengedaran beban seimbang. Seterusnya, replikasi pakar berlaku dalam setiap nod untuk mengekalkan keseimbangan beban. Pada akhirnya, pakar -pakar yang direplikasi ini diberikan kepada GPU individu, dengan itu mencapai keseimbangan beban di seluruh GPU yang berbeza. Dasar mengimbangi beban hierarki sangat sesuai untuk peringkat prefilling ketika berurusan dengan saiz pakar yang lebih kecil.

      pengimbangan beban global

      Sebaliknya, apabila kiraan nod pelayan tidak membahagikan kumpulan pakar, dasar pengimbangan beban global dilaksanakan. Pendekatan ini melibatkan replikasi global pakar, tanpa mengira kumpulan mereka dalam kumpulan pakar. Berikutan replikasi, pakar -pakar diedarkan sama rata kepada GPU individu, memastikan baki beban dikekalkan di seluruh GPU. Dasar Pengimbangan Beban Global boleh digunakan dalam peringkat penyahkodan apabila mengendalikan saiz pakar-selari yang lebih besar.

      Contoh Kod:

      import torch
      
      import eplb
      
      weight = torch.tensor([[ 90, 132,  40,  61, 104, 165,  39,   4,  73,  56, 183,  86],
      
                             [ 20, 107, 104,  64,  19, 197, 187, 157, 172,  86,  16,  27]])
      
      num_replicas = 16
      
      num_groups = 4
      
      num_nodes = 2
      
      num_gpus = 8
      
      phy2log, log2phy, logcnt = eplb.rebalance_experts(weight, num_replicas, num_groups, num_nodes, num_gpus)
      
      print(phy2log)

      output:

      tensor([[ 5,  6,  5,  7,  8,  4,  3,  4, 10,  9, 10,  2,  0,  1, 11,  1],
      
               [ 7, 10,  6,  8,  6, 11,  8,  9,  2,  4,  5,  1,  5,  0,  3,  1]])

      Strategi paralelisme yang dioptimumkan yang dikeluarkan oleh DeepSeek

      Perwakilan visual menggambarkan konfigurasi dwi-campuran campuran pakar (MOE), dengan setiap peringkat yang terdiri daripada 12 pakar khusus. Untuk meningkatkan keteguhan model dan membuat mekanisme sandaran, kami memperkenalkan 4 pakar tambahan di setiap peringkat. Pengubahsuaian ini membawa kepada jumlah kumulatif sebanyak 16 pakar setiap peringkat yang berfungsi sebagai sandaran. Sistem ini mereplikasi dan mengedarkan pakar -pakar ini merentasi 2 nod pengiraan, dengan setiap nod yang mengandungi 4 GPU. Ia menggunakan dasar mengimbangi beban hierarki dan menunjukkan replikasi strategik dan peruntukan pakar mengikut rancangan itu.

      Untuk arahan pelaksanaan terperinci, rujuk repositori EPLB GitHub.

      Data profil: Menganalisis pertindihan komunikasi pengiraan

      Untuk menganalisis dengan berkesan pertindihan pengiraan dalam V3/R1, data profil memberikan pandangan penting. Kesesakan prestasi dan pengoptimuman proses latihan dapat difahami menggunakan data ini.

      Ciri Utama

        Analisis Komprehensif: Pendekatan ini memberikan penilaian yang luas mengenai fasa pengiraan dan komunikasi, memudahkan pemahaman yang mendalam tentang metrik prestasi sistem.
      • Insight Prestasi: Ia menunjukkan peluang untuk meningkatkan kecekapan latihan, melengkapkan pemaju dengan maklumat kritikal untuk membimbing usaha pengoptimuman.
      Data profil latihan

      Strategi paralelisme yang dioptimumkan yang dikeluarkan oleh DeepSeek Data profil latihan menggambarkan strategi untuk bertindih individu ke hadapan dan ke belakang dalam DualPipe. Setiap bahagian menggabungkan 4 lapisan campuran pakar (MOE). Konfigurasi selari sepadan dengan tetapan yang digunakan dalam pretraining DeepSeek-V3, khususnya menggunakan EP64 (EPOCH 64) dan TP1 (padding temporal dengan 1 token) konfigurasi, dengan panjang urutan 4K. Untuk menjaga perkara yang mudah, kami tidak termasuk komunikasi PP (Pipeline Parallelism) semasa profil.

      Untuk maklumat lanjut dan untuk mengakses data profil, lawati Repositori GitHub Data Profil.

      Aplikasi dunia sebenar

      Aplikasi praktikal DualPipe dan EPLB telah menunjukkan hasil yang menggalakkan di pelbagai bidang seperti pemprosesan bahasa semulajadi, penglihatan komputer, dan pembelajaran tetulang. Dengan menyempurnakan proses latihan, metodologi ini memudahkan penumpuan model dipercepatkan dan ketepatan yang lebih tinggi, yang terbukti menjadi instrumen yang sangat diperlukan untuk kedua -dua penyelidik dan pengamal.

      Arahan Masa Depan

      Apabila bidang pembelajaran mendalam berlangsung, permintaan untuk metodologi latihan yang lebih efisien mungkin akan meningkat. Penyiasatan masa depan mungkin menumpukan perhatian untuk menguatkan keberkesanan DualPipe dan EPLB, mungkin dengan menyiasat model hibrid yang menggabungkan kelebihan kedua -duanya. Selain itu, integrasi strategi ini dengan teknologi canggih, termasuk pengkomputeran kuantum, mungkin membuka laluan novel untuk pengoptimuman.

      Kesimpulan

      Kemajuan dalam strategi paralelisme melalui DualPipe dan EPLB menandakan langkah -langkah yang besar dalam menyempurnakan prosedur latihan pembelajaran mendalam. Dengan memanfaatkan algoritma ini, kedua -dua penyelidik dan pengamal dapat mencapai penggunaan sumber yang unggul dan tempoh latihan dipercepat, memuncak dalam penciptaan model yang lebih efisien. Asimilasi data profil menambah keupayaan untuk menentukur proses ini, menjamin bahawa trajektori Deep Learning kemajuan pesat berterusan.

Atas ialah kandungan terperinci Strategi paralelisme yang dioptimumkan yang dikeluarkan oleh DeepSeek. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn