Rumah >Peranti teknologi >AI >Strategi paralelisme yang dioptimumkan yang dikeluarkan oleh DeepSeek
Sebagai sebahagian daripada #OpensourceWeek Day 4, DeepSeek memperkenalkan 2 alat baru untuk menjadikan pembelajaran mendalam lebih cepat dan lebih cekap: DualPipe dan EPLB. Alat ini membantu memperbaiki bagaimana komputer mengendalikan pengiraan dan komunikasi semasa latihan, menjadikan proses lebih lancar dan lebih cepat. Di dunia pembelajaran yang mendalam yang berubah-ubah, mencari cara untuk melatih model yang lebih baik semasa menggunakan sumber yang lebih sedikit adalah kunci. DualPipe dan EPLB adalah langkah besar ke hadapan dalam menyelesaikan cabaran -cabaran ini. Artikel ini menerangkan bagaimana alat ini berfungsi dan bagaimana mereka dapat membuat perbezaan dalam pembelajaran mendalam.
? Hari 4 dari #OpensourceWeek: Strategi Paralelisme Dioptimumkan
✅ DualPipe-Algoritma Parallelism Pipeline Bidirectional untuk Latihan Pengiraan-Komunikasi dalam Latihan V3/R1. https://t.co/gbtxsvwlt4
>>> uffb-pengimbang beban pakar-paralel untuk V3/R1.
Tanda -tanda hari ini 4 Perayaan Sumber Minggu Terbuka kami, berikutan pelancaran FlashML yang berjaya pada Hari 1, Deepep pada Hari 2, dan DeepGemm pada Hari 3.
Jadual Kandungan
Memahami Paralelisme Pipeline
Butiran Teknikal
DualPipe adalah algoritma paralelisme saluran paip canggih yang bertujuan untuk memaksimumkan tumpang tindih antara fasa pengiraan pengiraan ke hadapan dan ke belakang. Pendekatan ini amat bermanfaat dalam mengurangkan gelembung saluran paip, yang dapat menghalang kecekapan latihan dengan ketara.
Prestasi algoritma boleh digambarkan melalui contoh penjadualan yang melibatkan 8 PP dan 20 batch mikro. Batch mikro dalam arah terbalik adalah simetri kepada mereka yang berada di arah hadapan, memudahkan ilustrasi.
Method | Bubble | Parameter | Activation |
1F1B | (PP-1)(? ?) | 1× | PP |
ZB1P | (PP-1)(? ?-2?) | 1× | PP |
DualPipe | (PP/2-1)(?&? ?-3?) | 2× | PP 1 |
di mana:
Untuk maklumat lanjut lawati DualPipe GitHub Repository
ePLB: Pengimbang beban pakar-selari
Ciri Utama
Algoritma mengimbangi beban menggunakan dua dasar yang berbeza, disesuaikan dengan keadaan yang berbeza -beza:
mengimbangi beban hierarki
Sebaliknya, apabila kiraan nod pelayan tidak membahagikan kumpulan pakar, dasar pengimbangan beban global dilaksanakan. Pendekatan ini melibatkan replikasi global pakar, tanpa mengira kumpulan mereka dalam kumpulan pakar. Berikutan replikasi, pakar -pakar diedarkan sama rata kepada GPU individu, memastikan baki beban dikekalkan di seluruh GPU. Dasar Pengimbangan Beban Global boleh digunakan dalam peringkat penyahkodan apabila mengendalikan saiz pakar-selari yang lebih besar.
Contoh Kod:
import torch import eplb weight = torch.tensor([[ 90, 132, 40, 61, 104, 165, 39, 4, 73, 56, 183, 86], [ 20, 107, 104, 64, 19, 197, 187, 157, 172, 86, 16, 27]]) num_replicas = 16 num_groups = 4 num_nodes = 2 num_gpus = 8 phy2log, log2phy, logcnt = eplb.rebalance_experts(weight, num_replicas, num_groups, num_nodes, num_gpus) print(phy2log)
output:
tensor([[ 5, 6, 5, 7, 8, 4, 3, 4, 10, 9, 10, 2, 0, 1, 11, 1], [ 7, 10, 6, 8, 6, 11, 8, 9, 2, 4, 5, 1, 5, 0, 3, 1]])
Untuk arahan pelaksanaan terperinci, rujuk repositori EPLB GitHub.
Data profil: Menganalisis pertindihan komunikasi pengiraan
Ciri Utama
Data profil latihan menggambarkan strategi untuk bertindih individu ke hadapan dan ke belakang dalam DualPipe. Setiap bahagian menggabungkan 4 lapisan campuran pakar (MOE). Konfigurasi selari sepadan dengan tetapan yang digunakan dalam pretraining DeepSeek-V3, khususnya menggunakan EP64 (EPOCH 64) dan TP1 (padding temporal dengan 1 token) konfigurasi, dengan panjang urutan 4K. Untuk menjaga perkara yang mudah, kami tidak termasuk komunikasi PP (Pipeline Parallelism) semasa profil.
Untuk maklumat lanjut dan untuk mengakses data profil, lawati Repositori GitHub Data Profil.
Aplikasi praktikal DualPipe dan EPLB telah menunjukkan hasil yang menggalakkan di pelbagai bidang seperti pemprosesan bahasa semulajadi, penglihatan komputer, dan pembelajaran tetulang. Dengan menyempurnakan proses latihan, metodologi ini memudahkan penumpuan model dipercepatkan dan ketepatan yang lebih tinggi, yang terbukti menjadi instrumen yang sangat diperlukan untuk kedua -dua penyelidik dan pengamal.
Arahan Masa DepanKesimpulan
Atas ialah kandungan terperinci Strategi paralelisme yang dioptimumkan yang dikeluarkan oleh DeepSeek. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!