cari
RumahPeranti teknologiAIStrategi paralelisme yang dioptimumkan yang dikeluarkan oleh DeepSeek

Sebagai sebahagian daripada #OpensourceWeek Day 4, DeepSeek memperkenalkan 2 alat baru untuk menjadikan pembelajaran mendalam lebih cepat dan lebih cekap: DualPipe dan EPLB. Alat ini membantu memperbaiki bagaimana komputer mengendalikan pengiraan dan komunikasi semasa latihan, menjadikan proses lebih lancar dan lebih cepat. Di dunia pembelajaran yang mendalam yang berubah-ubah, mencari cara untuk melatih model yang lebih baik semasa menggunakan sumber yang lebih sedikit adalah kunci. DualPipe dan EPLB adalah langkah besar ke hadapan dalam menyelesaikan cabaran -cabaran ini. Artikel ini menerangkan bagaimana alat ini berfungsi dan bagaimana mereka dapat membuat perbezaan dalam pembelajaran mendalam.

? Hari 4 dari #OpensourceWeek: Strategi Paralelisme Dioptimumkan

✅ DualPipe-Algoritma Parallelism Pipeline Bidirectional untuk Latihan Pengiraan-Komunikasi dalam Latihan V3/R1. https://t.co/gbtxsvwlt4
>>> uffb-pengimbang beban pakar-paralel untuk V3/R1.
Tanda -tanda hari ini 4 Perayaan Sumber Minggu Terbuka kami, berikutan pelancaran FlashML yang berjaya pada Hari 1, Deepep pada Hari 2, dan DeepGemm pada Hari 3.
Jadual Kandungan

Memahami Paralelisme Pipeline
Ciri-ciri

Butiran Teknikal

pengimbangan beban hierarki

    pengimbangan beban global
  • data profil
    • Aplikasi
    • Arahan Masa Depan
    Kesimpulan
    • Memahami Parallelism Pipeline
    • Parallelism Pipeline adalah pendekatan yang memudahkan pemprosesan serentak pelbagai segmen urutan latihan model. Dengan memisahkan model dan mengendalikan pelbagai input sekaligus, paralelisme saluran paip dapat menyingkat tempoh latihan. Walau bagaimanapun, metodologi saluran paip tradisional terdedah kepada ketidakcekapan, termasuk selang terbiar atau "gelembung," yang menjejaskan prestasi. Inovasi seperti DualPipe diperkenalkan untuk memperbaiki ketidakcekapan ini dan meningkatkan kecekapan keseluruhan.
    • Dalam pembelajaran mendalam, ungkapan "gelembung dalam saluran paip" mencirikan selang ketidakaktifan pada GPU semasa latihan selari saluran paip, di mana segmen saluran paip terhenti, sementara menunggu data dari segmen terdahulu. Ini menghasilkan "jurang" atau "gelembung" dalam perkembangan pengiraan, memuncak dalam pengurusan sumber GPU yang tidak cekap.
    • DualPipe: Parallelism Pipeline Bidirectional

      DualPipe adalah algoritma paralelisme saluran paip canggih yang bertujuan untuk memaksimumkan tumpang tindih antara fasa pengiraan pengiraan ke hadapan dan ke belakang. Pendekatan ini amat bermanfaat dalam mengurangkan gelembung saluran paip, yang dapat menghalang kecekapan latihan dengan ketara.

      Ciri -ciri utama

      • tumpang tindih penuh: mencapai tumpang tindih fasa ke hadapan dan ke belakang, memastikan sumber digunakan dengan berkesan.
      • Bubbles saluran paip yang dikurangkan: meminimumkan masa terbiar semasa latihan, yang membawa kepada penggunaan sumber yang lebih baik dan masa latihan yang lebih cepat.

      butiran teknikal

      Prestasi algoritma boleh digambarkan melalui contoh penjadualan yang melibatkan 8 PP dan 20 batch mikro. Batch mikro dalam arah terbalik adalah simetri kepada mereka yang berada di arah hadapan, memudahkan ilustrasi.

      Method Bubble Parameter Activation
      1F1B (PP-1)(? ?) PP
      ZB1P (PP-1)(? ?-2?) PP
      DualPipe (PP/2-1)(?&? ?-3?) PP 1
      kaedah Bubble parameter Pengaktifan 1f1b (pp-1) (??) 1 × pp zb1p (pp-1) (?? -2?) 1 × pp DualPipe (pp/2-1) (? &?? -3?) 2 × pp 1

      di mana:

      • ?: Masa pelaksanaan bahagian hadapan
      • ?: Masa pelaksanaan bahagian belakang penuh
      • ?: Masa pelaksanaan "mundur untuk berat" Chunk
      • ? &?: Masa pelaksanaan dua ketulan yang saling bertindih ke hadapan dan ke belakang

      Strategi paralelisme yang dioptimumkan yang dikeluarkan oleh DeepSeek

      Contoh Konfigurasi Penjadualan DualPipe untuk 8 pp (Parallelism Pipeline) dan 20 mikro batch, dengan tumpuan pada dua arah. Batch mikro yang diproses dalam arah terbalik mencerminkan mereka ke arah hadapan, yang membolehkan kita menghilangkan pengenal batch mereka demi memudahkan ilustrasi. Dua sel yang berkongsi sempadan hitam biasa terlibat dalam tugas pengiraan dan komunikasi yang bertindih.

      Untuk maklumat lanjut lawati DualPipe GitHub Repository

      ePLB: Pengimbang beban pakar-selari

      EPLB, atau pengimbang beban pakar-selari, mengoptimumkan pengimbangan beban dalam latihan V3/R1. Ia dengan cekap mengedarkan beban kerja di pelbagai unit pemprosesan, meningkatkan prestasi keseluruhan.

      Ciri Utama

        Parallelism Pakar: Menggunakan model pakar untuk mengimbangi beban dengan berkesan, memastikan setiap unit pemprosesan digunakan untuk potensi penuhnya.
      • pengimbangan beban dinamik: menyesuaikan diri dengan beban kerja yang berbeza-beza semasa latihan, yang membolehkan pelarasan masa nyata untuk mengekalkan prestasi yang optimum.
      Butiran Teknikal

      EPLB (pengedaran beban saluran paip yang cekap) bertujuan untuk tugasan tugas -tugas yang bijak untuk sumber yang boleh diakses untuk mengurangkan selang terbiar dan meningkatkan throughput. Metodologi ini semakin tinggi dalam konteks di mana model atau tugas yang berbeza -beza memerlukan tahap kuasa pengiraan yang berbeza.

      Algoritma mengimbangi beban menggunakan dua dasar yang berbeza, disesuaikan dengan keadaan yang berbeza -beza:

      mengimbangi beban hierarki

      Dasar pengimbangan beban hierarki mengaktifkan apabila bilangan nod pelayan membahagikan secara merata ke dalam kiraan kumpulan pakar. Strategi ini memanfaatkan penghalaan pakar yang terhad oleh kumpulan dengan menganjurkan kumpulan pakar pada nod dengan cara yang menggalakkan pengedaran beban seimbang. Seterusnya, replikasi pakar berlaku dalam setiap nod untuk mengekalkan keseimbangan beban. Pada akhirnya, pakar -pakar yang direplikasi ini diberikan kepada GPU individu, dengan itu mencapai keseimbangan beban di seluruh GPU yang berbeza. Dasar mengimbangi beban hierarki sangat sesuai untuk peringkat prefilling ketika berurusan dengan saiz pakar yang lebih kecil.

      pengimbangan beban global

      Sebaliknya, apabila kiraan nod pelayan tidak membahagikan kumpulan pakar, dasar pengimbangan beban global dilaksanakan. Pendekatan ini melibatkan replikasi global pakar, tanpa mengira kumpulan mereka dalam kumpulan pakar. Berikutan replikasi, pakar -pakar diedarkan sama rata kepada GPU individu, memastikan baki beban dikekalkan di seluruh GPU. Dasar Pengimbangan Beban Global boleh digunakan dalam peringkat penyahkodan apabila mengendalikan saiz pakar-selari yang lebih besar.

      Contoh Kod:

      import torch
      
      import eplb
      
      weight = torch.tensor([[ 90, 132,  40,  61, 104, 165,  39,   4,  73,  56, 183,  86],
      
                             [ 20, 107, 104,  64,  19, 197, 187, 157, 172,  86,  16,  27]])
      
      num_replicas = 16
      
      num_groups = 4
      
      num_nodes = 2
      
      num_gpus = 8
      
      phy2log, log2phy, logcnt = eplb.rebalance_experts(weight, num_replicas, num_groups, num_nodes, num_gpus)
      
      print(phy2log)

      output:

      tensor([[ 5,  6,  5,  7,  8,  4,  3,  4, 10,  9, 10,  2,  0,  1, 11,  1],
      
               [ 7, 10,  6,  8,  6, 11,  8,  9,  2,  4,  5,  1,  5,  0,  3,  1]])

      Strategi paralelisme yang dioptimumkan yang dikeluarkan oleh DeepSeek

      Perwakilan visual menggambarkan konfigurasi dwi-campuran campuran pakar (MOE), dengan setiap peringkat yang terdiri daripada 12 pakar khusus. Untuk meningkatkan keteguhan model dan membuat mekanisme sandaran, kami memperkenalkan 4 pakar tambahan di setiap peringkat. Pengubahsuaian ini membawa kepada jumlah kumulatif sebanyak 16 pakar setiap peringkat yang berfungsi sebagai sandaran. Sistem ini mereplikasi dan mengedarkan pakar -pakar ini merentasi 2 nod pengiraan, dengan setiap nod yang mengandungi 4 GPU. Ia menggunakan dasar mengimbangi beban hierarki dan menunjukkan replikasi strategik dan peruntukan pakar mengikut rancangan itu.

      Untuk arahan pelaksanaan terperinci, rujuk repositori EPLB GitHub.

      Data profil: Menganalisis pertindihan komunikasi pengiraan

      Untuk menganalisis dengan berkesan pertindihan pengiraan dalam V3/R1, data profil memberikan pandangan penting. Kesesakan prestasi dan pengoptimuman proses latihan dapat difahami menggunakan data ini.

      Ciri Utama

        Analisis Komprehensif: Pendekatan ini memberikan penilaian yang luas mengenai fasa pengiraan dan komunikasi, memudahkan pemahaman yang mendalam tentang metrik prestasi sistem.
      • Insight Prestasi: Ia menunjukkan peluang untuk meningkatkan kecekapan latihan, melengkapkan pemaju dengan maklumat kritikal untuk membimbing usaha pengoptimuman.
      Data profil latihan

      Strategi paralelisme yang dioptimumkan yang dikeluarkan oleh DeepSeek Data profil latihan menggambarkan strategi untuk bertindih individu ke hadapan dan ke belakang dalam DualPipe. Setiap bahagian menggabungkan 4 lapisan campuran pakar (MOE). Konfigurasi selari sepadan dengan tetapan yang digunakan dalam pretraining DeepSeek-V3, khususnya menggunakan EP64 (EPOCH 64) dan TP1 (padding temporal dengan 1 token) konfigurasi, dengan panjang urutan 4K. Untuk menjaga perkara yang mudah, kami tidak termasuk komunikasi PP (Pipeline Parallelism) semasa profil.

      Untuk maklumat lanjut dan untuk mengakses data profil, lawati Repositori GitHub Data Profil.

      Aplikasi dunia sebenar

      Aplikasi praktikal DualPipe dan EPLB telah menunjukkan hasil yang menggalakkan di pelbagai bidang seperti pemprosesan bahasa semulajadi, penglihatan komputer, dan pembelajaran tetulang. Dengan menyempurnakan proses latihan, metodologi ini memudahkan penumpuan model dipercepatkan dan ketepatan yang lebih tinggi, yang terbukti menjadi instrumen yang sangat diperlukan untuk kedua -dua penyelidik dan pengamal.

      Arahan Masa Depan

      Apabila bidang pembelajaran mendalam berlangsung, permintaan untuk metodologi latihan yang lebih efisien mungkin akan meningkat. Penyiasatan masa depan mungkin menumpukan perhatian untuk menguatkan keberkesanan DualPipe dan EPLB, mungkin dengan menyiasat model hibrid yang menggabungkan kelebihan kedua -duanya. Selain itu, integrasi strategi ini dengan teknologi canggih, termasuk pengkomputeran kuantum, mungkin membuka laluan novel untuk pengoptimuman.

      Kesimpulan

      Kemajuan dalam strategi paralelisme melalui DualPipe dan EPLB menandakan langkah -langkah yang besar dalam menyempurnakan prosedur latihan pembelajaran mendalam. Dengan memanfaatkan algoritma ini, kedua -dua penyelidik dan pengamal dapat mencapai penggunaan sumber yang unggul dan tempoh latihan dipercepat, memuncak dalam penciptaan model yang lebih efisien. Asimilasi data profil menambah keupayaan untuk menentukur proses ini, menjamin bahawa trajektori Deep Learning kemajuan pesat berterusan.

Atas ialah kandungan terperinci Strategi paralelisme yang dioptimumkan yang dikeluarkan oleh DeepSeek. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Cara Membina Pembantu AI Peribadi Anda Dengan Huggingface SmollmCara Membina Pembantu AI Peribadi Anda Dengan Huggingface SmollmApr 18, 2025 am 11:52 AM

Memanfaatkan kuasa AI di peranti: Membina CLI Chatbot Peribadi Pada masa lalu, konsep pembantu AI peribadi kelihatan seperti fiksyen sains. Bayangkan Alex, seorang peminat teknologi, bermimpi seorang sahabat AI yang pintar, yang tidak bergantung

AI untuk Kesihatan Mental dianalisis dengan penuh perhatian melalui inisiatif baru yang menarik di Stanford UniversityAI untuk Kesihatan Mental dianalisis dengan penuh perhatian melalui inisiatif baru yang menarik di Stanford UniversityApr 18, 2025 am 11:49 AM

Pelancaran AI4MH mereka berlaku pada 15 April, 2025, dan Luminary Dr. Tom Insel, M.D., pakar psikiatri yang terkenal dan pakar neurosains, berkhidmat sebagai penceramah kick-off. Dr. Insel terkenal dengan kerja cemerlangnya dalam penyelidikan kesihatan mental dan techno

Kelas Draf WNBA 2025 memasuki liga yang semakin meningkat dan melawan gangguan dalam talianKelas Draf WNBA 2025 memasuki liga yang semakin meningkat dan melawan gangguan dalam talianApr 18, 2025 am 11:44 AM

"Kami mahu memastikan bahawa WNBA kekal sebagai ruang di mana semua orang, pemain, peminat dan rakan kongsi korporat, berasa selamat, dihargai dan diberi kuasa," kata Engelbert, menangani apa yang telah menjadi salah satu cabaran sukan wanita yang paling merosakkan. Anno

Panduan Komprehensif untuk Struktur Data Terbina Python - Analytics VidhyaPanduan Komprehensif untuk Struktur Data Terbina Python - Analytics VidhyaApr 18, 2025 am 11:43 AM

Pengenalan Python cemerlang sebagai bahasa pengaturcaraan, terutamanya dalam sains data dan AI generatif. Manipulasi data yang cekap (penyimpanan, pengurusan, dan akses) adalah penting apabila berurusan dengan dataset yang besar. Kami pernah meliputi nombor dan st

Tayangan pertama dari model baru Openai berbanding dengan alternatifTayangan pertama dari model baru Openai berbanding dengan alternatifApr 18, 2025 am 11:41 AM

Sebelum menyelam, kaveat penting: Prestasi AI adalah spesifik yang tidak ditentukan dan sangat digunakan. Dalam istilah yang lebih mudah, perbatuan anda mungkin berbeza -beza. Jangan ambil artikel ini (atau lain -lain) sebagai perkataan akhir -sebaliknya, uji model ini pada senario anda sendiri

AI Portfolio | Bagaimana untuk membina portfolio untuk kerjaya AI?AI Portfolio | Bagaimana untuk membina portfolio untuk kerjaya AI?Apr 18, 2025 am 11:40 AM

Membina portfolio AI/ML yang menonjol: Panduan untuk Pemula dan Profesional Mewujudkan portfolio yang menarik adalah penting untuk mendapatkan peranan dalam kecerdasan buatan (AI) dan pembelajaran mesin (ML). Panduan ini memberi nasihat untuk membina portfolio

AI AI apa yang boleh dimaksudkan untuk operasi keselamatanAI AI apa yang boleh dimaksudkan untuk operasi keselamatanApr 18, 2025 am 11:36 AM

Hasilnya? Pembakaran, ketidakcekapan, dan jurang yang melebar antara pengesanan dan tindakan. Tak satu pun dari ini harus datang sebagai kejutan kepada sesiapa yang bekerja dalam keselamatan siber. Janji Agentic AI telah muncul sebagai titik perubahan yang berpotensi. Kelas baru ini

Google Versus Openai: AI berjuang untuk pelajarGoogle Versus Openai: AI berjuang untuk pelajarApr 18, 2025 am 11:31 AM

Impak segera berbanding perkongsian jangka panjang? Dua minggu yang lalu Openai melangkah ke hadapan dengan tawaran jangka pendek yang kuat, memberikan akses kepada pelajar A.S. dan Kanada.

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌
Akan R.E.P.O. Ada Crossplay?
1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

Alat panas

PhpStorm versi Mac

PhpStorm versi Mac

Alat pembangunan bersepadu PHP profesional terkini (2018.2.1).

SublimeText3 Linux versi baharu

SublimeText3 Linux versi baharu

SublimeText3 Linux versi terkini

VSCode Windows 64-bit Muat Turun

VSCode Windows 64-bit Muat Turun

Editor IDE percuma dan berkuasa yang dilancarkan oleh Microsoft

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

Persekitaran pembangunan bersepadu PHP yang berkuasa

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma