Rumah >Peranti teknologi >AI >Satu 4090 boleh disimpulkan, 200 bilion model besar jarang 'Tiangong MoE' adalah sumber terbuka
Dalam gelombang model besar, latihan dan penggunaan LLM set padat yang canggih menimbulkan cabaran besar dari segi keperluan pengiraan dan kos yang berkaitan, terutamanya pada skala berpuluh atau ratusan bilion parameter. Untuk menangani cabaran ini, model jarang, seperti model Campuran Pakar (MoE), telah menjadi semakin penting. Model ini menawarkan alternatif yang berdaya maju dari segi ekonomi dengan mengedarkan pengiraan kepada pelbagai submodel khusus, atau "pakar," yang berpotensi untuk memadankan atau bahkan melebihi prestasi model set padat dengan keperluan sumber yang sangat rendah.
Pada 3 Jun, satu lagi berita penting datang dari bidang model besar sumber terbuka: Kunlun Wanwei mengumumkan sumber terbuka bagi 200 bilion model besar jarang Skywork-MoE, yang mengurangkan kos inferens dengan ketara sambil mengekalkan prestasi yang kukuh.
Dilanjutkan berdasarkan pusat pemeriksaan perantaraan model Skywork-13B sumber terbuka sebelumnya bagi Kunlun Wanwei Ia merupakan model besar 100 bilion MoE sumber terbuka yang sepenuhnya terpakai dan melaksanakan teknologi Upcycling MoE Ia juga merupakan sumber terbuka pertama yang menyokong inferens satu pelayan 4090 Ratusan bilion model besar MoE.
Apa yang menarik lebih banyak perhatian kepada komuniti model besar ialah berat model dan laporan teknikal Skywork-MoE adalah sumber terbuka sepenuhnya dan percuma untuk kegunaan komersil, tiada aplikasi diperlukan.
Alamat muat turun berat model:
○ https://huggingface.co/Skywork/Skywork-MoE-base
○ https://huggingface.co/Skywork/Skywork-MoE-Base-FP
Skywork-MoE Pengenalan
sumber terbuka ini adalah milik model Skywork-MoE Tiangong Siri model R&D 3.0 ialah model jarak pertengahan (Skywork-MoE-Medium Jumlah parameter model ialah 146B, jumlah parameter pengaktifan ialah 22B, dan terdapat 16 Pakar secara keseluruhannya , dan 2 daripadanya diaktifkan setiap kali. Difahamkan, Tiangong 3.0 juga telah melatih dua model KPM, 75B (Skywork-MoE-Small) dan 400B (Skywork-MoE-Large), yang tidak termasuk dalam sumber terbuka ini. Kunlun Wanwei menilai Skywork-MoE berdasarkan senarai penilaian semasa model arus perdana utama Di bawah jumlah parameter pengaktifan yang sama iaitu 20B (jumlah pengiraan inferens), keupayaan Skywork-MoE berada di barisan hadapan dalam industri, hampir dengan 70B Dense. model. Ini mengurangkan kos inferens model hampir 3 kali ganda. Perlu diperhatikan bahawa jumlah saiz parameter Skywork-MoE adalah 1/3 lebih kecil daripada DeepSeekV2, mencapai keupayaan serupa dengan saiz parameter yang lebih kecil.Inovasi Teknikal
Untuk menyelesaikan masalah latihan model KPM yang sukar dan prestasi generalisasi yang lemah, Skywork-MoE mereka bentuk dua algoritma pengoptimuman latihan:Pengoperasian normalisasi Gating Logits-MoE-MoE baru dalamSkytingwork operasi normalisasi ditambah pada logik pengedaran token Lapisan, yang menjadikan pembelajaran parameter Lapisan Gating lebih cenderung kepada pakar 2 teratas yang dipilih dan meningkatkan keyakinan model KPM untuk 2 teratas:
Adaptif Aux Loss berbeza daripada aux loss tradisional dengan pekali tetap (hiperparameter tetap Skywork-MoE membolehkan model menyesuaikan secara adaptif pekali hiperparameter aux loss yang sesuai pada peringkat latihan MoE yang berbeza, dengan itu mengekalkan Kadar Token Penurunan di dalam lingkungan). selang yang sesuai, pengedaran pakar boleh seimbang dan pembelajaran pakar boleh dibezakan, dengan itu meningkatkan prestasi keseluruhan dan tahap generalisasi model. Pada peringkat awal latihan MoE, disebabkan oleh pembelajaran parameter yang tidak mencukupi, Kadar Token Penurunan adalah terlalu tinggi (perbezaan pengagihan token terlalu besar pada masa ini, kerugian aux yang lebih besar diperlukan untuk membantu baki muatan token pada masa akan datang). peringkat latihan MoE, pasukan Skywork-MoE berharap Tahap pembezaan tertentu masih dipastikan antara Pakar untuk mengelakkan kecenderungan Gating untuk mengedarkan Token secara rawak, jadi kerugian aux yang lebih rendah diperlukan untuk mengurangkan pembetulan.
Latihan InfraCara untuk menjalankan latihan teragih berskala besar bagi model KPM adalah satu cabaran yang sukar. Skywork-MoE mencadangkan dua reka bentuk pengoptimuman selari yang penting untuk mencapai 38% pemprosesan latihan MFU pada kluster kilokalori, di mana MFU mengira beban pengiraan teori dengan parameter pengaktifan 22B.
Data Pakar SelariBerbeza dengan reka bentuk EP (Expert Parallel) dan ETP (Expert Tensor Parallel) dalam komuniti Megatron-LM, pasukan Skywork-MoE mencadangkan penyelesaian reka bentuk selari yang dipanggil Expert Data Parallel ini boleh digunakan dalam Expert When the bilangannya kecil, model masih boleh dibahagikan dengan cekap, dan komunikasi all2all yang diperkenalkan oleh Expert juga boleh dioptimumkan dan disembunyikan ke tahap yang terbaik. Berbanding dengan had EP pada bilangan GPU dan ketidakcekapan ETP pada kluster kilo-kad, EDP boleh menyelesaikan titik kesakitan selari dengan latihan teragih berskala besar MoE Pada masa yang sama, reka bentuk EDP adalah ringkas, teguh, mudah dikembangkan, dan boleh dibandingkan Pelaksanaan dan pengesahan pantas. E Salah satu contoh EDP yang paling mudah, TP = 2, EP = 2 dalam kes dua kad, di mana bahagian perhatian menggunakan Tensor Parallel, bahagian Pakar menggunakan Expert Parallel pemotongan air yang tidak seragam selari air. air Disebabkan pengiraan Embedding peringkat pertama dan pengiraan Kehilangan peringkat terakhir, serta kewujudan Penampan Talian Paip, terdapat ketidakseimbangan yang jelas dalam beban pengkomputeran dan beban memori video setiap peringkat apabila Lapisan dibahagikan sama rata di bawah paralelisme saluran paip. Pasukan Skywork-MoE mencadangkan kaedah pembahagian selari saluran paip yang tidak seragam dan kaedah peruntukan lapisan pengiraan semula untuk menjadikan keseluruhan beban memori pengkomputeran/grafik lebih seimbang dan meningkatkan daya pemprosesan latihan hujung ke hujung sebanyak kira-kira 10%.
Bandingkan gelembung selari saluran paip di bawah segmentasi seragam dan segmentasi tidak seragam: Untuk LLM 24 lapisan, (a) dibahagikan sama rata kepada 4 peringkat, dan bilangan lapisan dalam setiap peringkat ialah: [ 6 , 6, 6, 6]. (b) ialah kaedah pemisahan tidak seragam yang dioptimumkan, yang dibahagikan kepada 5 peringkat Bilangan lapisan dalam setiap peringkat ialah: [5, 5, 5, 5, 4]. peringkat pertengahan dipenuhi dengan air yang mengalir, buih yang dibahagikan tidak sekata lebih rendah. Peraturan praktikal yang boleh diikuti ialah: jika FLOP melatih model KPM adalah lebih daripada 2 kali ganda melatih model Dense, maka adalah lebih baik untuk memilih daripada Scratch untuk melatih KPM. memilih Upcycling untuk melatih KPM boleh mengurangkan kos latihan dengan ketara.
Atas ialah kandungan terperinci Satu 4090 boleh disimpulkan, 200 bilion model besar jarang 'Tiangong MoE' adalah sumber terbuka. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!