Rumah  >  Artikel  >  Peranti teknologi  >  Satu 4090 boleh disimpulkan, 200 bilion model besar jarang "Tiangong MoE" adalah sumber terbuka

Satu 4090 boleh disimpulkan, 200 bilion model besar jarang "Tiangong MoE" adalah sumber terbuka

WBOY
WBOYasal
2024-06-05 22:14:46869semak imbas

Dalam gelombang model besar, latihan dan penggunaan LLM set padat yang canggih menimbulkan cabaran besar dari segi keperluan pengiraan dan kos yang berkaitan, terutamanya pada skala berpuluh atau ratusan bilion parameter. Untuk menangani cabaran ini, model jarang, seperti model Campuran Pakar (MoE), telah menjadi semakin penting. Model ini menawarkan alternatif yang berdaya maju dari segi ekonomi dengan mengedarkan pengiraan kepada pelbagai submodel khusus, atau "pakar," yang berpotensi untuk memadankan atau bahkan melebihi prestasi model set padat dengan keperluan sumber yang sangat rendah.

Pada 3 Jun, satu lagi berita penting datang dari bidang model besar sumber terbuka: Kunlun Wanwei mengumumkan sumber terbuka bagi 200 bilion model besar jarang Skywork-MoE, yang mengurangkan kos inferens dengan ketara sambil mengekalkan prestasi yang kukuh.

Dilanjutkan berdasarkan pusat pemeriksaan perantaraan model Skywork-13B sumber terbuka sebelumnya bagi Kunlun Wanwei Ia merupakan model besar 100 bilion MoE sumber terbuka yang sepenuhnya terpakai dan melaksanakan teknologi Upcycling MoE Ia juga merupakan sumber terbuka pertama yang menyokong inferens satu pelayan 4090 Ratusan bilion model besar MoE.

Apa yang menarik lebih banyak perhatian kepada komuniti model besar ialah berat model dan laporan teknikal Skywork-MoE adalah sumber terbuka sepenuhnya dan percuma untuk kegunaan komersil, tiada aplikasi diperlukan.

  • Alamat muat turun berat model:

○ https://huggingface.co/Skywork/Skywork-MoE-base

○ https://huggingface.co/Skywork/Skywork-MoE-Base-FP

  • Model gudang sumber terbuka: https://github.com/SkyworkAI/Skywork-MoE

  • Laporan teknikal model: https://github.com/SkyworkAI/Skywork-MoE/blob/main/skywork-moe - tech-report.pdf

  • Kod inferens model: (menyokong inferens beban terkuantiti 8-bit pada pelayan 8x4090) https://github.com/SkyworkAI/vllm

Skywork-MoE pada masa ini dapat membuat kesimpulan Pelayan 8x4090 Model MoE sumber terbuka terbesar. Pelayan 8x4090 mempunyai sejumlah 192GB memori GPU Di bawah pengkuantitian FP8 (berat menduduki 146GB), menggunakan kaedah penaakulan selari Tensor Parallel tidak seragam yang dipelopori oleh pasukan Kunlun Wanwei, Skywork-MoE boleh mencapai 2200 token/s dalam tempoh yang sesuai. saiz batch.

Untuk kod rangka kerja inferens yang lengkap dan persekitaran pemasangan, sila lihat: https://github.com/SkyworkAI/Skywork-MoE

Skywork-MoE Pengenalan

sumber terbuka ini adalah milik model Skywork-MoE Tiangong Siri model R&D 3.0 ialah model jarak pertengahan (Skywork-MoE-Medium Jumlah parameter model ialah 146B, jumlah parameter pengaktifan ialah 22B, dan terdapat 16 Pakar secara keseluruhannya , dan 2 daripadanya diaktifkan setiap kali.

Difahamkan, Tiangong 3.0 juga telah melatih dua model KPM, 75B (Skywork-MoE-Small) dan 400B (Skywork-MoE-Large), yang tidak termasuk dalam sumber terbuka ini.

Kunlun Wanwei menilai Skywork-MoE berdasarkan senarai penilaian semasa model arus perdana utama Di bawah jumlah parameter pengaktifan yang sama iaitu 20B (jumlah pengiraan inferens), keupayaan Skywork-MoE berada di barisan hadapan dalam industri, hampir dengan 70B Dense. model. Ini mengurangkan kos inferens model hampir 3 kali ganda.

Satu 4090 boleh disimpulkan, 200 bilion model besar jarang Tiangong MoE adalah sumber terbuka

Perlu diperhatikan bahawa jumlah saiz parameter Skywork-MoE adalah 1/3 lebih kecil daripada DeepSeekV2, mencapai keupayaan serupa dengan saiz parameter yang lebih kecil.

Inovasi Teknikal

Untuk menyelesaikan masalah latihan model KPM yang sukar dan prestasi generalisasi yang lemah, Skywork-MoE mereka bentuk dua algoritma pengoptimuman latihan:

Pengoperasian normalisasi Gating Logits-MoE-MoE baru dalamSkytingwork operasi normalisasi ditambah pada logik pengedaran token Lapisan, yang menjadikan pembelajaran parameter Lapisan Gating lebih cenderung kepada pakar 2 teratas yang dipilih dan meningkatkan keyakinan model KPM untuk 2 teratas:

Adaptif Aux LossSatu 4090 boleh disimpulkan, 200 bilion model besar jarang Tiangong MoE adalah sumber terbuka berbeza daripada aux loss tradisional dengan pekali tetap (hiperparameter tetap Skywork-MoE membolehkan model menyesuaikan secara adaptif pekali hiperparameter aux loss yang sesuai pada peringkat latihan MoE yang berbeza, dengan itu mengekalkan Kadar Token Penurunan di dalam lingkungan). selang yang sesuai, pengedaran pakar boleh seimbang dan pembelajaran pakar boleh dibezakan, dengan itu meningkatkan prestasi keseluruhan dan tahap generalisasi model. Pada peringkat awal latihan MoE, disebabkan oleh pembelajaran parameter yang tidak mencukupi, Kadar Token Penurunan adalah terlalu tinggi (perbezaan pengagihan token terlalu besar pada masa ini, kerugian aux yang lebih besar diperlukan untuk membantu baki muatan token pada masa akan datang). peringkat latihan MoE, pasukan Skywork-MoE berharap Tahap pembezaan tertentu masih dipastikan antara Pakar untuk mengelakkan kecenderungan Gating untuk mengedarkan Token secara rawak, jadi kerugian aux yang lebih rendah diperlukan untuk mengurangkan pembetulan.

Satu 4090 boleh disimpulkan, 200 bilion model besar jarang Tiangong MoE adalah sumber terbuka

Latihan Infra

Cara untuk menjalankan latihan teragih berskala besar bagi model KPM adalah satu cabaran yang sukar. Skywork-MoE mencadangkan dua reka bentuk pengoptimuman selari yang penting untuk mencapai 38% pemprosesan latihan MFU pada kluster kilokalori, di mana MFU mengira beban pengiraan teori dengan parameter pengaktifan 22B.

Data Pakar Selari

Berbeza dengan reka bentuk EP (Expert Parallel) dan ETP (Expert Tensor Parallel) dalam komuniti Megatron-LM, pasukan Skywork-MoE mencadangkan penyelesaian reka bentuk selari yang dipanggil Expert Data Parallel ini boleh digunakan dalam Expert When the bilangannya kecil, model masih boleh dibahagikan dengan cekap, dan komunikasi all2all yang diperkenalkan oleh Expert juga boleh dioptimumkan dan disembunyikan ke tahap yang terbaik. Berbanding dengan had EP pada bilangan GPU dan ketidakcekapan ETP pada kluster kilo-kad, EDP boleh menyelesaikan titik kesakitan selari dengan latihan teragih berskala besar MoE Pada masa yang sama, reka bentuk EDP adalah ringkas, teguh, mudah dikembangkan, dan boleh dibandingkan Pelaksanaan dan pengesahan pantas. E Salah satu contoh EDP yang paling mudah, TP = 2, EP = 2 dalam kes dua kad, di mana bahagian perhatian menggunakan Tensor Parallel, bahagian Pakar menggunakan Expert Parallel

Satu 4090 boleh disimpulkan, 200 bilion model besar jarang Tiangong MoE adalah sumber terbuka

pemotongan air yang tidak seragam selari air. air Disebabkan pengiraan Embedding peringkat pertama dan pengiraan Kehilangan peringkat terakhir, serta kewujudan Penampan Talian Paip, terdapat ketidakseimbangan yang jelas dalam beban pengkomputeran dan beban memori video setiap peringkat apabila Lapisan dibahagikan sama rata di bawah paralelisme saluran paip. Pasukan Skywork-MoE mencadangkan kaedah pembahagian selari saluran paip yang tidak seragam dan kaedah peruntukan lapisan pengiraan semula untuk menjadikan keseluruhan beban memori pengkomputeran/grafik lebih seimbang dan meningkatkan daya pemprosesan latihan hujung ke hujung sebanyak kira-kira 10%.

Bandingkan gelembung selari saluran paip di bawah segmentasi seragam dan segmentasi tidak seragam: Untuk LLM 24 lapisan, (a) dibahagikan sama rata kepada 4 peringkat, dan bilangan lapisan dalam setiap peringkat ialah: [ 6 , 6, 6, 6]. (b) ialah kaedah pemisahan tidak seragam yang dioptimumkan, yang dibahagikan kepada 5 peringkat Bilangan lapisan dalam setiap peringkat ialah: [5, 5, 5, 5, 4]. peringkat pertengahan dipenuhi dengan air yang mengalir, buih yang dibahagikan tidak sekata lebih rendah.

Satu 4090 boleh disimpulkan, 200 bilion model besar jarang Tiangong MoE adalah sumber terbuka

Selain itu, Skywork-MoE juga menjalankan beberapa siri eksperimen berdasarkan Undang-undang Skala untuk meneroka kekangan yang mempengaruhi prestasi model Upcycling dan From Scratch MoE.

Peraturan praktikal yang boleh diikuti ialah: jika FLOP melatih model KPM adalah lebih daripada 2 kali ganda melatih model Dense, maka adalah lebih baik untuk memilih daripada Scratch untuk melatih KPM. memilih Upcycling untuk melatih KPM boleh mengurangkan kos latihan dengan ketara.

Atas ialah kandungan terperinci Satu 4090 boleh disimpulkan, 200 bilion model besar jarang "Tiangong MoE" adalah sumber terbuka. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn