Satu 4090 boleh disimpulkan, 200 bilion model besar jarang 'Tiangong MoE' adalah sumber terbuka-AI-php.cn

Rumah

Peranti teknologi

Satu 4090 boleh disimpulkan, 200 bilion model besar jarang 'Tiangong MoE' adalah sumber terbuka

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 05, 2024 pm 10:14 PM

industriKunlun Wanwei

Dalam gelombang model besar, latihan dan penggunaan LLM set padat yang canggih menimbulkan cabaran besar dari segi keperluan pengiraan dan kos yang berkaitan, terutamanya pada skala berpuluh atau ratusan bilion parameter. Untuk menangani cabaran ini, model jarang, seperti model Campuran Pakar (MoE), telah menjadi semakin penting. Model ini menawarkan alternatif yang berdaya maju dari segi ekonomi dengan mengedarkan pengiraan kepada pelbagai submodel khusus, atau "pakar," yang berpotensi untuk memadankan atau bahkan melebihi prestasi model set padat dengan keperluan sumber yang sangat rendah.

Pada 3 Jun, satu lagi berita penting datang dari bidang model besar sumber terbuka: Kunlun Wanwei mengumumkan sumber terbuka bagi 200 bilion model besar jarang Skywork-MoE, yang mengurangkan kos inferens dengan ketara sambil mengekalkan prestasi yang kukuh.

Dilanjutkan berdasarkan pusat pemeriksaan perantaraan model Skywork-13B sumber terbuka sebelumnya bagi Kunlun Wanwei Ia merupakan model besar 100 bilion MoE sumber terbuka yang sepenuhnya terpakai dan melaksanakan teknologi Upcycling MoE Ia juga merupakan sumber terbuka pertama yang menyokong inferens satu pelayan 4090 Ratusan bilion model besar MoE.

Apa yang menarik lebih banyak perhatian kepada komuniti model besar ialah berat model dan laporan teknikal Skywork-MoE adalah sumber terbuka sepenuhnya dan percuma untuk kegunaan komersil, tiada aplikasi diperlukan.

Alamat muat turun berat model:

￮ https://huggingface.co/Skywork/Skywork-MoE-base

￮ https://huggingface.co/Skywork/Skywork-MoE-Base-FP

Model gudang sumber terbuka: https://github.com/SkyworkAI/Skywork-MoE
Laporan teknikal model: https://github.com/SkyworkAI/Skywork-MoE/blob/main/skywork-moe - tech-report.pdf
Kod inferens model: (menyokong inferens beban terkuantiti 8-bit pada pelayan 8x4090) https://github.com/SkyworkAI/vllm

Skywork-MoE pada masa ini dapat membuat kesimpulan Pelayan 8x4090 Model MoE sumber terbuka terbesar. Pelayan 8x4090 mempunyai sejumlah 192GB memori GPU Di bawah pengkuantitian FP8 (berat menduduki 146GB), menggunakan kaedah penaakulan selari Tensor Parallel tidak seragam yang dipelopori oleh pasukan Kunlun Wanwei, Skywork-MoE boleh mencapai 2200 token/s dalam tempoh yang sesuai. saiz batch.

Untuk kod rangka kerja inferens yang lengkap dan persekitaran pemasangan, sila lihat: https://github.com/SkyworkAI/Skywork-MoE

Skywork-MoE Pengenalan

sumber terbuka ini adalah milik model Skywork-MoE Tiangong Siri model R&D 3.0 ialah model jarak pertengahan (Skywork-MoE-Medium Jumlah parameter model ialah 146B, jumlah parameter pengaktifan ialah 22B, dan terdapat 16 Pakar secara keseluruhannya , dan 2 daripadanya diaktifkan setiap kali.

Difahamkan, Tiangong 3.0 juga telah melatih dua model KPM, 75B (Skywork-MoE-Small) dan 400B (Skywork-MoE-Large), yang tidak termasuk dalam sumber terbuka ini.

Kunlun Wanwei menilai Skywork-MoE berdasarkan senarai penilaian semasa model arus perdana utama Di bawah jumlah parameter pengaktifan yang sama iaitu 20B (jumlah pengiraan inferens), keupayaan Skywork-MoE berada di barisan hadapan dalam industri, hampir dengan 70B Dense. model. Ini mengurangkan kos inferens model hampir 3 kali ganda.

Satu 4090 boleh disimpulkan, 200 bilion model besar jarang Tiangong MoE adalah sumber terbuka

Perlu diperhatikan bahawa jumlah saiz parameter Skywork-MoE adalah 1/3 lebih kecil daripada DeepSeekV2, mencapai keupayaan serupa dengan saiz parameter yang lebih kecil.

Inovasi Teknikal

Untuk menyelesaikan masalah latihan model KPM yang sukar dan prestasi generalisasi yang lemah, Skywork-MoE mereka bentuk dua algoritma pengoptimuman latihan:

Pengoperasian normalisasi Gating Logits-MoE-MoE baru dalamSkytingwork operasi normalisasi ditambah pada logik pengedaran token Lapisan, yang menjadikan pembelajaran parameter Lapisan Gating lebih cenderung kepada pakar 2 teratas yang dipilih dan meningkatkan keyakinan model KPM untuk 2 teratas:

Adaptif Aux Loss Satu 4090 boleh disimpulkan, 200 bilion model besar jarang Tiangong MoE adalah sumber terbuka berbeza daripada aux loss tradisional dengan pekali tetap (hiperparameter tetap Skywork-MoE membolehkan model menyesuaikan secara adaptif pekali hiperparameter aux loss yang sesuai pada peringkat latihan MoE yang berbeza, dengan itu mengekalkan Kadar Token Penurunan di dalam lingkungan). selang yang sesuai, pengedaran pakar boleh seimbang dan pembelajaran pakar boleh dibezakan, dengan itu meningkatkan prestasi keseluruhan dan tahap generalisasi model. Pada peringkat awal latihan MoE, disebabkan oleh pembelajaran parameter yang tidak mencukupi, Kadar Token Penurunan adalah terlalu tinggi (perbezaan pengagihan token terlalu besar pada masa ini, kerugian aux yang lebih besar diperlukan untuk membantu baki muatan token pada masa akan datang). peringkat latihan MoE, pasukan Skywork-MoE berharap Tahap pembezaan tertentu masih dipastikan antara Pakar untuk mengelakkan kecenderungan Gating untuk mengedarkan Token secara rawak, jadi kerugian aux yang lebih rendah diperlukan untuk mengurangkan pembetulan.

Satu 4090 boleh disimpulkan, 200 bilion model besar jarang Tiangong MoE adalah sumber terbuka

Latihan Infra

Cara untuk menjalankan latihan teragih berskala besar bagi model KPM adalah satu cabaran yang sukar. Skywork-MoE mencadangkan dua reka bentuk pengoptimuman selari yang penting untuk mencapai 38% pemprosesan latihan MFU pada kluster kilokalori, di mana MFU mengira beban pengiraan teori dengan parameter pengaktifan 22B.

Data Pakar Selari

Berbeza dengan reka bentuk EP (Expert Parallel) dan ETP (Expert Tensor Parallel) dalam komuniti Megatron-LM, pasukan Skywork-MoE mencadangkan penyelesaian reka bentuk selari yang dipanggil Expert Data Parallel ini boleh digunakan dalam Expert When the bilangannya kecil, model masih boleh dibahagikan dengan cekap, dan komunikasi all2all yang diperkenalkan oleh Expert juga boleh dioptimumkan dan disembunyikan ke tahap yang terbaik. Berbanding dengan had EP pada bilangan GPU dan ketidakcekapan ETP pada kluster kilo-kad, EDP boleh menyelesaikan titik kesakitan selari dengan latihan teragih berskala besar MoE Pada masa yang sama, reka bentuk EDP adalah ringkas, teguh, mudah dikembangkan, dan boleh dibandingkan Pelaksanaan dan pengesahan pantas. E Salah satu contoh EDP yang paling mudah, TP = 2, EP = 2 dalam kes dua kad, di mana bahagian perhatian menggunakan Tensor Parallel, bahagian Pakar menggunakan Expert Parallel

pemotongan air yang tidak seragam selari air. air Disebabkan pengiraan Embedding peringkat pertama dan pengiraan Kehilangan peringkat terakhir, serta kewujudan Penampan Talian Paip, terdapat ketidakseimbangan yang jelas dalam beban pengkomputeran dan beban memori video setiap peringkat apabila Lapisan dibahagikan sama rata di bawah paralelisme saluran paip. Pasukan Skywork-MoE mencadangkan kaedah pembahagian selari saluran paip yang tidak seragam dan kaedah peruntukan lapisan pengiraan semula untuk menjadikan keseluruhan beban memori pengkomputeran/grafik lebih seimbang dan meningkatkan daya pemprosesan latihan hujung ke hujung sebanyak kira-kira 10%.

Bandingkan gelembung selari saluran paip di bawah segmentasi seragam dan segmentasi tidak seragam: Untuk LLM 24 lapisan, (a) dibahagikan sama rata kepada 4 peringkat, dan bilangan lapisan dalam setiap peringkat ialah: [ 6 , 6, 6, 6]. (b) ialah kaedah pemisahan tidak seragam yang dioptimumkan, yang dibahagikan kepada 5 peringkat Bilangan lapisan dalam setiap peringkat ialah: [5, 5, 5, 5, 4]. peringkat pertengahan dipenuhi dengan air yang mengalir, buih yang dibahagikan tidak sekata lebih rendah.

Selain itu, Skywork-MoE juga menjalankan beberapa siri eksperimen berdasarkan Undang-undang Skala untuk meneroka kekangan yang mempengaruhi prestasi model Upcycling dan From Scratch MoE.
Peraturan praktikal yang boleh diikuti ialah: jika FLOP melatih model KPM adalah lebih daripada 2 kali ganda melatih model Dense, maka adalah lebih baik untuk memilih daripada Scratch untuk melatih KPM. memilih Upcycling untuk melatih KPM boleh mengurangkan kos latihan dengan ketara.

Atas ialah kandungan terperinci Satu 4090 boleh disimpulkan, 200 bilion model besar jarang 'Tiangong MoE' adalah sumber terbuka. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel Berkaitan

Ahli terapi AI ada di sini: 14 alat kesihatan mental yang perlu anda ketahuiApr 30, 2025 am 11:17 AM

Walaupun ia tidak dapat memberikan sambungan manusia dan intuisi ahli terapi terlatih, penyelidikan telah menunjukkan bahawa ramai orang selesa berkongsi kebimbangan dan kebimbangan mereka dengan bot AI yang agak tidak berwajah dan tanpa nama. Sama ada ini selalu baik saya

Memanggil AI ke lorong runcitApr 30, 2025 am 11:16 AM

Kecerdasan Buatan (AI), satu dekad teknologi dalam pembuatan, merevolusikan industri runcit makanan. Dari keuntungan kecekapan berskala besar dan pengurangan kos kepada proses yang diselaraskan di pelbagai fungsi perniagaan, kesan AI adalah undeniabl

Mendapatkan ceramah pep dari ai generatif untuk mengangkat semangat andaApr 30, 2025 am 11:15 AM

Mari kita bercakap mengenainya. Analisis terobosan AI yang inovatif ini adalah sebahagian daripada liputan lajur Forbes yang berterusan pada AI terkini termasuk mengenal pasti dan menjelaskan pelbagai kerumitan AI yang memberi kesan (lihat pautan di sini). Di samping itu, untuk comp saya

Mengapa Hyper-Personalization berkuasa AI adalah satu kemestian untuk semua perniagaanApr 30, 2025 am 11:14 AM

Mengekalkan imej profesional memerlukan kemas kini almari pakaian sekali -sekala. Walaupun membeli-belah dalam talian adalah mudah, ia tidak mempunyai kepastian percubaan secara peribadi. Penyelesaian saya? Peribadi yang berkuasa AI. Saya membayangkan pembantu AI yang mengendalikan pakaian selecti

Lupakan Duolingo: Ciri AI Baru Google Translate Mengajar BahasaApr 30, 2025 am 11:13 AM

Google Translate menambah fungsi pembelajaran bahasa Menurut Android Authority, App Expers AssembleDebug telah mendapati bahawa versi terbaru aplikasi Google Translate mengandungi mod ujian "amalan" baru yang direka untuk membantu pengguna meningkatkan kemahiran bahasa mereka melalui aktiviti yang diperibadikan. Ciri ini kini tidak dapat dilihat oleh pengguna, tetapi AssembleDebug dapat mengaktifkannya dan melihat beberapa elemen antara muka pengguna yang baru. Apabila diaktifkan, ciri ini menambah ikon topi tamat pengajian baru di bahagian bawah skrin yang ditandai dengan lencana "beta" yang menunjukkan bahawa ciri "amalan" akan dikeluarkan pada mulanya dalam bentuk eksperimen. Prompt pop timbul yang berkaitan menunjukkan "Amalan aktiviti yang disesuaikan untuk anda!", Yang bermaksud Google akan menjana disesuaikan

Mereka membuat TCP/IP untuk AI, dan ia dipanggil NandaApr 30, 2025 am 11:12 AM

Penyelidik MIT sedang membangunkan Nanda, protokol web yang direka untuk agen AI. Pendek untuk ejen rangkaian dan AI yang terdesentralisasi, Nanda membina Protokol Konteks Model Anthropic (MCP) dengan menambahkan keupayaan Internet, membolehkan AI AGEN

The Prompt: Deepfake Detection adalah perniagaan yang berkembang pesatApr 30, 2025 am 11:11 AM

Usaha terbaru Meta: Aplikasi AI untuk menyaingi chatgpt Meta, syarikat induk Facebook, Instagram, WhatsApp, dan Threads, melancarkan aplikasi berkuasa AI yang baru. Aplikasi mandiri ini, Meta AI, bertujuan untuk bersaing secara langsung dengan chatgpt Openai. Tuil

Dua tahun akan datang dalam keselamatan siber AI untuk pemimpin perniagaanApr 30, 2025 am 11:10 AM

Menavigasi serangan AI Cyber yang semakin meningkat Baru-baru ini, Jason Clinton, Ciso untuk Anthropic, menggariskan risiko yang muncul yang terikat kepada identiti bukan manusia-sebagai komunikasi komunikasi ke mesin, melindungi "identiti" ini menjadi

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

3 minggu yang laluByDDD

Bagaimana untuk memperbaiki KB5055523 gagal dipasang di Windows 11?

2 minggu yang laluByDDD

Inzoi: Cara Memohon ke Sekolah dan Universiti

4 minggu yang laluByDDD

Bagaimana untuk memperbaiki KB5055518 gagal dipasang di Windows 10?

2 minggu yang laluByDDD

Di mana untuk mencari kunci pejabat tapak di atomfall

4 minggu yang laluByDDD

Tunjukkan Lagi

Alat panas

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

MantisBT

Mantis ialah alat pengesan kecacatan berasaskan web yang mudah digunakan yang direka untuk membantu dalam pengesanan kecacatan produk. Ia memerlukan PHP, MySQL dan pelayan web. Lihat perkhidmatan demo dan pengehosan kami.

mPDF

mPDF ialah perpustakaan PHP yang boleh menjana fail PDF daripada HTML yang dikodkan UTF-8. Pengarang asal, Ian Back, menulis mPDF untuk mengeluarkan fail PDF "dengan cepat" dari tapak webnya dan mengendalikan bahasa yang berbeza. Ia lebih perlahan dan menghasilkan fail yang lebih besar apabila menggunakan fon Unicode daripada skrip asal seperti HTML2FPDF, tetapi menyokong gaya CSS dsb. dan mempunyai banyak peningkatan. Menyokong hampir semua bahasa, termasuk RTL (Arab dan Ibrani) dan CJK (Cina, Jepun dan Korea). Menyokong elemen peringkat blok bersarang (seperti P, DIV),