Rumah >Peranti teknologi >AI >Algoritma, sistem dan aplikasi, pemahaman komprehensif pakar hibrid (KPM) dari tiga perspektif

Algoritma, sistem dan aplikasi, pemahaman komprehensif pakar hibrid (KPM) dari tiga perspektif

PHPzasal: 2024-08-06 01:49:021136semak imbas

LLM sangat kukuh, dan untuk mencapai pengembangan LLM yang mampan, adalah perlu untuk mencari dan melaksanakan kaedah yang boleh meningkatkan kecekapannya Pakar hibrid (KPM) adalah ahli penting kaedah jenis ini.

Baru-baru ini, model besar generasi baharu yang dicadangkan oleh pelbagai syarikat teknologi semuanya menggunakan kaedah Campuran Pakar (KPM).

Konsep pakar hibrid pertama kali dilahirkan dalam kertas kerja "Campuran adaptif pakar tempatan" pada tahun 1991. Ia telah diterokai dan dibangunkan secara meluas selama lebih daripada 30 tahun. Dalam beberapa tahun kebelakangan ini, dengan kemunculan dan pembangunan KPM berpagar jarang, terutamanya apabila digabungkan dengan model bahasa berskala besar berdasarkan Transformer, teknologi berusia lebih tiga puluh tahun ini telah memulakan kehidupan baharu.

Rangka kerja KPM adalah berdasarkan idea yang ringkas namun berkuasa: bahagian model yang berbeza (dipanggil pakar) memfokuskan pada tugas yang berbeza atau aspek data yang berbeza.

Apabila menggunakan paradigma ini, untuk input, hanya pakar yang berkaitan dengannya akan mengambil bahagian dalam pemprosesan, supaya kos pengiraan dapat dikawal sambil masih mendapat manfaat daripada sejumlah besar pengetahuan profesional. Oleh itu, KPM boleh meningkatkan keupayaan model bahasa besar tanpa meningkatkan keperluan pengiraan dengan ketara.

Seperti yang ditunjukkan dalam Rajah 1, penyelidikan berkaitan MoE telah berkembang dengan kukuh, terutamanya selepas kemunculan Mixtral-8x7B dan pelbagai LLM peringkat industri seperti Grok-1, DBRX, Arctic, DeepSeek-V2, dll. pada tahun 2024.

Algoritma, sistem dan aplikasi, pemahaman komprehensif pakar hibrid (KPM) dari tiga perspektif

Gambar ini datang daripada laporan semakan MoE yang dikeluarkan baru-baru ini oleh pasukan penyelidik dari Universiti Sains dan Teknologi Hong Kong (Guangzhou) dengan jelas dan menyeluruh meringkaskan penyelidikan berkaitan MoE dan mencadangkan kaedah klasifikasi baharu dikelaskan kepada tiga kategori: algoritma, sistem dan aplikasi. . Untuk membantu pembaca memahami gambaran keseluruhan pembangunan semasa MoE, sila baca kertas asal untuk butiran lanjut. Selain itu, kami juga telah menyusun beberapa laporan berkaitan KPM pada akhir artikel.

Algoritma, sistem dan aplikasi, pemahaman komprehensif pakar hibrid (KPM) dari tiga perspektif Pengetahuan latar belakang pakar hibrid

Dalam model bahasa besar (LLM) berasaskan Transformer, komposisi setiap lapisan pakar hibrid (MoE) biasanya merupakan "rangkaian pakar" {?_1, ... , ?_ ?} Dipasangkan dengan "rangkaian gating" G.
Rangkaian gating ini biasanya dalam bentuk rangkaian linear menggunakan fungsi pengaktifan softmax, yang berperanan untuk membimbing input ke rangkaian pakar yang sesuai. Lapisan MoE diletakkan dalam modul Transformer, dan fungsinya adalah untuk memilih rangkaian hadapan (FFN), biasanya terletak selepas sub-lapisan perhatian kendiri (SA). Peletakan ini adalah kritikal kerana apabila model berkembang, keperluan pengiraan FFN meningkat. Sebagai contoh, dalam model PaLM dengan 540 bilion parameter, 90% daripada parameter terletak dalam lapisan FFNnya.
Diterangkan dalam bentuk matematik: Setiap rangkaian pakar ?_? (biasanya linear - ReLU - rangkaian linear) diparameterkan oleh W_?, yang menerima input x yang sama dan menghasilkan output ?_? Pada masa yang sama, rangkaian berpagar G dengan parameter Θ (biasanya terdiri daripada rangkaian linear-ReLU-linear-softmax) mendapat output G (x; Θ). Mengikut kaedah reka bentuk fungsi gating, lapisan MoE boleh dibahagikan secara kasar kepada dua kategori berikut.

MoE Padat

Lapisan pakar campuran yang padat adalah untuk mengaktifkan semua rangkaian pakar {?_1, ... , ?_?} semasa setiap lelaran. Kajian awal KPM lazimnya menggunakan strategi ini. Sejak kebelakangan ini, terdapat beberapa kajian menggunakan MoE padat, seperti EvoMoE, MoLE, LoRAMoE dan DS-MoE. Rajah 2a memberikan struktur lapisan MoE yang padat. Oleh itu, keluaran lapisan MoE padat boleh dinyatakan sebagai:

di mana, ?(x; Θ) ialah nilai get sebelum operasi softmax.

Sparse MoE Algoritma, sistem dan aplikasi, pemahaman komprehensif pakar hibrid (KPM) dari tiga perspektif

Walaupun ketepatan ramalan pakar campuran padat secara amnya lebih tinggi, beban pengiraannya juga sangat tinggi. Untuk menyelesaikan masalah ini, kertas kerja Shazeer et al. "Rangkaian saraf yang sangat besar: Lapisan campuran pakar yang berpagar jarang" memperkenalkan lapisan MoE berpagar jarang, yang hanya boleh mengaktifkan rangkaian terpilih dalam setiap ke hadapan lulus subset pakar tertentu. Strategi ini mencapai kesederhanaan dengan mengira jumlah wajaran keluaran pakar teratas, dan bukannya mengagregatkan output semua pakar bersama-sama. Rajah 2b menunjukkan struktur lapisan MoE yang begitu jarang.

Mengikut rangka kerja yang dicadangkan dalam kertas di atas, Persamaan 2.2 boleh diubah suai untuk mencerminkan mekanisme gating yang jarang:

Algoritma, sistem dan aplikasi, pemahaman komprehensif pakar hibrid (KPM) dari tiga perspektif

Penjelasan di sini: Fungsi TopK (・, ?) hanya mengekalkan k item pertama nilai asal vektor, sambil menetapkan item lain kepada −∞. Ini diikuti dengan operasi softmax di mana semua sebutan −∞ menjadi lebih kurang sifar. Hiperparameter k harus dipilih mengikut aplikasi khusus ialah ? Menambah istilah hingar R_noise ialah strategi biasa untuk melatih lapisan MoE berpagar jarang, yang menggalakkan penerokaan dalam kalangan pakar dan meningkatkan kestabilan latihan MoE.

Walaupun gating jarang G (x; Θ) boleh mengembangkan ruang parameter model dengan ketara tanpa meningkatkan kos pengiraan yang sepadan, ia juga boleh membawa kepada masalah pengimbangan beban. Masalah pengimbangan beban merujuk kepada pengagihan beban yang tidak sekata di kalangan pakar - sesetengah pakar kerap digunakan, manakala yang lain jarang digunakan atau tidak sama sekali.

Untuk menyelesaikan masalah ini, setiap lapisan KPM mesti menyepadukan fungsi kehilangan tambahan, yang berperanan menggesa setiap kumpulan token diagihkan secara sama rata kepada setiap pakar. Daripada huraian bentuk matematik, mula-mula tentukan kumpulan pertanyaan yang mengandungi token T B = {x_1, x_2, ..., x_?} dan N pakar. Kemudian kerugian pengimbangan beban tambahannya ditakrifkan sebagai:

Algoritma, sistem dan aplikasi, pemahaman komprehensif pakar hibrid (KPM) dari tiga perspektif

di mana D_i ialah perkadaran token yang diberikan kepada pakar i, dan P_i ialah perkadaran kebarangkalian gating yang diberikan kepada pakar i. Untuk memastikan kumpulan itu diagihkan sama rata di kalangan pakar N, fungsi kehilangan pengimbangan beban L_{load-balancing} harus diminimumkan. Apabila setiap pakar diberikan bilangan token yang sama D_? = 1/? dan kebarangkalian gating yang sama P_?, keadaan optimum dicapai:

Algoritma, sistem dan aplikasi, pemahaman komprehensif pakar hibrid (KPM) dari tiga perspektif

Pada masa ini, beban setiap pakar mencapai keseimbangan .

Dalam perkara berikut, melainkan dinyatakan sebaliknya secara eksplisit, istilah "KPM" merujuk hanya kepada "KPM yang jarang".

Klasifikasi pakar hibrid

Untuk membantu penyelidik mencari sasaran dalam penyelidikan LLM yang menggunakan KPM dalam jumlah besar, pasukan membangunkan satu set kaedah klasifikasi untuk mengklasifikasikan model ini mengikut tiga aspek: reka bentuk algoritma, reka bentuk sistem dan aplikasi.

Rajah 3 menunjukkan kaedah pengelasan ini dan beberapa hasil penyelidikan yang mewakili.

Algoritma, sistem dan aplikasi, pemahaman komprehensif pakar hibrid (KPM) dari tiga perspektif

Berikut akan memberikan pengenalan yang komprehensif dan mendalam kepada setiap kategori.

Reka bentuk algoritma pakar campuran

Fungsi gating

Fungsi gating (juga dikenali sebagai fungsi penghalaan atau penghala) ialah komponen asas bagi semua seni bina KPM Peranannya adalah untuk menyelaraskan penggunaan pengiraan pakar Pengeluaran.

Gating boleh dibahagikan kepada tiga jenis berdasarkan kaedah pemprosesan untuk setiap input: jarang, padat dan lembut. Mekanisme gating jarang mengaktifkan beberapa pakar, mekanisme gating padat mengaktifkan semua pakar, dan mekanisme gating lembut termasuk kaedah yang boleh dibezakan sepenuhnya, termasuk gabungan token input dan gabungan pakar. Rajah 4 menggambarkan pelbagai fungsi gating yang digunakan dalam model KPM. Fungsi gating jarang mengaktifkan pakar terpilih apabila memproses setiap token input, yang boleh dianggap sebagai satu bentuk pengiraan bersyarat.

Fungsi gating boleh melaksanakan pelbagai bentuk keputusan gating, seperti membuat keputusan binari, membuat keputusan yang jarang atau berterusan, membuat keputusan secara rawak atau deterministik ia telah dikaji secara mendalam dan boleh menggunakan pelbagai bentuk pembelajaran pengukuhan dan sebaliknya Sebarkan untuk melatih. Kajian

Algoritma, sistem dan aplikasi, pemahaman komprehensif pakar hibrid (KPM) dari tiga perspektif Shazeer et al. "Rangkaian saraf yang sangat besar: Lapisan campuran pakar yang berpagar jarang" merintis kaedah heuristik yang boleh dibezakan menggunakan kehilangan pengimbangan beban tambahan, di mana Output pengiraan pakar ditimbang. Ini memperkenalkan kebolehbezaan ke dalam proses gating, di mana pengoptimuman fungsi gating boleh dipandu oleh kecerunan.

Berikut adalah perkara utama bahagian ini, lihat kertas asal untuk butiran:

gating terpilih token

Kerugian tambahan untuk gating terpilih token

kapasiti gating terpilih untuk

Kemajuan lain dalam gating selektif token
Gating selektif token yang tidak boleh dilatih
Gating selektif pakar

Walaupun KPM jarang mempunyai kelebihan dalam kecekapan, hala tuju KPM yang padat masih mengalu-alukan inovasi. Khususnya, pengaktifan padat berprestasi baik pada penalaan halus LoRA-MoE dengan overhed pengiraan yang agak rendah untuk pakar LoRA. Pendekatan ini membolehkan integrasi berbilang LoRA yang cekap dan fleksibel untuk menyelesaikan pelbagai tugas hiliran. Ini mengekalkan keupayaan generatif model asal yang telah dilatih sambil mengekalkan ciri unik setiap LoRA untuk setiap tugas.

formula lembut

Bagi KPM yang jarang, masalah pengoptimuman diskret asas ialah cara memutuskan pakar yang sesuai untuk diberikan kepada setiap token. Untuk memastikan penyertaan pakar yang seimbang dan meminimumkan token yang tidak diperuntukkan, ini selalunya memerlukan kerugian bantuan heuristik. Masalah ini amat ketara dalam senario yang melibatkan data luar pengedaran (seperti kelompok inferens kecil, input baru atau pembelajaran pemindahan).

Sama seperti KPM padat, kaedah KPM lembut juga menggunakan semua pakar semasa memproses setiap input, dengan itu mengekalkan kebolehbezaan penuh dan dengan itu mengelakkan masalah yang wujud dalam kaedah pemilihan pakar diskret. Perbezaan antara MoE lembut dan MoE padat ialah yang pertama mengurangkan keperluan pengiraan melalui gabungan berpagar dan wajaran token input atau pakar.

Pakar

Bahagian ini akan memperkenalkan seni bina rangkaian pakar dalam rangka kerja KPM dan membincangkan fungsi gating yang menyelaraskan pengaktifan pakar ini.

Jenis Rangkaian

Sejak KPM disepadukan ke dalam seni bina Transformer, ia sering menggantikan modul rangkaian hadapan (FFN) dalam model ini. Lazimnya, setiap pakar dalam lapisan MoE mereplikasi seni bina FFN yang digantikannya.

Paradigma menggunakan FFN sebagai pakar ini masih arus perdana, tetapi orang ramai juga telah membuat banyak penambahbaikan padanya.

Hyperparameters

Skala model jarang KPM dikawal oleh beberapa hiperparameter utama, termasuk:

Bilangan pakar setiap lapisan MoE
setiap pakar
KPM Berapa kerap lapisan diletakkan di seluruh model

Pilihan hiperparameter ini adalah penting kerana ia sangat mempengaruhi prestasi dan kecekapan pengiraan model dalam pelbagai tugas. Oleh itu, hiperparameter optimum dipilih berdasarkan keperluan aplikasi khusus dan infrastruktur pengkomputeran. Jadual 2 menunjukkan beberapa konfigurasi model menggunakan MoE.

Algoritma, sistem dan aplikasi, pemahaman komprehensif pakar hibrid (KPM) dari tiga perspektif

Selain itu, Jadual 3 menyenaraikan bilangan parameter dan prestasi penanda aras beberapa model sumber terbuka terkini.

Algoritma, sistem dan aplikasi, pemahaman komprehensif pakar hibrid (KPM) dari tiga perspektif

Fungsi pengaktifan

Model MoE yang jarang dibina pada seni bina Transformer yang padat menggunakan fungsi pengaktifan yang serupa dengan LLM padat terkemuka seperti BERT, T5, GPT dan LLAMA. Fungsi pengaktifan telah berkembang daripada ReLU kepada pilihan yang lebih maju seperti GeLU, GeGLU, SwiGLU dan banyak lagi.

Arah aliran ini juga meluas kepada komponen lain model MoE, yang selalunya menggabungkan teknik seperti Root Mean Square Layer Normalization (RMSNorm), Grouped Query Attention (GQA), dan Rotated Position Embedding (RoPE). . pemprosesan pada setiap lapisan, manakala kos komunikasi tidak akan melebihi kaedah gating top-1. Pendekatan ini menganggap pakar KPM yang dipilih sebagai bantuan pembetulan ralat untuk FFN padat tetap.

Paradigma yang mengintegrasikan FFN tetap dan KPM jarang sering dipanggil pakar kongsi, seperti yang ditunjukkan dalam Rajah 5b.

Model seperti DeepSeekMoE, OpenMoE, Qwen1.5-MoE dan MoCLE baru-baru ini menerima pakai paradigma ini, menunjukkan bahawa ia menjadi konfigurasi arus perdana. Walau bagaimanapun, DeepSeekMoE dan Qwen1.5-MoE menggunakan berbilang pakar kongsi dan bukannya seorang.

Pakar penalaan halus cekap parameter hibrid

Algoritma, sistem dan aplikasi, pemahaman komprehensif pakar hibrid (KPM) dari tiga perspektif Petala halus cekap parameter (PEFT) ialah kaedah untuk meningkatkan kecekapan penalaan halus. Ringkasnya, PEFT hanya mengemas kini sebahagian kecil daripada parameter model asas semasa penalaan halus.

PEFT berjaya, tetapi disebabkan parameternya yang boleh dilatih terhad dan kemungkinan masalah melupakan bencana, kaedah ini sukar digunakan dalam situasi di mana generalisasi kepada berbilang tugasan diperlukan.

Untuk mengurangkan batasan ini, Pakar Cekap Parameter Campuran (MoPE) dilahirkan, yang menyepadukan rangka kerja KPM dan PEFT. MoPE menyepadukan mekanisme gating MoE dan seni bina berbilang pakar, dan setiap pakar dibina menggunakan teknologi PEFT. Gabungan bijak ini boleh meningkatkan prestasi PEFT dalam senario berbilang tugas. Selain itu, memandangkan PEFT digunakan untuk membina pakar, MoPE juga menggunakan lebih sedikit parameter dan lebih cekap sumber berbanding model MoE tradisional.

MoPE menggabungkan ciri-ciri pelbagai tugas KPM dan kecekapan sumber PEFT, yang merupakan hala tuju penyelidikan yang sangat menjanjikan. Rajah 6 mengelaskan MoPE mengikut kedudukannya dalam seni bina model Transformer. Untuk pengenalan yang lebih terperinci kepada hasil penyelidikan mengenai MoPE, sila rujuk kertas asal.

Penyelesaian latihan dan inferens

Pakar hibrid semakin maju dan berkembang, dan penyelesaian latihan dan inferens yang berkaitan juga sedang berkembang dan berkembang.

Latihan awal dan penyelesaian inferens memerlukan latihan model MoE dari awal dan terus menggunakan konfigurasi model terlatih untuk melakukan inferens.

Tetapi kini, banyak paradigma baharu telah muncul dalam latihan dan inferens model KPM, termasuk menggabungkan kelebihan model padat dan jarang untuk saling melengkapi. . Konfigurasi KPM;

Jarang kepada padat: melibatkan penurunan taraf model KPM yang jarang kepada bentuk yang padat, yang bermanfaat untuk melaksanakan inferens ke dalam bentuk perkakasan

digabungkan model pakar pra-pakar: menggabungkan pelbagai model pakar; satu model KPM Bersatu.

Teknologi Terhasil daripada MoE

Pakar Campuran (KPM) telah memberi inspirasi kepada pelbagai teknologi varian yang berbeza. Sebagai contoh, kertas kerja Xue et al. "Pergi lebih luas dan bukannya lebih dalam" mencadangkan WideNet dengan lebar model yang dipertingkatkan Kaedahnya adalah untuk menggantikan rangkaian hadapan (FFN) dengan lapisan MoE sambil mengekalkan kebolehlatihan bersama pada lapisan Transformer , kecuali untuk lapisan normalisasi.
Selain itu, terdapat SYT (Sparse Universal Transformer) yang dicadangkan oleh Tan et al., MoT (Hybrid Token) yang dicadangkan oleh Antoniak et al., SMoP (Sparse Mixed Prompter) yang dicadangkan oleh Choi et al., dan Chen et al. Sepanjang Hayat-MoE, MoD (kedalaman pencampuran) yang dicadangkan oleh Raposo et al., dsb.

Ringkasnya, pembangunan teknologi terbitan KPM mendedahkan trend: KPM mempunyai lebih banyak fungsi dan semakin mudah disesuaikan dengan bidang yang berbeza.
Reka Bentuk Sistem Pakar Campuran

Walaupun Pakar Campuran (KPM) boleh meningkatkan keupayaan model bahasa yang besar, ia juga membawa cabaran teknikal baharu kerana beban pengiraannya yang jarang dan dinamik.
GShard memperkenalkan paralelisme pakar, yang boleh menjadualkan token separa tersegmen mengikut kekangan pengimbangan beban keupayaan pakar, dengan itu mencapai gating selari dan pengiraan pakar. Paradigma ini telah menjadi strategi asas untuk menggalakkan penskalaan model KPM yang cekap. Kita boleh menganggap pendekatan ini sebagai versi selari data yang dipertingkat - setiap pakar dalam lapisan MoE ditugaskan kepada peranti yang berbeza, manakala semua lapisan bukan pakar diduplikasi pada semua peranti.
Seperti yang ditunjukkan dalam Rajah 8a, aliran kerja paralelisasi pakar adalah untuk melaksanakan operasi berikut mengikut turutan: penghalaan get, pengekodan input, penjadualan Semua-ke-Semua, pengiraan pakar, gabungan Semua-ke-Semua dan penyahkodan output.

Secara umumnya, saiz input GEMM perlu cukup besar untuk menggunakan peranti pengkomputeran sepenuhnya. Oleh itu, pengekodan input digunakan untuk mengagregatkan token input pakar yang sama ke dalam ruang ingatan berterusan, yang ditentukan oleh "pemetaan token-pakar" dalam penghalaan get. Selepas itu, peranan penjadualan Semua-ke-Semua adalah untuk mengedarkan token input kepada pakar yang sepadan pada setiap peranti. Ini diikuti dengan pengiraan penyetempatan pakar. Selepas pengiraan selesai, ia diringkaskan melalui gabungan Semua-ke-Semua, kemudian output dinyahkod, dan susun atur data asal dipulihkan mengikut indeks gating.

Selain itu, beberapa penyelidik sedang meneroka sinergi antara paralelisme pakar dan strategi selari sedia ada yang lain (seperti tensor, saluran paip, selari jujukan) untuk meningkatkan kebolehskalaan dan kecekapan model MoE dalam persekitaran teragih berskala besar.

Beberapa contoh penyejajaran hibrid diberikan dalam Rajah 8, termasuk (b) data + pakar + selari tensor, (c) data + pakar + selari saluran paip, (d) pakar + selari tensor.

Adalah perlu untuk menyedari bahawa terdapat interaksi yang kompleks antara kecekapan pengkomputeran, beban komunikasi, dan penggunaan memori Pilihan strategi selari teragih akan mempengaruhinya dan juga akan dipengaruhi oleh konfigurasi perkakasan yang berbeza. Oleh itu, apabila menggunakan strategi untuk aplikasi praktikal, pertukaran yang teliti mesti dibuat dan pelarasan mesti dibuat pada senario tertentu.
Selepas itu, pasukan memperkenalkan cabaran reka bentuk sistem yang dihadapi oleh pembangunan model MoE dan hasil penyelidikan untuk menyelesaikan masalah ini dalam tiga bahagian utama: pengkomputeran, komunikasi dan penyimpanan Sila lihat kertas asal untuk butiran. Jadual 4 memberikan gambaran keseluruhan rangka kerja KPM sumber terbuka.

Apl untuk Pakar Campuran

Dans le domaine des grands modèles de langage (LLM) actuellement dominé par Transformer, le paradigme de l'expert mixte (MoE) est très attractif car il peut améliorer considérablement les capacités du modèle sans introduire d'exigences informatiques excessives dans les étapes de formation et d'inférence. Ce type de technologie peut améliorer considérablement les performances du LLM sur une variété de tâches en aval, et même créer des applications d'IA qui dépassent les niveaux humains.

Des rumeurs courent selon lesquelles GPT-4, qui est si puissant, pourrait également adopter une sorte d'architecture MoE composée de 8 experts avec 220 milliards de paramètres, formés sur divers ensembles de données et tâches, et utilisant un processus de raisonnement de 16 itérations. Pour plus de détails sur cette rumeur, veuillez vous référer au rapport sur ce site « La « révélation » ultime : l'architecture du modèle GPT-4, le coût de la formation et les informations sur l'ensemble de données ont été révélées ».

Il n’est donc pas surprenant que le MoE s’épanouit dans le traitement du langage naturel, la vision par ordinateur, les systèmes de recommandation et les applications multimodales.

Ces applications nécessitent essentiellement l'utilisation de calculs conditionnels pour augmenter considérablement le nombre de paramètres du modèle afin d'améliorer les performances du modèle dans des coûts de calcul fixes, ou pour mettre en œuvre une sélection dynamique d'experts via un mécanisme de contrôle pour obtenir un apprentissage multitâche efficace. .

L'équipe a également présenté des applications représentatives du MoE dans ces différents domaines, qui peuvent aider les lecteurs à comprendre comment utiliser le MoE pour des tâches spécifiques. Voir l'article original pour plus de détails.

Défis et opportunités

Des experts hybrides, puissants, réduisent les coûts, améliorent les performances. Même si les perspectives sont bonnes, des défis subsistent.

Dans cette section, l'équipe trie les principaux défis liés au MoE et souligne les futures orientations de recherche qui devraient permettre d'obtenir des résultats importants. Ces défis et orientations de recherche sont brièvement énumérés ci-dessous, et veuillez consulter l'article original pour plus de détails.

Stabilité de la formation et équilibrage de charge

Évolutivité et surcharge de communication

Spécialisation et collaboration d'experts

Activation clairsemée et efficacité informatique

Généralisation et robustesse

Interprétabilité et transparence

Architecture experte optimale

Intégration avec les frameworks existants

Lecture approfondie : rapports liés au MoE

Basique :

30 ans de revue historique, Jeff Dean : Nous avons compilé une recherche examen des « modèles experts clairsemés »

Pourquoi les grands modèles basés sur le MoE méritent-ils plus d'attention ?

Que se passe-t-il avec MoE, rendu populaire par OpenAI et Mistral AI ? Le déploiement complet d'une architecture hybride experte

MoE, qui a attiré l'attention du cercle de l'apprentissage automatique, deviendra l'avenir du PNL et du CV ?

Vous apprendre étape par étape à implémenter un modèle de langage d'architecture (MoE) expert mixte clairsemé à partir de zéro

Frontière :

Un article d'un seul auteur, Google a proposé un million de mélanges d'experts , au-delà du feedforward dense, le MoE clairsemé

Microsoft permet au MoE de développer plusieurs têtes, améliorant considérablement le taux d'activation des experts

grands modèles multimodaux clairsemés, le modèle 3B MoE-LLaVA est comparable à LLaVA- 1.5- 7B

Le MoE et Mamba ont uni leurs forces pour étendre le modèle spatial d'état à des dizaines de milliards de paramètres

Le trône du grand modèle open source a de nouveau changé de mains, 132 milliards de paramètres DBRX est en ligne , des modèles de base et affinés sont disponibles

CVPR 2024 | Un modèle général de fusion d'images basé sur MoE, ajoutant 2,8 % de paramètres pour effectuer plusieurs tâches

CVPR 2023 | modèle de base pour l'apprentissage visuel multi-tâches

Google Gemini 1.5 est lancé rapidement : architecture MoE, 1 million de contextes

Le grand modèle Apple MM1 entre sur le marché : 30 milliards de paramètres, multimodal, MoE architecture, plus de la moitié des auteurs sont chinois

8x7B MoE est combiné avec Flash Attention 2 pour obtenir une inférence rapide en moins de 10 lignes de code

Briser l'efficacité de la formation MoE et le goulot d'étranglement des performances, la nouvelle architecture LocMoE à grand modèle clairsemée de Huawei Pangu est lancée

Un seul 4090 inférable, 200 milliards de grands modèles clairsemés "Tiangong MoE" open source

Mistral open source 8X22B grand modèle, OpenAI met à jour GPT-4 Turbo vision, ils intimident tous Google

Un lien magnétique balaie AI Circle, une graine de 87 Go directement open source modèle MoE 8x7B

a plus de potentiel que MoE ? La nouvelle voie des modèles de fusion d’algorithmes évolutifs vaut-elle la peine d’être essayée ?

L'Université Tsinghua lance SmartMoE : réalisation en un clic d'une formation distribuée à grand modèle éparse MoE hautes performances

Un million de jetons, modèle MoE super puissant open source, performances proches de GPT-4-Turbo

Atas ialah kandungan terperinci Algoritma, sistem dan aplikasi, pemahaman komprehensif pakar hibrid (KPM) dari tiga perspektif. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

架构分布式 Token Conditional 算法 transformer bert nlp https gpt llama palm

Kenyataan：

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel sebelumnya：70 kali mampatan muktamad! Tidak kira berapa banyak pusat pemeriksaan yang anda ada pada model besar, anda tidak akan takut.Artikel seterusnya：70 kali mampatan muktamad! Tidak kira berapa banyak pusat pemeriksaan yang anda ada pada model besar, anda tidak akan takut.

Artikel berkaitan

Lihat lagi