Rumah  >  Artikel  >  Peranti teknologi  >  PRO |. Mengapa model besar berdasarkan MoE lebih patut diberi perhatian?

PRO |. Mengapa model besar berdasarkan MoE lebih patut diberi perhatian?

PHPz
PHPzasal
2024-08-07 19:08:10548semak imbas

Pada tahun 2023, hampir setiap bidang AI berkembang pada kelajuan yang tidak pernah berlaku sebelum ini Pada masa yang sama, AI sentiasa menolak sempadan teknologi trek utama seperti kecerdasan yang terkandung dan pemanduan autonomi. Di bawah trend berbilang modal, adakah Transformer akan digoncang sebagai seni bina arus perdana untuk model AI yang besar? Mengapakah penerokaan model besar berdasarkan seni bina MoE (Campuran Pakar) menjadi trend baharu dalam industri? Bolehkah Model Penglihatan Besar (LVM) menjadi satu kejayaan baharu dalam penglihatan umum? ...Daripada surat berita ahli PRO 2023 laman web ini yang dikeluarkan dalam tempoh enam bulan lalu, kami telah memilih 10 tafsiran khas yang menyediakan analisis mendalam tentang aliran teknologi dan perubahan industri dalam bidang di atas untuk membantu anda mencapai matlamat anda dalam bidang baharu. tahun. Tafsiran ini datang daripada surat berita industri Week50 2023 ?

PRO | 为什么基于 MoE 的大模型更值得关注?

Tafsiran khas Mengapa model besar berdasarkan KPM lebih wajar diberi perhatian?

Tarikh: 12 Disember

Acara: Mistral AI sumber terbuka model Mixtral 8x7B berdasarkan seni bina MoE (Mixture-of-Experts, Mix of Experts) dan prestasinya mencapai tahap Llama 2 70B dan GPT-3.5" acara telah diadakan Tafsiran lanjutan

Pertama, jelaskan apa itu KPM dan selok-beloknya

1 Konsep:

MoE (Campuran Pakar) adalah model hibrid yang terdiri daripada pelbagai sub-model (iaitu pakar. setiap sub-model Ia adalah model tempatan yang mengkhusus dalam memproses subset ruang input Idea teras KPM ialah menggunakan rangkaian gating untuk memutuskan model mana yang harus dilatih oleh setiap data, dengan itu mengurangkan gangguan antara yang berbeza. jenis sampel.

2. Komponen utama:

Teknologi model pakar campuran (MoE) adalah teknologi pembelajaran mendalam yang dikawal oleh pintu jarang yang terdiri daripada model pakar dan model berpagar merealisasikan pengagihan tugas/data latihan di kalangan pakar yang berbeza model melalui rangkaian berpagar, membolehkan semua orang untuk Setiap model memberi tumpuan kepada tugas yang terbaik, dengan itu mencapai kesederhanaan model

① Dalam latihan rangkaian berpagar, setiap sampel akan diberikan kepada seorang atau lebih pakar; . Pembelajaran ensemble ialah proses melatih pelbagai model (pembelajar asas) untuk menyelesaikan masalah yang sama, dan hanya menggabungkan ramalan mereka (seperti mengundi atau purata). Matlamat utama pembelajaran ensemble adalah untuk meningkatkan prestasi ramalan dengan mengurangkan overfitting dan meningkatkan keupayaan generalisasi. Kaedah pembelajaran ensemble yang biasa termasuk Bagging, Boosting dan Stacking.

4. Sumber sejarah KPM:

① Akar umbi KPM boleh dikesan kembali kepada kertas kerja 1991 "Campuran Adaptif Pakar Tempatan". Idea ini serupa dengan pendekatan ensemble kerana ia bertujuan untuk menyediakan proses penyeliaan untuk sistem yang terdiri daripada sub-rangkaian yang berbeza, dengan setiap rangkaian individu atau pakar mengkhususkan diri dalam kawasan ruang input yang berbeza. Berat setiap pakar ditentukan melalui rangkaian berpagar. Semasa proses latihan, kedua-dua pakar dan penjaga pintu dilatih.

② Antara 2010 dan 2015, dua bidang penyelidikan berbeza menyumbang kepada pembangunan lanjut KPM:

Salah seorang pakar sebagai komponen: Dalam persediaan tradisional KPM, keseluruhan sistem terdiri daripada rangkaian berpagar dan Berbilang pakar. MoE sebagai model keseluruhan telah diterokai dalam mesin vektor sokongan, proses Gaussian dan kaedah lain. Karya "Pembelajaran Perwakilan Berfaktor dalam Campuran Pakar Yang Dalam" meneroka kemungkinan KPM sebagai komponen rangkaian yang lebih mendalam. Ini membolehkan model menjadi besar dan cekap pada masa yang sama.

Yang lain ialah pengiraan bersyarat: rangkaian tradisional memproses semua data input melalui setiap lapisan. Dalam tempoh ini, Yoshua Bengio menyiasat cara untuk mengaktifkan atau menyahaktifkan komponen secara dinamik berdasarkan token input.

③ Hasilnya, orang ramai mula meneroka model campuran pakar dalam konteks pemprosesan bahasa semula jadi. Dalam kertas kerja "Rangkaian Neural Luar Biasa: Lapisan Campuran Pakar-Pakar yang Berpagar Jarang", ia telah diperluaskan kepada LSTM 137B dengan memperkenalkan sparsity, dengan itu mencapai penaakulan pantas pada skala tinggi.

Mengapa model besar berasaskan KPM patut diberi perhatian?

1 Secara umumnya, pengembangan skala model akan membawa kepada peningkatan yang ketara dalam kos latihan, dan pengehadan sumber pengkomputeran telah menjadi halangan untuk latihan model intensif berskala besar. Untuk menyelesaikan masalah ini, seni bina model pembelajaran mendalam berdasarkan lapisan MoE yang jarang dicadangkan.

2 Model Pakar Campuran Jarang (MoE) ialah seni bina rangkaian saraf khas yang boleh menambah parameter yang boleh dipelajari kepada model bahasa besar (LLM) tanpa meningkatkan kos inferens, manakala penalaan arahan ) ialah teknik untuk melatih LLM mengikut arahan. .

3 Gabungan teknologi penalaan halus arahan MoE+ boleh meningkatkan prestasi model bahasa. Pada Julai 2023, penyelidik dari Google, UC Berkeley, MIT dan institusi lain menerbitkan kertas kerja "Mixture-of-Experts Meets Instruction Tuning: A Winning Combination for Large Language Models", yang membuktikan bahawa model pakar hibrid (MoE) dan penalaan arahan Gabungan ini boleh meningkatkan prestasi model bahasa besar (LLM).

① Khususnya, penyelidik menggunakan pengaktifan jarang MoE dalam satu set model pakar hibrid jarang FLAN-MOE yang diperhalusi mengikut arahan, dan menggantikan komponen suapan hadapan lapisan Transformer dengan lapisan MoE untuk menyediakan kapasiti model yang lebih baik dan fleksibiliti pengkomputeran .

② Berdasarkan kaedah di atas, penyelidik mengkaji penalaan halus langsung pada satu tugas hiliran tanpa penalaan arahan, generalisasi beberapa pukulan atau sifar pukulan dalam konteks pada tugas hiliran selepas penalaan arahan, dan dalam penalaan arahan Kemudian kami memperhalusi lagi satu tugas hiliran dan membandingkan perbezaan prestasi LLM di bawah tiga tetapan percubaan.

③ Keputusan eksperimen menunjukkan bahawa tanpa menggunakan penalaan arahan, model MoE selalunya berprestasi lebih teruk daripada model padat dengan kuasa pengiraan yang setanding. Tetapi apabila digabungkan dengan penalaan arahan, perkara berubah. Model MoE yang ditala arahan (Flan-MoE) mengatasi model padat yang lebih besar pada pelbagai tugas, walaupun model MoE hanya satu pertiga sebagai mahal dari segi pengiraan berbanding model padat. Berbanding dengan model padat. Model MoE memperoleh keuntungan prestasi yang lebih ketara daripada penalaan arahan, jadi apabila kecekapan dan prestasi pengkomputeran dipertimbangkan, MoE akan menjadi alat yang berkuasa untuk latihan model bahasa yang besar.

4 Kali ini, model Mixtral 8x7B yang dikeluarkan juga menggunakan rangkaian pakar campuran yang jarang.

① Mixtral 8x7B ialah model penyahkod sahaja. Modul suapan hadapan memilih daripada 8 set parameter yang berbeza. Dalam setiap lapisan rangkaian, untuk setiap token, rangkaian penghala memilih dua daripada lapan kumpulan (pakar) untuk memproses token dan mengagregatkan output mereka.

② Model Mixtral 8x7B sepadan atau mengatasi prestasi Llama 2 70B dan GPT3.5 pada kebanyakan penanda aras, dengan kelajuan inferens 6x lebih pantas.

Kelebihan penting KPM: Apakah sparsity?

1. Dalam model padat tradisional, setiap input perlu dikira dalam model lengkap. Dalam model pakar campuran jarang, hanya beberapa model pakar yang diaktifkan dan digunakan semasa memproses data input, manakala kebanyakan model pakar berada dalam keadaan tidak aktif model. Kelebihan juga merupakan kunci untuk meningkatkan kecekapan latihan model dan proses inferens

PRO | 为什么基于 MoE 的大模型更值得关注?

.

Atas ialah kandungan terperinci PRO |. Mengapa model besar berdasarkan MoE lebih patut diberi perhatian?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn