Rumah >Peranti teknologi >AI >Kos latihan adalah kurang daripada 1,000 yuan, pengurangan 90%! NUS dan Universiti Tsinghua mengeluarkan VPGTrans: Sesuaikan model besar berbilang modal seperti GPT-4 dengan mudah

Kos latihan adalah kurang daripada 1,000 yuan, pengurangan 90%! NUS dan Universiti Tsinghua mengeluarkan VPGTrans: Sesuaikan model besar berbilang modal seperti GPT-4 dengan mudah

王林
王林ke hadapan
2023-05-21 08:22:421222semak imbas

Tahun ini adalah tahun perkembangan pesat teknologi AI, dengan model bahasa besar (LLM) yang diwakili oleh ChatGPT menjadi popular.

Selain menunjukkan potensi besar dalam bidang bahasa semula jadi, model bahasa juga telah mula memancar secara beransur-ansur kepada modaliti lain Contohnya, model graf Vincent Stable Diffusion juga memerlukan bahasa model.

Melatih model bahasa visual (VL-LLM) dari awal selalunya memerlukan banyak sumber, jadi penyelesaian sedia ada menggabungkan model bahasa dan model penjanaan isyarat visual (Visual Prompt Generator, VPG ), tetapi walaupun begitu, meneruskan untuk menala VPG masih memerlukan beribu-ribu jam GPU dan berjuta-juta data latihan.

Baru-baru ini, penyelidik dari Universiti Nasional Singapura dan Universiti Tsinghua mencadangkan penyelesaian, VPGTrans, untuk memindahkan VPG sedia ada kepada model VL-LLM yang sedia ada cara kos rendah.

Kos latihan adalah kurang daripada 1,000 yuan, pengurangan 90%! NUS dan Universiti Tsinghua mengeluarkan VPGTrans: Sesuaikan model besar berbilang modal seperti GPT-4 dengan mudah

Pautan kertas: https://arxiv.org/abs/2305.01278

Pautan kod: https://github.com/VPGTrans/VPGTrans

Demo model dialog pelbagai mod : https ://vpgtrans.github.io/

Pengarang: Zhang Ao, Fei Hao, Yao Yuan, Ji Wei, Li Li, Liu Zhiyuan, Chua Tat- Seng

Unit: Universiti Kebangsaan Singapura, Universiti Tsinghua

Inovasi utama artikel termasuk :

1 Kos latihan yang sangat rendah:

Melalui kaedah VPGTrans kami yang dicadangkan, ia boleh Dengan cepat (kurang daripada 10% masa latihan)Memindahkan modul visual model dialog pelbagai mod sedia ada kepada model bahasa baharu dan mencapai hasil yang serupa atau lebih baik.

Sebagai contoh, berbanding melatih modul penglihatan dari awal, kami boleh mengurangkan overhed latihan BLIP-2 FlanT5-XXL daripada 19,000+ RMB kepada kurang daripada 1,000 RMB :

Kos latihan adalah kurang daripada 1,000 yuan, pengurangan 90%! NUS dan Universiti Tsinghua mengeluarkan VPGTrans: Sesuaikan model besar berbilang modal seperti GPT-4 dengan mudah

Rajah 1: Perbandingan pengurangan overhed latihan BLIP-2 berdasarkan kaedah VPGTrans kami

2.Penyesuaian model besar berbilang mod:

Melalui modul Visual rangka kerja VPGTrans kami boleh ditambah secara fleksibel kepada pelbagai model bahasa besar baharu mengikut keperluan. Sebagai contoh, kami menghasilkan VL-LLaMA dan VL-Vicuna berdasarkan LLaMA-7B dan Vicuna-7B.

3 Model dialog pelbagai mod sumber terbuka:

Kami mempunyai VL-Vicuna sumber terbuka, model dialog multimodal seperti GPT-4 yang boleh mencapai dialog multimodal berkualiti tinggi:

Kos latihan adalah kurang daripada 1,000 yuan, pengurangan 90%! NUS dan Universiti Tsinghua mengeluarkan VPGTrans: Sesuaikan model besar berbilang modal seperti GPT-4 dengan mudah

Rajah 2: Contoh interaksi VL-Vicuna

1.1 Pengenalan kepada motivasi

1.1 Latar Belakang

LLM telah mencetuskan revolusi dalam bidang pemahaman pelbagai mod daripada model bahasa visual pra-latihan tradisional (VLM) kepada model bahasa visual berdasarkan model bahasa besar (VL-LLM) ).

Dengan menyambungkan modul visual kepada LLM, VL-LLM boleh mewarisi pengetahuan, kebolehan generalisasi sampel sifar, keupayaan penaakulan dan keupayaan merancang LLM sedia ada. Model berkaitan termasuk BLIP-2[1], Flamingo[2], PALM-E, dsb.

Kos latihan adalah kurang daripada 1,000 yuan, pengurangan 90%! NUS dan Universiti Tsinghua mengeluarkan VPGTrans: Sesuaikan model besar berbilang modal seperti GPT-4 dengan mudah

Rajah 3: Seni bina VL-LLM yang biasa digunakan

VL-LLM sedia ada yang biasa digunakan pada asasnya menggunakan seni bina yang ditunjukkan dalam Rajah 3: modul penjanaan gesaan lembut visual (Visual Prompt Generator, VPG) dilatih pada LLM asas, dan modul linear linear untuk Lapisan transformasi dimensi ( Projektor).

Dari segi skala parameter, LLM secara amnya merangkumi bahagian utama (seperti 11B) , akaun VPG untuk bahagian kecil (seperti 1.2B), dan Projektor adalah yang paling kecil (4M).

Semasa proses latihan, Parameter LLM biasanya tidak dikemas kini , atau hanya sebilangan kecil parameter yang dikemas kini. Parameter boleh dilatih terutamanya datang daripada VPG dan projektor.

1.2 Motivasi

Malah, walaupun parameter LLM asas dibekukan dan tidak dilatih, disebabkan bilangan parameter yang banyak LLM, melatih VL -Atas kekunci LLM masih memuatkan LLM asas.

Oleh itu, latihan VL-LLM masih tidak dapat mengelakkan kos pengiraan yang besar. Sebagai contoh, untuk mendapatkan BLIP-2 (LLM asas ialah FlanT5-XXL), lebih daripada 600 jam masa latihan A100 diperlukan. Jika anda menyewa mesin A100-40G Amazon, ia akan menelan kos hampir 20,000 yuan.

Memandangkan melatih VPG dari awal sangat mahal, kami mula memikirkan sama ada kami boleh memindahkan VPG sedia ada ke LLM baharu untuk menjimatkan kos.

Kos latihan adalah kurang daripada 1,000 yuan, pengurangan 90%! NUS dan Universiti Tsinghua mengeluarkan VPGTrans: Sesuaikan model besar berbilang modal seperti GPT-4 dengan mudah

Rajah 4: Penghijrahan VPG: penghijrahan saiz LLM silang dan penghijrahan jenis silang-LLM

Seperti yang ditunjukkan dalam Rajah 4, kami terutamanya meneroka penghijrahan dua jenis VPG:

(1) Penghijrahan saiz LLM silang ( TaS): Contohnya, daripada OPT-2.7B hingga OPT-6.7B.

(2) Penghijrahan jenis Cross-LLM (TaT): seperti dari OPT ke FlanT5.

Kepentingan TaS ialah: dalam penyelidikan saintifik berkaitan LLM, kita biasanya perlu melaraskan parameter pada LLM kecil dan kemudian mengembangkan kepada LLM yang besar. Dengan TaS, kami boleh terus memindahkan VPG yang telah dilatih pada LLM kecil kepada LLM besar selepas melaraskan parameter.

Kepentingan TaT ialah LLM dengan jenis fungsi yang berbeza muncul tanpa henti, seperti LLaMA hari ini, Alpaca dan Vicuna esok. TaT membolehkan kami menggunakan VPG sedia ada untuk menambah keupayaan persepsi visual dengan cepat kepada model bahasa baharu.

1.3 Sumbangan

(1) Cadangkan kaedah yang cekap:

Kami mula-mula meneroka faktor utama yang mempengaruhi kecekapan penghijrahan VPG melalui satu siri eksperimen penyelidikan. Berdasarkan penemuan eksperimen penerokaan, kami mencadangkan rangka kerja migrasi cekap dua peringkat VPGTrans. Rangka kerja ini boleh mengurangkan dengan ketara overhed pengiraan dan data latihan yang diperlukan yang diperlukan untuk melatih VL-LLM.

Sebagai contoh, berbanding dengan latihan dari awal, kita boleh hanya menggunakan kira-kira 10% daripada data dan masa pengkomputeran dengan memindahkan BLIP-2 OPT-2.7B kepada 6.7B VPG Mencapai hasil yang serupa atau lebih baik untuk setiap set data (Rajah 1) . Kos latihan adalah antara 17,901 yuan hingga 1,673 yuan.

(2) Dapatkan penemuan menarik:

Kami menyediakan beberapa hasil yang menarik dalam kedua-dua senario TaS dan TaT Discover dan cuba terangkan:

a) Dalam senario TaS, menggunakan VPGTrans untuk berhijrah dari kecil ke besar tidak akan menjejaskan kesan model akhir.

b) Dalam senario TaS, lebih kecil VPG yang dilatih pada model bahasa, lebih tinggi kecekapan apabila berhijrah ke model besar dan lebih baik kesan akhir .

c) Dalam senario TaT, semakin besar jurang migrasi antara model yang lebih kecil. Dalam percubaan pengesahan kami, penghijrahan bersama antara OPT350M dan FlanT5-base menggunakan VPGTrans hampir sama lambatnya dengan latihan dari awal.

(3) Sumber terbuka:

Kami mendapat dua yang baharu menggunakan VPGTrans VL -LLM: VL-LLaMA dan VL-Vicuna, dan adalah sumber terbuka dalam komuniti. Antaranya, VL-Vicuna melaksanakan dialog multi-modal berkualiti tinggi yang serupa dengan GPT4.

2. Penyelesaian pemindahan VPG berkecekapan tinggi: VPGTrans

Pertama, kami menjalankan satu siri eksperimen penerokaan dan pengesahan untuk menganalisis cara memaksimumkan kecekapan penghijrahan VPG. Kami kemudian mencadangkan penyelesaian berdasarkan pemerhatian penting ini.

2.1 Eksperimen Penerokaan

Kami memilih seni bina BLIP-2 sebagai model asas kami, dan korpus pra-latihan menggunakan COCO dan SBU, sejumlah 1.4M pasangan Gambar dan teks.

Tugas hiliran dinilai menggunakan tetapan tangkapan sifar COCO Caption, NoCaps, VQAv2, GQA dan OK-VQA (tugas kapsyen bukan tangkapan sifar sepenuhnya). Berikut ialah penemuan utama kami:

(1) Mewarisi VPG terlatih secara langsung boleh mempercepatkan penumpuan, tetapi kesannya terhad:

Kami mendapati bahawa memindahkan VPG yang dilatih secara langsung pada LLM kepada LLM yang besar boleh mempercepatkan penumpuan model, tetapi kesan pecutan adalah terhad dan kesan model selepas penumpuan adalah berbanding dengan melatih VPG dari awal Mata akan jatuh (titik tertinggi garis biru VQAv2 dan GQA dalam Rajah 5 kedua-duanya lebih rendah daripada garis oren) .

Kami membuat spekulasi bahawa penurunan ini disebabkan oleh fakta bahawa projektor yang dimulakan secara rawak akan merosakkan keupayaan persepsi visual sedia ada dalam VPG pada permulaan latihan.

Kos latihan adalah kurang daripada 1,000 yuan, pengurangan 90%! NUS dan Universiti Tsinghua mengeluarkan VPGTrans: Sesuaikan model besar berbilang modal seperti GPT-4 dengan mudah

Rajah berikut menunjukkan keputusan yang diperoleh dengan mewarisi secara langsung VPG (lengkung biru) yang dilaksanakan. Latih semula VPG (garisan oren): Latih semula VPG dari awal. Satu-satunya latihan yang dijalankan adalah pada projektor linear, tanpa latihan mengenai VPG..

(2) Latihan memanaskan badan projektor terlebih dahulu boleh menghalang mata daripada jatuh dan mempercepatkan penumpuan:

Jadi, kami membetulkan VPG dan LLM, mula-mula memanaskan badan melatih projektor selama 3 zaman, dan kemudian menyahbekukan VPG untuk langkah latihan seterusnya.

Kami mendapati bahawa ini bukan sahaja dapat mengelakkan penurunan mata, tetapi juga mempercepatkan penumpuan VPG (Rajah 6).

Tetapi perlu ditekankan bahawa memandangkan kos utama latihan ialah LLM (parameter besar), kos hanya melatih projektor tidak akan Ia jauh lebih murah daripada melatih VPG dan projektor pada masa yang sama .

Jadi, kami mula meneroka teknologi utama untuk mempercepatkan pemanasan projektor.

Kos latihan adalah kurang daripada 1,000 yuan, pengurangan 90%! NUS dan Universiti Tsinghua mengeluarkan VPGTrans: Sesuaikan model besar berbilang modal seperti GPT-4 dengan mudah

Rajah 6: Latihan memanaskan badan projektor terlebih dahulu boleh mengelakkan titik jatuh + mempercepatkan penumpuan

(3) Inisialisasi penukar vektor perkataan boleh mempercepatkan pemanasan projektor:

Pertama sekali, VPG menghasilkan kesan dengan menukar imej kepada gesaan lembut yang LLM boleh faham. Penggunaan soft prompt dan vektor perkataan sebenarnya sangat serupa dengan , semua secara langsung memasukkan model bahasa untuk menggesa model menjana kandungan yang sepadan.

Jadi, kami menggunakan vektor perkataan sebagai proksi untuk gesaan lembut dan melatih

Kos latihan adalah kurang daripada 1,000 yuan, pengurangan 90%! NUS dan Universiti Tsinghua mengeluarkan VPGTrans: Sesuaikan model besar berbilang modal seperti GPT-4 dengan mudah

hingga

Word penukar vektor (lapisan linear) untuk Kos latihan adalah kurang daripada 1,000 yuan, pengurangan 90%! NUS dan Universiti Tsinghua mengeluarkan VPGTrans: Sesuaikan model besar berbilang modal seperti GPT-4 dengan mudah

.


Kemudian, kami menggabungkan perkataan vektor penukar dan projektor pada

Kos latihan adalah kurang daripada 1,000 yuan, pengurangan 90%! NUS dan Universiti Tsinghua mengeluarkan VPGTrans: Sesuaikan model besar berbilang modal seperti GPT-4 dengan mudah

sebagai permulaan bagi projektor .

Melalui pemula ini, kami boleh mengurangkan latihan memanaskan badan projektor daripada 3 zaman kepada 2 zaman.

(4) Projektor boleh menumpu dengan cepat pada kadar pembelajaran yang sangat besar:

Kami terus mencuba dan mendapati bahawa projektor kerana Ia mempunyai bilangan parameter yang kecil dan boleh dilatih menggunakan 5 kali kadar pembelajaran biasa tanpa terhempas.

Melalui latihan dengan kadar pembelajaran 5 kali ganda, pemanasan projektor boleh dipendekkan lagi kepada 1 zaman.

(5) Penemuan tambahan:

Walaupun pemanasan projektor penting, melatih projektor sahaja tidak mencukupi. Terutama untuk tugasan kapsyen, kesan latihan hanya projektor adalah lebih teruk daripada kesan latihan VPG pada masa yang sama (garisan hijau dalam Rajah 5 adalah jauh lebih rendah daripada garisan biru dalam COCO Caption dan NoCaps).

Ini juga bermakna semata-mata melatih projektor akan membawa kepada kekurangan, iaitu, tidak boleh diselaraskan sepenuhnya dengan data latihan.

2.2 Kaedah cadangan kami

Kos latihan adalah kurang daripada 1,000 yuan, pengurangan 90%! NUS dan Universiti Tsinghua mengeluarkan VPGTrans: Sesuaikan model besar berbilang modal seperti GPT-4 dengan mudah

Rajah 7: Rangka kerja VPGTrans: (1) Fasa satu: pemanasan projektor (2) Fasa dua: penalaan halus keseluruhan

Seperti yang ditunjukkan dalam Rajah 7, Kami kaedah dibahagikan kepada dua peringkat:

(1) Peringkat pertama: Kami mula-mula menggunakan penukar vektor perkataan untuk bergabung dengan projektor asal sebagai permulaan projektor baharu, dan kemudian gunakan Projektor baharu dilatih dengan 5 kali kadar pembelajaran untuk satu zaman.

(2) Peringkat kedua: latih terus VPG dan projektor secara normal.

3. Keputusan percubaan

3.1 Nisbah kelajuan

Kos latihan adalah kurang daripada 1,000 yuan, pengurangan 90%! NUS dan Universiti Tsinghua mengeluarkan VPGTrans: Sesuaikan model besar berbilang modal seperti GPT-4 dengan mudah

Jadual 1: Nisbah kelajuan VPGTrans kami berbanding latihan dari awal pada pelbagai set data

Seperti yang ditunjukkan dalam Jadual 1, kami menguji jenis migrasi yang berbeza, nisbah kelajuan VPGTrans pada set data yang berbeza.

Nisbah kelajuan VPGTrans pada set data tertentu A diperoleh dengan membahagikan bilangan pusingan latihan dari awal untuk mencapai kesan terbaik a pada A dengan bilangan pusingan latihan minimum di mana kesan VPGTrans pada A melebihi a.

Sebagai contoh, melatih VPG pada OPT-2.7B dari awal memerlukan 10 zaman untuk mencapai hasil terbaik dalam kapsyen COCO, tetapi memindahkan VPG daripada OPT-125M kepada OPT-2.7B hanya memerlukan Ia mengambil masa 1 zaman untuk mencapai kesan optimum ini. Nisbah pecutan ialah 10/1=10 kali.

Kami dapat melihat bahawa VPGTrans kami boleh mencapai pecutan yang stabil dalam kedua-dua senario TaS dan TaT.

3.2 Penemuan yang menarik

Kami telah memilih satu daripada penemuan yang lebih menarik untuk diterangkan Untuk penemuan yang lebih menarik, sila rujuk tesis kami.

Dalam senario TaS, lebih kecil VPG yang dilatih pada model bahasa, lebih cekap penghijrahan dan lebih baik kesan model akhir akan menjadi . Merujuk kepada Jadual 1, kita dapati bahawa nisbah pecutan daripada OPT-1.3B kepada OPT-2.7B adalah jauh lebih kecil daripada nisbah pecutan daripada OPT-125M dan OPT-350M kepada OPT-2.7b.

Kami cuba memberikan penjelasan: Secara amnya, semakin besar model bahasa , disebabkan dimensi ruang teksnya yang lebih tinggi, akan lebih berkemungkinan untuk merosakkan VPG (VPG secara amnya adalah model pra-latihan serupa dengan CLIP) Keupayaan persepsi visualnya sendiri . Kami mengesahkannya dengan cara yang serupa dengan probing linear:

Kos latihan adalah kurang daripada 1,000 yuan, pengurangan 90%! NUS dan Universiti Tsinghua mengeluarkan VPGTrans: Sesuaikan model besar berbilang modal seperti GPT-4 dengan mudah

Rajah 8: Hanya latih lapisan projektor linear Penghijrahan saiz Cross-LLM (mensimulasikan probing linear)

Seperti yang ditunjukkan dalam Rajah 8, kami melakukan cross-LLM antara saiz OPT-125M, 350M, 1.3B dan 2.7B penghijrahan.

Dalam percubaan, untuk membandingkan secara adil keupayaan persepsi visual VPG yang dilatih di bawah saiz model yang berbeza, kami menetapkan parameter VPG dan hanya melatih linear lapisan projektor. Kami memilih penunjuk SPICE pada COCO Caption sebagai ukuran keupayaan persepsi visual.

Tidak sukar untuk mencari bahawa bagi setiap Kos latihan adalah kurang daripada 1,000 yuan, pengurangan 90%! NUS dan Universiti Tsinghua mengeluarkan VPGTrans: Sesuaikan model besar berbilang modal seperti GPT-4 dengan mudah, hampir konsisten bahawa semakin kecil Kos latihan adalah kurang daripada 1,000 yuan, pengurangan 90%! NUS dan Universiti Tsinghua mengeluarkan VPGTrans: Sesuaikan model besar berbilang modal seperti GPT-4 dengan mudah, lebih baik SPICE akhir Fenomena yang tinggi.

3.3 Eksperimen Berskala Besar

Eksperimen sebelumnya adalah terutamanya untuk mengesahkan andaian dalam senario berskala kecil. Untuk membuktikan keberkesanan kaedah kami, kami mensimulasikan proses pra-latihan BLIP-2 dan menjalankan eksperimen berskala besar:

Kos latihan adalah kurang daripada 1,000 yuan, pengurangan 90%! NUS dan Universiti Tsinghua mengeluarkan VPGTrans: Sesuaikan model besar berbilang modal seperti GPT-4 dengan mudah

Jadual 2: Keputusan percubaan berskala besar dalam senario sebenar

Seperti yang ditunjukkan dalam Jadual 2, VPGTrans kami masih berkesan dalam senario berskala besar . Dengan berhijrah daripada OPT-2.7B ke OPT-6.7B, kami hanya menggunakan 10.8% daripada data dan kurang daripada 10% masa latihan untuk mencapai hasil yang serupa atau lebih baik.

Khususnya, kaedah kami mencapai kawalan kos latihan 4.7% dalam BLIP-2 VL-LLM berdasarkan FlanT5-XXL.

4. Sesuaikan VL-LLM anda

VPGTrans kami dengan cepat boleh menambah modul persepsi visual pada mana-mana LLM baharu untuk mendapatkan VL- LLM baharu yang berkualiti tinggi. Dalam kerja ini, kami juga melatih VL-LLaMA dan VL-Vicuna. Kesan VL-LLaMA adalah seperti berikut:

Kos latihan adalah kurang daripada 1,000 yuan, pengurangan 90%! NUS dan Universiti Tsinghua mengeluarkan VPGTrans: Sesuaikan model besar berbilang modal seperti GPT-4 dengan mudah

Jadual 3: Paparan kesan VL-LLaMA

Di pada masa yang sama, VL-Vicuna kami boleh menjalankan perbualan berbilang modal seperti GPT-4. Kami membuat perbandingan mudah dengan MiniGPT-4:

Kos latihan adalah kurang daripada 1,000 yuan, pengurangan 90%! NUS dan Universiti Tsinghua mengeluarkan VPGTrans: Sesuaikan model besar berbilang modal seperti GPT-4 dengan mudah

Kos latihan adalah kurang daripada 1,000 yuan, pengurangan 90%! NUS dan Universiti Tsinghua mengeluarkan VPGTrans: Sesuaikan model besar berbilang modal seperti GPT-4 dengan mudah

5 . Ringkasan

Dalam kerja ini, kami menjalankan siasatan menyeluruh tentang isu kebolehpindahan VPG antara LLM. Kami mula-mula meneroka faktor utama yang memaksimumkan kecekapan penghijrahan.

Berdasarkan pemerhatian utama, kami mencadangkan rangka kerja migrasi dua peringkat novel, iaitu VPGTrans. Ia boleh mencapai prestasi yang setara atau lebih baik sambil mengurangkan kos latihan dengan ketara.

Melalui VPGTrans, kami mencapai pemindahan VPG daripada BLIP-2 OPT 2.7B kepada BLIP-2 OPT 6.7B. Berbanding dengan menyambungkan VPG ke OPT 6.7B dari awal, VPGTrans hanya memerlukan 10.7% data latihan dan kurang daripada 10% masa latihan.

Selain itu, kami membentangkan dan membincangkan beberapa siri penemuan menarik dan kemungkinan sebab di sebaliknya. Akhir sekali, kami menunjukkan nilai praktikal VPGTrans kami dalam menyesuaikan VL-LLM baharu dengan melatih VL-LLaMA dan LL-Vicuna.

Atas ialah kandungan terperinci Kos latihan adalah kurang daripada 1,000 yuan, pengurangan 90%! NUS dan Universiti Tsinghua mengeluarkan VPGTrans: Sesuaikan model besar berbilang modal seperti GPT-4 dengan mudah. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam