Rumah >Peranti teknologi >AI >Buat latihan dan inferens model besar lebih cepat daripada sebelumnya! Ringkasan akhir tahun 2022 Google, yang keempat
Walaupun Bard Google telah terbalik, kekuatan AI Google masih tidak boleh dipandang remeh.
Sejak awal tahun, siri ringkasan akhir tahun Google Research "Penyelidikan Google, 2022 & seterusnya" diketuai oleh Jeff Dean telah dikemas kini secara berterusan, dan ia juga telah dikemas kini baru-baru ini.
Tema isu ini ialah "Meningkatkan kecekapan model" Mari kita lihat idea yang dihasilkan oleh jurutera Google!
Pembelajaran mendalam telah meletup sepanjang dekad yang lalu, sebahagian besarnya disebabkan oleh penyepaduan algoritma dan seni bina baharu, data Peningkatan ketara dalam volum dan peningkatan dalam kuasa pengkomputeran.
Berbanding dengan sepuluh tahun yang lalu, model kecerdasan buatan dan pembelajaran mesin telah menjadi lebih besar dan lebih kompleks, dengan struktur rangkaian yang lebih mendalam dan lebih kompleks, lebih banyak parameter dan lebih banyak parameter digunakan dalam latihan Lebih banyak data , bersama-sama, telah memacu beberapa hasil yang paling transformatif dalam sejarah pembelajaran mesin.
Memandangkan model ini semakin banyak digunakan dalam pengeluaran dan aplikasi perniagaan, kecekapan inferens model dan kos operasi telah berubah daripada faktor kecil kepada faktor had utama.
Tanggapan Google dalam hal ini adalah untuk terus melabur banyak dalam kecekapan pembelajaran mesin, terutamanya menyelesaikan empat masalah berikut:
1. Seni Bina Cekap
2. Kecekapan Data (Data Efficiency)
3. Kecekapan Latihan (Training Efficiency)
4. kecekapan, model juga menghadapi banyak masalah berkaitan ketulenan, keselamatan, privasi dan kesegaran.
Artikel ini akan menumpukan pada satu siri algoritma baharu yang dibangunkan oleh Google Research untuk menangani cabaran di atas.
Seni bina model yang cekapPersoalan asas ialah: adakah cara yang lebih baik untuk membuat parameter model untuk meningkatkan kecekapan?
Pada tahun 2022, Google Research memfokuskan pada teknologi baharu yang meningkatkan model dengan mendapatkan semula konteks, menggabungkan pakar untuk menjadikan transformer (di tengah-tengah kebanyakan model pembelajaran mesin besar) lebih cekap, menyuntik Pengetahuan luaran .
Model yang ditambah konteks
Dalam mengejar kualiti dan kecekapan yang lebih tinggi, model saraf Boleh dipertingkatkan daripada konteks luaran dalam pangkalan data yang besar atau kenangan yang boleh dilatih.
Dengan memanfaatkan konteks yang diperoleh semula, rangkaian saraf tidak perlu menghafal sejumlah besar pengetahuan dunia dalam parameter dalaman mereka dan mampu mencapai kecekapan parameter, kebolehtafsiran dan realisme yang lebih baik.
Dalam artikel "Pemprosesan konteks yang dipisahkan untuk pemodelan bahasa dipertingkatkan konteks", penyelidik meneroka seni bina codec yang dipisahkan yang menggabungkan konteks luaran ke dalam model bahasa.
Pautan kertas: https://arxiv.org/abs/2210.05758
Model ini mampu menjimatkan usaha pengiraan dengan ketara sambil memberikan hasil yang kompetitif dalam pemodelan bahasa autoregresif dan tugas menjawab soalan domain terbuka.
Model bahasa besar pra-latihan (LLM) menggunakan banyak maklumat melalui penyeliaan kendiri set latihan yang besar, tetapi tidak jelas bagaimana "pengetahuan dunia" model ini berkaitan untuk Input konteks berinteraksi.
Melalui penalaan pengetahuan sedar (KAFT), penyelidik menggabungkan konteks kontrafak dan konteks tidak relevan Digabungkan dengan set data diselia standard , kebolehkawalan dan kekukuhan LLM dipertingkatkan.
Salah satu masalah dalam meneroka rangkaian dalam modular ialah cara mereka bentuk pangkalan data konsep dengan modul pengkomputeran yang sepadan Para penyelidik mencadangkan seni bina teori yang meletakkan "ingat peristiwa" dalam bentuk lakaran jadual, yang termasuk modul penunjuk untuk mengendalikan lakaran.
Satu lagi bahagian teka-teki untuk model ditambah konteks ialah pemecut untuk mendapatkan maklumat pantas daripada pangkalan data yang besar.
Para penyelidik membangunkan algoritma carian jiran terdekat berasaskan TPU yang konsisten dengan model prestasi TPU dan menyediakan jaminan analitikal untuk jangkaan penarikan semula, menghasilkan prestasi yang optimum.
Algoritma carian biasanya melibatkan sejumlah besar hiperparameter dan pilihan reka bentuk, yang menjadikannya sukar untuk dioptimumkan pada tugasan baharu, jadi penyelidik seterusnya mencadangkan algoritma pengoptimuman terhad baharu untuk Menala hiperparameter secara automatik, mengambil kos atau ingat semula yang diingini sebagai input, algoritma menghasilkan penalaan yang secara empirikalnya sangat hampir dengan sempadan Pareto bagi ingatan pantas dan memberikan prestasi terkemuka pada penanda aras standard.
Model campuran pakar
Campuran pakar (KPM, Campuran pakar) model telah terbukti meningkatkan Satu cara yang cekap untuk meningkatkan kapasiti model rangkaian saraf tanpa meningkatkan kos pengiraan mereka secara berlebihan. Idea asas KPM adalah untuk membina rangkaian daripada pelbagai sub-rangkaian pakar, di mana setiap input diproses oleh sub-rangkaian pakar yang sesuai.
Oleh itu, berbanding dengan rangkaian neural standard, KPM hanya memanggil sebahagian kecil daripada keseluruhan model, sekali gus meningkatkan kecekapan aplikasi model bahasa seperti GLaM.
Memutuskan pakar mana yang harus aktif untuk mengambil bahagian dalam input tertentu bergantung pada fungsi fungsi penghalaan), reka bentuk penghalaan adalah sangat mencabar kerana jangkaan pembangun ialah setiap model pakar adalah sesuai dan tidak akan kurang atau digunakan secara berlebihan.
Dalam kerja baru-baru ini, penyelidik mencadangkan Penghalaan Pilihan Pakar, mekanisme penghalaan baharu, yang tidak menetapkan setiap input token kepada pakar top-k, tetapi seterusnya memberikan setiap pakar kepada token top-k, boleh melaraskan pengimbangan beban pakar secara automatik sambil secara semulajadi membenarkan berbilang pakar memproses token Enter
Pautan kertas: https://openreview.net/pdf?id=jdJo1HIVinI
Transformer Cekap
Transformer kini merupakan model jujukan-ke-jujukan yang paling popular, daripada pemahaman bahasa visual kepada bahasa semula jadi dan telah menunjukkan prestasi yang sangat berkuasa dalam pelbagai cabaran. tugasan.
Komponen teras model jenis ini ialah lapisan perhatian, yang mengira persamaan antara "pertanyaan" dan "kunci" Bina gabungan berwajaran nilai yang sesuai. Walaupun prestasinya kukuh, kecekapan pengiraan mekanisme perhatian tidak tinggi, dan kerumitan biasanya kuasa kedua panjang jujukan input.
Memandangkan skala Transformer terus berkembang, penyelidikan mengenai salah satu isu penting adalah sangat berharga: Adakah terdapat struktur atau model pembelajaran corak yang berlaku secara semula jadi yang boleh menyelesaikan masalah perhatian dengan berkesan prinsip.
Dalam hal ini, Google Research mengkaji pembenaman pembelajaran lapisan MLP perantaraan dan mendapati bahawa ia sangat jarang Contohnya, model T5-besar hanya mempunyai
Penyelidik baru-baru ini mencadangkan model Treeformer, alternatif kepada pengiraan perhatian standard yang bergantung pada pepohon keputusan, yang secara intuitif boleh mengenal pasti subset kecil kunci yang berkaitan dengan pertanyaan dengan pantas dan hanya dalam ini Lakukan operasi perhatian pada set . Berdasarkan pengalaman, Treeformer boleh mengurangkan FLOP lapisan perhatian sebanyak 30 kali ganda.
Pada masa yang sama, para penyelidik juga memperkenalkan perhatian berurutan, kaedah pemilihan ciri yang boleh dibezakan yang menggabungkan perhatian dan algoritma tamak Teknologi ini telah terbukti secara langsung dan kos-efektif pemindahan Jahitan kepada model berskala besar.
Satu lagi cara untuk meningkatkan kecekapan Transformer adalah dengan mempercepatkan pengiraan softmax dalam lapisan perhatian.
Berdasarkan penyelidikan mengenai anggaran peringkat rendah kernel softmax, penyelidik mencadangkan jenis ciri rawak baharu, menyediakan ciri rawak "positif dan terikat" pertama bagi kernel softmax. Kira-kira, dan linear secara pengiraan atas panjang jujukan.
Pautan kertas: https://arxiv.org/abs/2205.15317
Dan juga mencadangkan mekanisme pertama yang meliputi topeng perhatian berbilang, seperti pengekodan sebab dan pengekodan kedudukan relatif.
Kaedah pengoptimuman yang berkesan ialah asas kepada aplikasi pembelajaran mesin moden, terutamanya penting dalam persekitaran berskala besar.
Dalam kes ini, walaupun kaedah penyesuaian tertib pertama seperti Adam cenderung memerlukan banyak pengiraan, dan kestabilan latihan akan menjadi sangat sukar.
Selain itu, kaedah ini selalunya tidak berkaitan dengan seni bina rangkaian saraf dan tidak mengambil kira maklumat struktur dalam seni bina model, menyebabkan kecekapan latihan yang rendah ini juga menggalakkan teknologi baharu untuk mengoptimumkan model rangkaian Neural moden dengan lebih berkesan.
Google Research telah membangunkan beberapa teknik latihan berasaskan seni bina model baharu, contohnya, untuk melatih rangkaian Transofmre, termasuk rangkaian Transofmre invarian skala baharu dan kaedah keratan baharu apabila digabungkan dengan stokastik vanila keturunan kecerunan (SGD), ia boleh mempercepatkan latihan.
Pautan kertas: https://arxiv.org/pdf/2202.00980.pdf
Menggunakan kaedah ini, penyelidik telah mencapai buat pertama kalinya kebolehan untuk melatih BERT dengan berkesan hanya menggunakan SGD mudah tanpa memerlukan penyesuaian.
Selain itu, para penyelidik mencadangkan kaedah baharu, LocoProp, untuk mendapatkan hasil yang serupa dengan pengoptimum tertib kedua sambil menggunakan sumber pengkomputeran dan memori yang sama dengan prestasi pengoptimuman tertib pertama .
LocoProp memperoleh pandangan modular bagi rangkaian saraf dengan menguraikannya kepada gabungan lapisan. Setiap lapisan kemudiannya dibenarkan mempunyai fungsi kehilangannya sendiri serta sasaran keluaran dan penyelaras berat. Dengan persediaan ini, selepas hantaran kecerunan ke hadapan dan ke belakang yang sesuai, LocoProp terus melakukan kemas kini selari dengan "kehilangan setempat" setiap lapisan.
Pautan kertas: https://proceedings.mlr.press/v151/amid22a.html
Malah, kemas kini ini secara teori dan empirikal serupa dengan pengoptimum tertib tinggi, dengan LocoProp mencapai hasil yang sama seperti pengoptimum tertib tinggi pada penanda aras autoenkoder dalam Prestasi setanding, manakala menjadi lebih pantas.
Andaian utama pengoptimum seperti SGD ialah setiap titik data diambil secara bebas dan identik daripada pengedaran, tetapi dalam aplikasi dunia sebenar seperti pembelajaran pengukuhan, andaian ini sukar untuk dipenuhi kerana model (atau ejen) mesti belajar daripada data yang dijana berdasarkan ramalannya sendiri.
Penyelidik telah mencadangkan kaedah algoritma baharu yang dipanggil SGD dengan ulangan pengalaman terbalik, yang boleh digunakan dalam sistem dinamik linear dan sistem dinamik bukan linear Cari penyelesaian optimum dalam beberapa situasi seperti Q-. pembelajaran dan pembelajaran pengukuhan.
Pautan kertas: https://arxiv.org/abs/2103.05896
Tambahan pula, versi kaedah yang dipertingkatkan ini, IER, terbukti secara eksperimen sebagai teknik main semula pengalaman yang paling stabil pada pelbagai penanda aras RL yang popular.
Rangkaian saraf dalam sangat bergantung pada set data yang besar, dengan kos penyimpanan atendan dan potensi isu keselamatan/privasi dalam data ini Melatih rangkaian saraf dalam moden pada set itu juga datang dengan kos pengiraan yang tinggi.
Kaedah yang menjanjikan untuk menyelesaikan masalah ini ialah pemilihan subset data, di mana matlamat pelajar adalah untuk mencari subset yang paling bermaklumat daripada sebilangan besar sampel latihan untuk hampir dengan ( Malah menambah baik) latihan keseluruhan set latihan.
Para penyelidik menganalisis rangka kerja pemilihan subset yang direka untuk berfungsi dengan keluarga model sewenang-wenang dalam tetapan kelompok praktikal di mana pelajar boleh mencuba satu sampel pada satu masa, mengakses konteks dan label sebenar, tetapi untuk mengehadkan overhed, sebaik sahaja kumpulan sampel yang cukup besar dipilih, keadaannya hanya boleh dikemas kini, iaitu, berat model dilatih lagi.
Berdasarkan ini, satu algoritma yang dipanggil IWeS telah dibangunkan, yang memilih sampel melalui pensampelan kepentingan, di mana kebarangkalian pensampelan yang diberikan kepada setiap sampel adalah berdasarkan yang dipilih sebelum ini Entropi kumpulan- model terlatih. Makalah ini menyediakan analisis teori yang menunjukkan batasan pada kadar generalisasi dan pensampelan.
Pautan kertas: https://arxiv.org/pdf/2301.12052.pdf
Masalah lain dengan melatih rangkaian besar ialah mereka boleh menjadi sangat sensitif terhadap data latihan dan perubahan pengedaran antara data yang dilihat pada masa penggunaan, terutamanya apabila berurusan dengan bilangan data latihan yang terhad , data ini mungkin tidak termasuk semua senario masa penggunaan.
Kajian baru-baru ini membuat hipotesis bahawa "berat sebelah kesederhanaan melampau" adalah isu utama di sebalik kerapuhan rangkaian saraf ini, dan kerja terbarunya menjadikan hipotesis ini boleh dilaksanakan, membawa kepada dua kaedah pelengkap baharu DAFT dan FRR, digabungkan menyediakan rangkaian saraf yang jauh lebih berkuasa. Khususnya, kedua-dua kaedah ini menggunakan penalaan halus lawan dan ramalan ciri songsang untuk meningkatkan keteguhan rangkaian pembelajaran.
Pautan kertas: https://arxiv.org/pdf/2006.07710.pdf
Meningkatkan saiz rangkaian saraf telah terbukti mempunyai kesan yang mengejutkan dalam meningkatkan ketepatan ramalannya, namun, sukar untuk mengeksploitasi ini kelebihan dalam dunia nyata adalah mencabar kerana kos inferens untuk model besar boleh menjadi mahal, isu ini juga memacu strategi untuk meningkatkan kecekapan perkhidmatan tanpa mengorbankan ketepatan.
Penyelidik telah mencadangkan strategi yang berbeza untuk mencapai matlamat ini, terutamanya yang berasaskan penyulingan pengetahuan dan pengkomputeran adaptif.
Penyulingan
Penyulingan ialah kaedah pemampatan model yang mudah dan berkesan yang menskalakan model saraf yang besar Ia mempunyai potensi kebolehgunaan dan telah terbukti sangat berkesan dalam beberapa siri aplikasi praktikal seperti pengesyoran pengiklanan.
Kebanyakan kes penggunaan untuk penyulingan melibatkan penggunaan model asas secara langsung pada domain tertentu, dengan hanya pemahaman terhad tentang bila dan mengapa ini perlu dilakukan. Penyelidikan Google melihat untuk menyesuaikan penyulingan mengikut keadaan tertentu dan secara sistematik mengkaji faktor yang menentukan kejayaan penyulingan.
Dari segi algoritma, dengan memodelkan bunyi bising dengan teliti dalam label yang disediakan oleh model guru, penyelidik membangunkan pendekatan berprinsip untuk menimbang semula contoh latihan, dan pendekatan yang mantap Subset data untuk dijadikan sampel mempunyai label guru.
Pautan kertas: https://arxiv.org/abs/2210.06711
Dalam proses "latihan dibimbing guru", penyelidik mencadangkan rangka kerja penyulingan baharu: daripada menggunakan guru secara pasif untuk menganotasi set data tetap, guru secara aktif digunakan untuk membimbing sampel maklumat Pemilihan digunakan untuk anotasi, yang menjadikan proses penyulingan lebih cekap dalam data terhad atau tetapan ekor panjang.
Pautan kertas: https://arxiv.org/abs/2208.06825
Kami juga mengkaji kaedah baharu daripada pengekod silang (pengekod dwi, seperti BERT) kepada pengekod dwi faktorial (pengekod dwi), yang juga merupakan sepasang (pertanyaan, dokumen ) Perkaitan ialah tetapan penting untuk pemarkahan.
Pautan kertas: https://proceedings.mlr.press/v162/menon22a/menon22a.pdf | pengekod dwi.
Fungsi kehilangan penyulingan yang dibina dengan teliti boleh mengurangkan keadaan ini dan merapatkan jurang prestasi antara pengekod silang dan pengekod dwi.
Seterusnya, penambahbaikan penyulingan dwi pengekod dengan memadankan pembenaman daripada model guru telah dikaji selanjutnya dalam EmbedDistil. Strategi ini juga boleh digunakan untuk mengekstrak maklumat daripada model dwi pengekod besar-ke-kecil, yang mewarisi dan membekukan pembenaman dokumen guru terbukti sangat berkesan.
Pautan kertas: https://arxiv.org/abs/2301.12005
memberikan perspektif baharu dari segi teori dengan mengukur sejauh mana pelajar dapat meramalkan label guru melalui penyulingan kerumitan yang diselia.
Pautan kertas: https://arxiv.org/abs/2301.12245
Pautan kertas: https://arxiv.org/abs/2301.12923
Pada masa yang sama, ia terus membuktikan bahawa titik di mana penyulingan menyebabkan pelajar juga menjadi masalah yang sukar untuk model guru. sampel yang boleh dimodelkan secara munasabah.
Pengiraan adaptif
Walaupun penyulingan merupakan kaedah yang berkesan untuk mengurangkan kos inferens, ia mempunyai Kesannya ialah seragam, dan secara intuitif sesetengah sampel "mudah" sememangnya memerlukan pengiraan yang kurang daripada sampel yang agak "keras".
Matlamat pengkomputeran adaptif adalah untuk mereka bentuk mekanisme yang boleh melakukan pengiraan bergantung kepada sampel sedemikian.
Confident Adaptive Language Modeling (CALM) memperkenalkan fungsi keluar awal terkawal untuk penjana teks berasaskan Transformer seperti T5.
Pautan kertas: https://arxiv.org/abs/2207.07061
Dalam bentuk pengiraan adaptif ini, model mengubah suai bilangan lapisan Transformer yang digunakan pada setiap langkah penyahkodan secara dinamik, di mana pintu keluar awal menggunakan metrik keyakinan dengan ambang keputusan ditentukur untuk memenuhi jaminan prestasi statistik.Dengan cara ini, model hanya perlu mengira susunan lapisan penyahkod penuh untuk ramalan yang paling mencabar dan hanya beberapa lapisan penyahkod untuk ramalan yang lebih mudah. Dalam amalan, model ini menggunakan kira-kira satu pertiga daripada banyak lapisan secara purata untuk ramalan, menghasilkan kelajuan 2-3x sambil mengekalkan tahap kualiti penjanaan yang sama.
Mekanisme pengiraan adaptif yang biasa digunakan terdiri daripada lata dua atau lebih model asas, di mana isu utama adalah memutuskan sama ada hanya menggunakan ramalan model semasa atau menangguhkan ramalan kepada model hiliran dan belajar apabila Penangguhan memerlukan mereka bentuk fungsi kerugian yang sesuai yang boleh menggunakan isyarat yang sesuai sebagai penyeliaan untuk menangguhkan keputusan.
Google Research mengkaji secara sistematik fungsi kehilangan sedia ada dan menunjukkan bahawa ia mungkin tidak sesuai untuk sampel latihan kerana penggunaan tersirat pelicinan label juga menunjukkan bahawa ini boleh dikurangkan melalui latihan post-hoc peraturan tertunda .
Pautan kertas: https://openreview.net/pdf?id=_jg6Sf6tuF7
Untuk aplikasi mendapatkan semula, teknik carian semantik standard menggunakan perwakilan tetap untuk setiap pembenaman yang dijana oleh model besar, iaitu, tanpa mengira tugas hiliran dan persekitaran atau kekangan pengiraan yang berkaitan, saiz perwakilan dan Keupayaan kebanyakannya tetap.
Pembelajaran perwakilan Matryoshka memperkenalkan fleksibiliti untuk melaraskan perwakilan mengikut persekitaran penempatan, memaksa perwakilan mempunyai susunan semula jadi dalam koordinatnya, supaya untuk persekitaran terhad sumber, hanya beberapa koordinat tertinggi perwakilan digunakan ; manakala untuk tetapan yang lebih kaya dan kritikal, lebih banyak koordinat boleh digunakan.
Pautan kertas: https://openreview.net/pdf?id=9njZa1fm35
Apabila digabungkan dengan teknik carian jiran terdekat anggaran standard, seperti mengimbas rangkaian saraf, MRL mampu memberikan sehingga 16x metrik ingat dan ketepatan yang sama pada pengiraan yang lebih rendah.
Model pembelajaran mesin berskala besar menunjukkan hasil transformatif dalam berbilang domain, tetapi kecekapan dalam latihan dan inferens menjadi keperluan kritikal untuk menjadikan model ini boleh dilaksanakan di dunia nyata .
Dengan membangunkan teknologi asas baharu, Google Research telah membuat pelaburan yang besar dalam menjadikan model pembelajaran mesin berskala besar cekap, yang juga memerlukan usaha berterusan Pada masa hadapan, kami akan terus meneroka cabaran teras untuk membuat model pembelajaran mesin lebih mantap dan cekap.
Atas ialah kandungan terperinci Buat latihan dan inferens model besar lebih cepat daripada sebelumnya! Ringkasan akhir tahun 2022 Google, yang keempat. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!