Rumah > Artikel > Peranti teknologi > Latihan mesin tunggal 20 bilion parameter model besar: Cerebras memecahkan rekod baharu
Minggu ini, syarikat permulaan cip Cerebras mengumumkan pencapaian baharu: melatih model kecerdasan buatan NLP (pemprosesan bahasa semula jadi) dengan lebih daripada 10 bilion parameter dalam satu peranti pengkomputeran.
Jumlah model AI yang dilatih oleh Cerebras mencapai 20 bilion parameter yang belum pernah berlaku sebelum ini, semuanya tanpa menskalakan beban kerja merentas berbilang pemecut. Kerja ini sudah cukup untuk memenuhi model penjanaan AI teks-ke-imej yang paling popular di Internet - model besar 12 bilion parameter OpenAI DALL-E.
Perkara yang paling penting tentang tugas baharu Cerebras ialah keperluan infrastruktur dan kerumitan perisian yang dikurangkan. Cip yang disediakan oleh syarikat ini, Wafer Scale Engine-2 (WSE2), adalah, seperti namanya, terukir pada satu keseluruhan wafer proses 7nm TSMC Kawasan ini biasanya cukup besar untuk menampung ratusan cip arus perdana - dengan mengejutkan 2.6 trilion transistor , 850,000 teras pengkomputeran AI dan cache bersepadu 40 GB, dan penggunaan kuasa selepas pembungkusan adalah setinggi 15kW.
Enjin Skala Wafer-2 hampir dengan saiz wafer dan lebih besar daripada iPad.
Walaupun mesin tunggal Cerebras serupa dengan superkomputer dari segi saiz, model NLP yang mengekalkan sehingga 20 bilion parameter dalam satu cip masih berkurangan dengan ketara kos latihan untuk beribu-ribu GPU, dan perkakasan dan keperluan penskalaan yang berkaitan, sambil menghapuskan kesukaran teknikal pembahagian model di kalangan mereka. Yang terakhir ialah "salah satu aspek beban kerja NLP yang paling menyakitkan" dan kadangkala "mengambil masa berbulan-bulan untuk disiapkan," kata Cerebras.
Ini ialah masalah tersuai yang unik bukan sahaja untuk setiap rangkaian saraf yang sedang diproses, tetapi juga kepada spesifikasi setiap GPU dan rangkaian yang menghubungkannya bersama - Elemen ini mesti ditetapkan lebih awal sebelum sesi latihan pertama dan tidak mudah alih merentas sistem.
Cerebras’ CS-2 ialah gugusan superkomputer mandiri yang merangkumi cip Wafer Scale Engine-2, semua kuasa Bersekutu, memori, dan subsistem penyimpanan.
Apakah anggaran bilangan parameter 20 bilion? Dalam bidang kecerdasan buatan, model pra-latihan berskala besar adalah hala tuju yang pelbagai syarikat dan institusi teknologi sedang berusaha keras untuk dibangunkan baru-baru ini OpenAI's GPT-3 adalah model NLP yang boleh menulis keseluruhan artikel dan melakukan perkara yang cukup menipu pembaca manusia dan terjemahan matematik dengan 175 bilion parameter yang mengejutkan. DeepMind's Gopher, yang dilancarkan akhir tahun lalu, meningkatkan bilangan rekod parameter kepada 280 bilion.
Baru-baru ini, Google Brain malah mengumumkan bahawa ia telah melatih model dengan lebih satu trilion parameter, Switch Transformer.
"Dalam bidang NLP, model yang lebih besar telah menunjukkan prestasi yang lebih baik. Tetapi secara tradisinya, hanya segelintir syarikat yang mempunyai sumber dan kepakaran untuk menguraikan model besar ini. kerja keras untuk mengedarkannya ke ratusan atau ribuan unit pemprosesan grafik," kata Andrew Feldman, Ketua Pegawai Eksekutif dan pengasas bersama Cerebras. "Oleh itu, terdapat sangat sedikit syarikat yang boleh melatih model NLP yang besar - ia terlalu mahal, memakan masa dan tidak tersedia untuk seluruh industri." ambang aplikasi model GPT-3XL 1.3B, GPT-J 6B, GPT-3 13B dan GPT-NeoX 20B, membolehkan keseluruhan ekosistem AI membina model besar dalam beberapa minit dan melatih pada sistem CS-2 tunggal mereka.
Walau bagaimanapun, sama seperti kelajuan jam CPU perdana, bilangan parameter hanyalah sebahagian daripada persamaan untuk prestasi model besar penunjuk. Baru-baru ini, beberapa penyelidikan telah mencapai hasil yang lebih baik pada premis pengurangan parameter, seperti Chinchilla yang dicadangkan oleh DeepMind pada April tahun ini, yang mengatasi GPT-3 dan Gopher dalam kes konvensional dengan hanya 70 bilion parameter.
Matlamat penyelidikan jenis ini sudah tentu bekerja lebih bijak, bukan bekerja lebih keras. Jadi pencapaian Cerebras adalah lebih penting daripada apa yang orang mula-mula lihat - penyelidikan ini memberi kita keyakinan bahawa tahap pembuatan cip semasa boleh menyesuaikan diri dengan model yang semakin kompleks, dan syarikat itu berkata bahawa sistem dengan cip khas sebagai teras mempunyai sokongan " Keupayaan model dengan ratusan bilion atau bahkan trilion parameter.
Pertumbuhan pesat dalam bilangan parameter boleh dilatih pada satu cip bergantung pada teknologi Penstriman Berat Cerebras. Teknologi ini memisahkan pengiraan dan jejak ingatan, membolehkan memori berskala pada sebarang skala berdasarkan bilangan parameter yang berkembang pesat dalam beban kerja AI. Ini mengurangkan masa persediaan dari bulan ke minit dan membolehkan pertukaran antara model seperti GPT-J dan GPT-Neo. Seperti kata penyelidik: "Ia hanya memerlukan beberapa ketukan kekunci." kecerdasan buatan Ini adalah era baru kecerdasan yang menarik Ia memberikan organisasi yang tidak boleh membelanjakan berpuluh juta dolar cara yang mudah dan murah untuk bersaing dalam model besar, "kata Dan Olds, ketua pegawai penyelidik di Intersect360 Research. "Kami menantikan aplikasi dan penemuan baharu daripada pelanggan CS-2 sambil mereka melatih model peringkat GPT-3 dan GPT-J pada set data besar-besaran."
Atas ialah kandungan terperinci Latihan mesin tunggal 20 bilion parameter model besar: Cerebras memecahkan rekod baharu. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!