


Latihan mesin tunggal 20 bilion parameter model besar: Cerebras memecahkan rekod baharu
Minggu ini, syarikat permulaan cip Cerebras mengumumkan pencapaian baharu: melatih model kecerdasan buatan NLP (pemprosesan bahasa semula jadi) dengan lebih daripada 10 bilion parameter dalam satu peranti pengkomputeran.
Jumlah model AI yang dilatih oleh Cerebras mencapai 20 bilion parameter yang belum pernah berlaku sebelum ini, semuanya tanpa menskalakan beban kerja merentas berbilang pemecut. Kerja ini sudah cukup untuk memenuhi model penjanaan AI teks-ke-imej yang paling popular di Internet - model besar 12 bilion parameter OpenAI DALL-E.
Perkara yang paling penting tentang tugas baharu Cerebras ialah keperluan infrastruktur dan kerumitan perisian yang dikurangkan. Cip yang disediakan oleh syarikat ini, Wafer Scale Engine-2 (WSE2), adalah, seperti namanya, terukir pada satu keseluruhan wafer proses 7nm TSMC Kawasan ini biasanya cukup besar untuk menampung ratusan cip arus perdana - dengan mengejutkan 2.6 trilion transistor , 850,000 teras pengkomputeran AI dan cache bersepadu 40 GB, dan penggunaan kuasa selepas pembungkusan adalah setinggi 15kW.
Enjin Skala Wafer-2 hampir dengan saiz wafer dan lebih besar daripada iPad.
Walaupun mesin tunggal Cerebras serupa dengan superkomputer dari segi saiz, model NLP yang mengekalkan sehingga 20 bilion parameter dalam satu cip masih berkurangan dengan ketara kos latihan untuk beribu-ribu GPU, dan perkakasan dan keperluan penskalaan yang berkaitan, sambil menghapuskan kesukaran teknikal pembahagian model di kalangan mereka. Yang terakhir ialah "salah satu aspek beban kerja NLP yang paling menyakitkan" dan kadangkala "mengambil masa berbulan-bulan untuk disiapkan," kata Cerebras.
Ini ialah masalah tersuai yang unik bukan sahaja untuk setiap rangkaian saraf yang sedang diproses, tetapi juga kepada spesifikasi setiap GPU dan rangkaian yang menghubungkannya bersama - Elemen ini mesti ditetapkan lebih awal sebelum sesi latihan pertama dan tidak mudah alih merentas sistem.
Cerebras’ CS-2 ialah gugusan superkomputer mandiri yang merangkumi cip Wafer Scale Engine-2, semua kuasa Bersekutu, memori, dan subsistem penyimpanan.
Apakah anggaran bilangan parameter 20 bilion? Dalam bidang kecerdasan buatan, model pra-latihan berskala besar adalah hala tuju yang pelbagai syarikat dan institusi teknologi sedang berusaha keras untuk dibangunkan baru-baru ini OpenAI's GPT-3 adalah model NLP yang boleh menulis keseluruhan artikel dan melakukan perkara yang cukup menipu pembaca manusia dan terjemahan matematik dengan 175 bilion parameter yang mengejutkan. DeepMind's Gopher, yang dilancarkan akhir tahun lalu, meningkatkan bilangan rekod parameter kepada 280 bilion.
Baru-baru ini, Google Brain malah mengumumkan bahawa ia telah melatih model dengan lebih satu trilion parameter, Switch Transformer.
"Dalam bidang NLP, model yang lebih besar telah menunjukkan prestasi yang lebih baik. Tetapi secara tradisinya, hanya segelintir syarikat yang mempunyai sumber dan kepakaran untuk menguraikan model besar ini. kerja keras untuk mengedarkannya ke ratusan atau ribuan unit pemprosesan grafik," kata Andrew Feldman, Ketua Pegawai Eksekutif dan pengasas bersama Cerebras. "Oleh itu, terdapat sangat sedikit syarikat yang boleh melatih model NLP yang besar - ia terlalu mahal, memakan masa dan tidak tersedia untuk seluruh industri." ambang aplikasi model GPT-3XL 1.3B, GPT-J 6B, GPT-3 13B dan GPT-NeoX 20B, membolehkan keseluruhan ekosistem AI membina model besar dalam beberapa minit dan melatih pada sistem CS-2 tunggal mereka.
Walau bagaimanapun, sama seperti kelajuan jam CPU perdana, bilangan parameter hanyalah sebahagian daripada persamaan untuk prestasi model besar penunjuk. Baru-baru ini, beberapa penyelidikan telah mencapai hasil yang lebih baik pada premis pengurangan parameter, seperti Chinchilla yang dicadangkan oleh DeepMind pada April tahun ini, yang mengatasi GPT-3 dan Gopher dalam kes konvensional dengan hanya 70 bilion parameter.
Matlamat penyelidikan jenis ini sudah tentu bekerja lebih bijak, bukan bekerja lebih keras. Jadi pencapaian Cerebras adalah lebih penting daripada apa yang orang mula-mula lihat - penyelidikan ini memberi kita keyakinan bahawa tahap pembuatan cip semasa boleh menyesuaikan diri dengan model yang semakin kompleks, dan syarikat itu berkata bahawa sistem dengan cip khas sebagai teras mempunyai sokongan " Keupayaan model dengan ratusan bilion atau bahkan trilion parameter.
Pertumbuhan pesat dalam bilangan parameter boleh dilatih pada satu cip bergantung pada teknologi Penstriman Berat Cerebras. Teknologi ini memisahkan pengiraan dan jejak ingatan, membolehkan memori berskala pada sebarang skala berdasarkan bilangan parameter yang berkembang pesat dalam beban kerja AI. Ini mengurangkan masa persediaan dari bulan ke minit dan membolehkan pertukaran antara model seperti GPT-J dan GPT-Neo. Seperti kata penyelidik: "Ia hanya memerlukan beberapa ketukan kekunci." kecerdasan buatan Ini adalah era baru kecerdasan yang menarik Ia memberikan organisasi yang tidak boleh membelanjakan berpuluh juta dolar cara yang mudah dan murah untuk bersaing dalam model besar, "kata Dan Olds, ketua pegawai penyelidik di Intersect360 Research. "Kami menantikan aplikasi dan penemuan baharu daripada pelanggan CS-2 sambil mereka melatih model peringkat GPT-3 dan GPT-J pada set data besar-besaran."
Atas ialah kandungan terperinci Latihan mesin tunggal 20 bilion parameter model besar: Cerebras memecahkan rekod baharu. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

META telah bergabung dengan rakan-rakan seperti Nvidia, IBM dan Dell untuk mengembangkan integrasi penempatan peringkat perusahaan Llama Stack. Dari segi keselamatan, Meta telah melancarkan alat -alat baru seperti Llama Guard 4, Llamifirewall dan Cyberseceval 4, dan melancarkan program pembela Llama untuk meningkatkan keselamatan AI. Di samping itu, META telah mengedarkan $ 1.5 juta dalam geran Llama Impact kepada 10 institusi global, termasuk pemula yang bekerja untuk meningkatkan perkhidmatan awam, penjagaan kesihatan dan pendidikan. Permohonan Meta AI yang baru dikuasakan oleh Llama 4, dikandung sebagai Meta AI

Joi Ai, sebuah syarikat yang merintis interaksi manusia-ai, telah memperkenalkan istilah "AI-Lationships" untuk menggambarkan hubungan yang berkembang ini. Jaime Bronstein, ahli terapi hubungan di Joi Ai, menjelaskan bahawa ini tidak dimaksudkan untuk menggantikan manusia c

Penipuan dalam talian dan serangan bot menimbulkan cabaran penting bagi perniagaan. Peruncit melawan bot produk penimbunan, pengambilalihan akaun Bank Battle, dan platform media sosial berjuang dengan peniru. Kebangkitan AI memburukkan lagi masalah ini, Rende

Ejen AI bersedia untuk merevolusikan pemasaran, yang berpotensi melampaui kesan peralihan teknologi terdahulu. Ejen -ejen ini, yang mewakili kemajuan yang signifikan dalam AI generatif, bukan sahaja memproses maklumat seperti chatgpt tetapi juga mengambil actio

Impak AI terhadap keputusan NBA Game 4 penting Dua pertandingan NBA permainan yang penting mempamerkan peranan permainan AI yang berubah-ubah dalam merasmikan. Pada mulanya, Nikola Jokic dari Denver yang terlepas tiga pointer membawa kepada lorong-lorong terakhir yang terakhir oleh Aaron Gordon. Sony's Haw

Secara tradisinya, memperluaskan kepakaran perubatan regeneratif secara global menuntut perjalanan yang luas, latihan tangan, dan tahun mentor. Sekarang, AI sedang mengubah landskap ini, mengatasi batasan geografi dan mempercepatkan kemajuan melalui en

Intel sedang berusaha untuk mengembalikan proses pembuatannya ke kedudukan utama, sambil cuba menarik pelanggan semikonduktor yang hebat untuk membuat cip di fabanya. Untuk tujuan ini, Intel mesti membina lebih banyak kepercayaan dalam industri, bukan sahaja untuk membuktikan daya saing prosesnya, tetapi juga untuk menunjukkan bahawa rakan kongsi boleh mengeluarkan cip dalam aliran kerja yang biasa dan matang, konsisten dan sangat dipercayai. Semua yang saya dengar hari ini membuatkan saya percaya Intel bergerak ke arah matlamat ini. Ucapan utama CEO baru Tan Libai memulakan hari. Tan Libai adalah mudah dan ringkas. Beliau menggariskan beberapa cabaran dalam Perkhidmatan Foundry Intel dan langkah -langkah syarikat telah mengambil untuk menangani cabaran -cabaran ini dan merancang laluan yang berjaya untuk perkhidmatan Foundry Intel pada masa akan datang. Tan Libai bercakap mengenai proses perkhidmatan OEM Intel yang dilaksanakan untuk menjadikan pelanggan lebih banyak

Mengulas kebimbangan yang semakin meningkat di sekitar risiko AI, Chaucer Group, firma insurans semula khusus global, dan Armilla AI telah bergabung untuk memperkenalkan produk insurans liabiliti pihak ketiga (TPL) novel. Dasar ini melindungi perniagaan terhadap


Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

SecLists
SecLists ialah rakan penguji keselamatan muktamad. Ia ialah koleksi pelbagai jenis senarai yang kerap digunakan semasa penilaian keselamatan, semuanya di satu tempat. SecLists membantu menjadikan ujian keselamatan lebih cekap dan produktif dengan menyediakan semua senarai yang mungkin diperlukan oleh penguji keselamatan dengan mudah. Jenis senarai termasuk nama pengguna, kata laluan, URL, muatan kabur, corak data sensitif, cangkerang web dan banyak lagi. Penguji hanya boleh menarik repositori ini ke mesin ujian baharu dan dia akan mempunyai akses kepada setiap jenis senarai yang dia perlukan.

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Dreamweaver Mac版
Alat pembangunan web visual
