Rumah >Peranti teknologi >AI >Model terkuat Llama 3.1 405B dikeluarkan secara rasmi, Zuckerberg: Sumber terbuka menerajui era baharu

Model terkuat Llama 3.1 405B dikeluarkan secara rasmi, Zuckerberg: Sumber terbuka menerajui era baharu

PHPzasal: 2024-07-24 20:23:06698semak imbas

Tadi, Llama 3.1 yang ditunggu-tunggu telah dikeluarkan secara rasmi!

Meta secara rasmi mengeluarkan suara "Sumber terbuka membawa era baru".

Dalam blog rasmi, Meta berkata: "Sehingga hari ini, model bahasa besar sumber terbuka kebanyakannya ketinggalan di belakang model tertutup dari segi fungsi dan prestasi. Kini, kami menyambut era baharu yang dipimpin oleh sumber terbuka. Kami mengeluarkan Meta Llama 3.1 405B secara terbuka, kami percaya ini adalah model asas sumber terbuka terbesar dan paling berkuasa di dunia, dengan lebih daripada 300 juta muat turun semua versi Llama setakat ini, dan kami baru bermula."

Pengasas Meta. , Ketua Pegawai Eksekutif Zuckerberg juga secara peribadi menulis artikel panjang "Open Source AI Is the Path Forward", menjelaskan mengapa sumber terbuka adalah perkara yang baik untuk semua pembangun, Meta dan dunia.

Sorotan daripada keluaran ini termasuk:

Siri model terkini memanjangkan panjang konteks kepada 128K, menambah sokongan untuk lapan bahasa dan termasuk model sumber terbuka teratas 405
3.1; Llama 3.1 405B berada dalam liganya sendiri, dan Meta secara rasmi mengatakan ia setanding dengan model sumber tertutup terbaik
Keluaran ini juga menyediakan lebih banyak komponen (termasuk sistem rujukan) untuk digunakan dengan model untuk menjadikan Llama sebuah Satu sistem;
Pengguna boleh mengalami Llama 3.1 405B melalui WhatsApp dan meta.ai.

Alamat: https://llama.meta.com/ 最强模型Llama 3.1 405B正式发布，扎克伯格：开源引领新时代

Anda boleh memuat turun dan mencubanya.

Llama 3.1 Pengenalan

Llama 3.1 405B ialah model pertama yang boleh didapati secara umum yang setanding dengan model AI teratas dari segi akal budi, manipulasi bahasa, kebolehgunaan

Meta berkata generasi terbaru Llama akan memberi inspirasi kepada aplikasi baharu dan paradigma pemodelan, termasuk memanfaatkan penjanaan data sintetik untuk meningkatkan dan melatih model yang lebih kecil, serta penyulingan model - pendekatan yang tidak pernah dilihat dalam keupayaan sumber terbuka untuk mencapai.

Pada masa yang sama, Meta juga telah melancarkan versi peningkatan model 8B dan 70B, menyokong berbilang bahasa, dengan panjang konteks 128K dan keupayaan penaakulan yang lebih kukuh. Model terkini menyokong kes penggunaan lanjutan seperti ringkasan teks bentuk panjang, ejen perbualan berbilang bahasa dan pembantu pengekodan.

Sebagai contoh, Llama 3.1 boleh menterjemah cerita ke dalam bahasa Sepanyol:

Apabila pengguna bertanya "Terdapat 3 baju, 5 pasang seluar pendek dan 1 pakaian, andaikan anda ingin melakukan perjalanan selama 10 hari. pakaian Adakah ia cukup? "Model boleh melakukan inferens dengan cepat. 最强模型Llama 3.1 405B正式发布，扎克伯格：开源引领新时代

Konteks panjang: Untuk dokumen yang dimuat naik, Llama 3.1 dapat menganalisis dan meringkaskan dokumen besar sehingga 8k token. 最强模型Llama 3.1 405B正式发布，扎克伯格：开源引领新时代

Pembantu Pengekodan, untuk keperluan pengguna, anda boleh menulis kod dengan cepat: 最强模型Llama 3.1 405B正式发布，扎克伯格：开源引领新时代

Selain itu, pembangun Llama 3.1 405B turut mentweet "spoiler", menyatakan bahawa pembangunan model yang mengintegrasikan keupayaan suara dan visual seperti GPT-4o masih dalam pembangunan.

Meta juga telah membuat perubahan pada lesen sumber terbuka untuk membolehkan pembangun menggunakan output model Llama (termasuk 405B) untuk menambah baik model lain. Selain itu, selaras dengan komitmen sumber terbukanya, mulai hari ini, Meta menyediakan model ini kepada komuniti untuk dimuat turun di llama.meta.com dan Wajah Memeluk.

Alamat muat turun:

https://huggingface.co/meta-llama
https://llama.meta.com/

penilaian

Meta dinilai pada lebih daripada 150 set data penanda aras, selain itu, mereka juga menjalankan penilaian manusia yang meluas.

Hasil eksperimen menunjukkan bahawa model perdana Llama 3.1 405B berdaya saing dengan model asas terkemuka termasuk GPT-4, GPT-4o dan Claude 3.5 Sonnet merentasi pelbagai tugas. Tambahan pula, model kecil 8B dan 70B bersaing dengan model sumber tertutup dan sumber terbuka dengan bilangan parameter yang serupa. . Untuk mendayakan latihan pada skala ini, Meta mengoptimumkan keseluruhan susunan latihan dan melatih lebih 16,000 GPU H100, menjadikan model ini model Llama pertama yang dilatih pada skala ini.

Untuk menyelesaikan masalah ini, Meta telah membuat pilihan reka bentuk berikut, memfokuskan pada memastikan proses pembangunan model berskala dan mudah. 最强模型Llama 3.1 405B正式发布，扎克伯格：开源引领新时代

Seni bina model Transformer penyahkod standard dengan hanya pelarasan kecil dipilih dan bukannya model pakar hibrid untuk memaksimumkan kestabilan latihan.

Menggunakan prosedur selepas latihan berulang, menggunakan penalaan halus diselia dan pengoptimuman keutamaan langsung pada setiap pusingan. Ini membolehkan Meta mencipta data sintetik berkualiti tinggi untuk setiap pusingan dan meningkatkan prestasi setiap ciri.

Berbanding dengan versi Llama sebelumnya, Meta telah meningkatkan kuantiti dan kualiti data yang digunakan untuk pra-latihan dan pasca-latihan, seperti membangunkan saluran paip pra-pemprosesan dan pengurusan yang lebih berhati-hati untuk data pra-latihan dan Data selepas latihan Membangunkan jaminan kualiti dan kaedah penapisan yang lebih ketat. 最强模型Llama 3.1 405B正式发布，扎克伯格：开源引领新时代

Seperti yang dijangkakan daripada undang-undang penskalaan model bahasa, model perdana baharu Meta mengatasi model yang lebih kecil yang dilatih menggunakan prosedur yang sama. Meta juga menggunakan model parameter 405B untuk meningkatkan kualiti selepas latihan model yang lebih kecil.

Untuk menyokong keluaran inferens berskala besar model 405B, Meta mengkuantifikasi model daripada 16 bit (BF16) kepada 8 bit (FP8), dengan berkesan mengurangkan keperluan pengkomputeran yang diperlukan dan membenarkan model berjalan pada nod pelayan tunggal.

Llama 3.1 405B berusaha untuk meningkatkan kegunaan, kualiti dan arahan terperinci mengikut model dalam bertindak balas kepada arahan pengguna, sambil ens.

Dalam fasa pasca latihan, pasukan penyelidik membina model sembang terakhir dengan melakukan beberapa pusingan penjajaran berdasarkan model pra-latihan. Setiap pusingan melibatkan penyeliaan penalaan halus (SFT), pensampelan penolakan (RS) dan pengoptimuman keutamaan langsung (DPO).

Pasukan penyelidik menggunakan penjanaan data sintetik untuk menghasilkan sebahagian besar contoh SFT, dan berulang beberapa kali untuk menjana data sintetik yang semakin berkualiti tinggi merentas semua ciri. Selain itu, pasukan penyelidik menggunakan pelbagai teknik pemprosesan data untuk menapis data sintetik ini kepada kualiti tertinggi dan memperhalusi volum data merentas kebolehskalaan fungsian.

Llama System

Model Llama sentiasa wujud sebagai sebahagian daripada sistem AI dan boleh menyelaraskan berbilang komponen, termasuk memanggil alat luaran. Meta direka bentuk untuk melangkaui model asas dan memberi pemaju kelonggaran untuk mereka bentuk dan mencipta produk tersuai yang sesuai dengan visi mereka.

Untuk membangunkan AI secara bertanggungjawab di luar lapisan model, Meta telah mengeluarkan sistem rujukan lengkap yang merangkumi berbilang aplikasi contoh serta komponen baharu seperti Llama Guard 3, model keselamatan berbilang bahasa dan Prompt Guard (penapis suntikan segera) . Aplikasi sampel ini adalah sumber terbuka dan boleh dibina oleh komuniti sumber terbuka.

Untuk bekerjasama secara lebih meluas dengan industri, syarikat permulaan dan komuniti sumber terbuka untuk membantu mentakrifkan antara muka komponen dengan lebih baik, Meta telah menerbitkan permintaan ulasan untuk "Llama Stack" di GitHub. Llama Stack ialah satu set antara muka piawai untuk membina komponen rantai alat kanonik (penalaan halus, penjanaan data sintetik) dan aplikasi ejen. Ini membantu mencapai kesalingoperasian dengan lebih mudah.

Tidak seperti model tertutup, pemberat model Llama tersedia untuk dimuat turun. Pembangun boleh menyesuaikan model sepenuhnya mengikut keperluan dan aplikasi mereka, melatih set data baharu dan melakukan penalaan halus tambahan.

Dibangunkan menggunakan Llama 3.1 405B

Bagi pembangun biasa, menggunakan model berskala besar seperti 405B sudah pasti memerlukan banyak kemahiran dan pengkomputeran. Dalam berkomunikasi dengan komuniti pembangun, Meta menyedari bahawa pembangunan AI generatif adalah lebih daripada sekadar memberikan gesaan input kepada model. Mereka mengharapkan semua pembangun mengeksploitasi potensi penuh Llama 3.1 405B dalam bidang berikut:

Inferens masa nyata dan kelompok
Model penalaan halus dan penilaian yang diselia
aplikasi
pralatihan berterusan
Retrieval Augmented Generation (RAG)
Panggilan fungsi

penjanaan data sintetik

Dikeluarkan mulai sekarang, Llama 3.1 40 Semua ciri lanjutan daripada model 5B akan dibuka dan pembangun boleh bermula dengan segera. Pembangun juga boleh meneroka aliran kerja peringkat tinggi, seperti penjanaan data sintetik berdasarkan penyulingan model. Dalam peningkatan ini, Meta juga menyepadukan penyelesaian yang disediakan oleh rakan kongsi AWS, NVIDIA dan Databricks dengan lancar untuk mencapai penjanaan penambahan perolehan (RAG) yang lebih cekap. Selain itu, Groq telah dioptimumkan untuk inferens kependaman rendah untuk menggunakan model dalam awan, dan peningkatan prestasi yang serupa telah dibuat untuk sistem tempatan.

Meta juga telah terbina dalam "pakej hadiah alat" untuk Llama 3.1 405B kali ini, termasuk projek utama seperti vLLM, TensorRT dan PyTorch, daripada pembangunan model hingga penggunaan "di luar kotak", semuanya dalam satu langkah.

^{Pautan rujukan: https://ai.meta.com/blog/meta-llama-3-1/}

Atas ialah kandungan terperinci Model terkuat Llama 3.1 405B dikeluarkan secara rasmi, Zuckerberg: Sumber terbuka menerajui era baharu. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

架构 Token 接口栈堆 github 人工智能 pytorch transformer https 开源协议 gpt llama prompt

Kenyataan：

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel sebelumnya：Daripada logam kosong kepada model besar dengan 70 bilion parameter, berikut ialah tutorial dan skrip sedia untuk digunakanArtikel seterusnya：Daripada logam kosong kepada model besar dengan 70 bilion parameter, berikut ialah tutorial dan skrip sedia untuk digunakan

Artikel berkaitan

Lihat lagi