Rumah >Peranti teknologi >AI >3140 parameter Inferens Grok-1 dipercepatkan sebanyak 3.8 kali, versi PyTorch+HuggingFace ada di sini

3140 parameter Inferens Grok-1 dipercepatkan sebanyak 3.8 kali, versi PyTorch+HuggingFace ada di sini

王林ke hadapan: 2024-03-25 15:21:461307semak imbas

Musk melakukan apa yang dia katakan dan sumber terbuka Grok-1, dan komuniti sumber terbuka sangat gembira.

Walau bagaimanapun, masih terdapat beberapa kesukaran dalam membuat perubahan atau pengkomersilan berdasarkan Grok-1:

Grok-1 dibina menggunakan Rust+JAX, dan ambang untuk pengguna yang biasa mengarusperdanakan ekosistem perisian seperti Python+ PyTorch+HuggingFace adalah tinggi.

3140 parameter Inferens Grok-1 dipercepatkan sebanyak 3.8 kali, versi PyTorch+HuggingFace ada di sini

△Ilustrasi: Grok menduduki tempat pertama di dunia dalam senarai hangat GitHub

Pencapaian terkini pasukan Colossal-AI menyelesaikan keperluan mendesak semua orang Sediakan Grok+Hugging+Pyce Torch yang mudah dan mudah digunakan -1, yang boleh melaksanakan penaakulan Latency dipercepatkan hampir 4 kali ganda !

Kini, model itu telah diterbitkan di HuggingFace dan ModelScope.

Pautan muat turun HuggingFace:
https://www.php.cn/link/335396ce0d3f6e808c26132f91916eae

ModelScope pautan muat turun:
/php279999999999999999999999999999999999999999999999999999997 e8 91995dc9e

Pengoptimuman prestasi

Digabungkan dengan pengumpulan kaya Colossal-AI dalam bidang pengoptimuman sistem model besar AI, ia dengan cepat menyokong selari tensor untuk Grok-1.

Pada pelayan tunggal 8H800 80GB, prestasi inferens dibandingkan dengan JAX, peta peranti auto HuggingFace dan kaedah lain,

Latensi inferens dipercepatkan hampir 4 kali ganda.

3140 parameter Inferens Grok-1 dipercepatkan sebanyak 3.8 kali, versi PyTorch+HuggingFace ada di sini

Tutorial Penggunaan

Selepas memuat turun dan memasang Colossal-AI, mulakan sahaja skrip inferens.

./run_inference_fast.sh hpcaitech/grok-1

Berat model akan dimuat turun dan dimuatkan secara automatik, dan keputusan inferens akan kekal sejajar. Seperti yang ditunjukkan dalam rajah di bawah, ujian berjalan pencarian rakus Grok-1.

3140 parameter Inferens Grok-1 dipercepatkan sebanyak 3.8 kali, versi PyTorch+HuggingFace ada di sini

Untuk butiran lanjut, sila rujuk kes penggunaan grok-1:

https://www.php.cn/link/e2575ed7d2c481c414c10e688bcbc4cf1

Sumber terbuka ini dikeluarkan Grok-1 Berat model asas dan seni bina rangkaian.

Khususnya, model asas asal daripada fasa pra-latihan pada Oktober 2023, yang tidak diperhalusi untuk mana-mana aplikasi tertentu (seperti dialog).

Secara struktur, Grok-1 menggunakan seni bina pakar campuran (MoE),

mengandungi 8 pakar

, dan jumlah parameter ialah 314B (314 bilion) Apabila memproses Token, dua daripada pakar akan diaktifkan, dan parameter pengaktifan amaun ialah 86B. Melihat pada jumlah parameter yang diaktifkan sahaja, ia telah melebihi 70B model padat Llama 2. Bagi seni bina KPM, tidak keterlaluan untuk memanggil jumlah parameter ini sebagai raksasa.

Maklumat parameter lanjut adalah seperti berikut:

Panjang tetingkap ialah 8192 token, ketepatannya ialah bf16

Saiz vocab Tokenizer ialah 131072 (2^17), iaitu hampir dengan saiz GPT-4
Bilangan lapisan Transformer ialah 64, dan setiap lapisan mempunyai lapisan penyahkod, termasuk blok perhatian berbilang kepala dan saiz nilai kunci ialah 128; blok, 48 kepala digunakan untuk pertanyaan, 8 digunakan untuk KV, saiz KV ialah 128; Dalam halaman GitHub, petua rasmi ialah disebabkan oleh skala besar model (parameter 314B), mesin dengan GPU dan memori yang mencukupi diperlukan untuk menjalankan Grok.
Kecekapan pelaksanaan lapisan MoE di sini tidak tinggi Kaedah pelaksanaan ini dipilih untuk mengelakkan keperluan untuk menyesuaikan kernel semasa mengesahkan ketepatan model.
Fail berat model disediakan dalam bentuk
pautan magnet

Perlu disebut bahawa Grok-1 menggunakan lesen Apache 2.0,

mesra komersial 3140 parameter Inferens Grok-1 dipercepatkan sebanyak 3.8 kali, versi PyTorch+HuggingFace ada di sini .

Pada masa ini, rating bintang Grok-1 di GitHub telah mencapai 43.9k Bintang.

Qubit memahami bahawa Colossal-AI akan melancarkan lagi pengoptimuman untuk Grok-1 dalam masa terdekat seperti pecutan selari dan pengurangan kuantitatif kos memori grafik Selamat datang untuk terus memberi perhatian.

Alamat sumber terbuka Colossal-AI:

https://www.php.cn/link/b9531e7d2a8f38fe8dcc73f58cae9530 3140 parameter Inferens Grok-1 dipercepatkan sebanyak 3.8 kali, versi PyTorch+HuggingFace ada di sini

Atas ialah kandungan terperinci 3140 parameter Inferens Grok-1 dipercepatkan sebanyak 3.8 kali, versi PyTorch+HuggingFace ada di sini. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Python rust 架构 Token auto map github apache pytorch transformer https 性能优化 gpt llama embedding

Kenyataan：

Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel sebelumnya：Rangka kerja anggaran pose objek 6D sampel sifar SAM-6D, satu langkah lebih dekat kepada kecerdasan yang terkandungArtikel seterusnya：Rangka kerja anggaran pose objek 6D sampel sifar SAM-6D, satu langkah lebih dekat kepada kecerdasan yang terkandung

Artikel berkaitan

Lihat lagi