Rumah  >  Artikel  >  Peranti teknologi  >  Seni bina model GPT-4 bocor: mengandungi 1.8 trilion parameter dan menggunakan model pakar hibrid

Seni bina model GPT-4 bocor: mengandungi 1.8 trilion parameter dan menggunakan model pakar hibrid

WBOY
WBOYke hadapan
2023-07-16 11:53:22771semak imbas

GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型

Berita pada 13 Julai, Semianalysis media asing baru-baru ini mendedahkan model besar GPT-4 yang dikeluarkan oleh OpenAI pada Mac tahun ini, termasuk seni bina model GPT-4, infrastruktur latihan dan inferens, volum parameter dan set Data latihan, bilangan token, kos, Campuran Pakar dan parameter dan maklumat khusus lain.

GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型

▲ Sumber gambar Semianalysis

Media asing menyatakan bahawa GPT-4 mengandungi sejumlah 1.8 trilion parameter dalam 120 lapisan, manakala GPT-3 hanya mempunyai kira-kira 175 bilion parameter. Untuk memastikan kos berpatutan, OpenAI menggunakan model pakar hibrid untuk membina.

IT Home Nota: Mixture of Experts ialah sejenis rangkaian saraf Sistem memisahkan dan melatih berbilang model berdasarkan data Selepas output setiap model, sistem menyepadukan dan mengeluarkan model ini ke dalam satu tugas.

GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型

▲ Sumber gambar Semianalysis

Dilaporkan bahawa

GPT-4 menggunakan 16 model pakar campuran (campuran pakar), setiap satu dengan 111 bilion parameter, dan setiap laluan laluan hadapan melalui dua model pakar .

Selain itu, ia mempunyai 55 bilion parameter perhatian yang dikongsi dan dilatih menggunakan set data yang mengandungi 13 trilion token tidak unik dan dikira sebagai lebih banyak token berdasarkan bilangan lelaran.

Panjang konteks peringkat pra-latihan GPT-4 ialah 8k, dan versi 32k adalah hasil penalaan halus 8k Kos latihan agak tinggi kelajuan 33.33 Token sesaat model Parametrik

, jadi latihan model ini memerlukan kos inferens yang sangat tinggi Dikira pada AS$1 sejam untuk mesin fizikal H100, kos satu latihan adalah setinggi AS$63 juta (kira-kira 451 juta yuan. ). Dalam hal ini,

OpenAI memilih untuk menggunakan GPU A100 dalam awan untuk melatih model, mengurangkan kos latihan akhir kepada kira-kira AS$21.5 juta (kira-kira 154 juta yuan), yang mengambil masa lebih lama untuk mengurangkan kos latihan

.

Atas ialah kandungan terperinci Seni bina model GPT-4 bocor: mengandungi 1.8 trilion parameter dan menggunakan model pakar hibrid. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam