Rumah > Artikel > Peranti teknologi > Model besar Llama kecil yang boleh dijalankan dengan sumber pengiraan dan memori yang minimum
Dalam era maklumat letupan semasa, latihan model bahasa menjadi semakin kompleks dan sukar. Untuk melatih model bahasa yang cekap, kami memerlukan banyak sumber dan masa pengkomputeran, yang tidak praktikal untuk ramai orang. Pada masa yang sama, kami juga berdepan dengan cabaran bagaimana menggunakan model bahasa yang besar di bawah memori dan sumber pengkomputeran yang terhad, terutamanya pada peranti edge.
Hari ini saya ingin mengesyorkan kepada anda projek sumber terbuka GitHub jzhang38/TinyLlama Projek ini mempunyai lebih daripada 4.3k bintang di GitHub Untuk memperkenalkan projek dalam satu ayat ialah: "Projek TinyLlama adalah usaha terbuka untuk pralatih model Llama 1.1B pada 3 trilion token."
Matlamat TinyLlama adalah untuk pra-melatih model Llama 1.1B pada 3 trilion token. Dengan pengoptimuman yang betul, kami boleh mencapai ini dalam masa 90 hari sahaja menggunakan 16 GPU A100-40G. Projek ini menggunakan seni bina dan tokenizer yang sama seperti Llama 2, yang bermaksud TinyLlama boleh dibenamkan dengan mudah dan digunakan dalam banyak projek sumber terbuka berasaskan Llama. Selain itu, TinyLlama sangat padat, dengan hanya 1.1B parameter. Kekompakan ini menjadikannya sesuai untuk banyak senario aplikasi yang memerlukan pengkomputeran terhad dan jejak memori.
Anda boleh memuat turun model secara terus dan menggunakannya, atau gunakan demo melalui huggingface.
Jika anda ingin berlatih sendiri, sila rujuk butiran latihan di bawah.
TinyLlama ialah projek sumber terbuka yang menarik yang sedang aktif menyelesaikan beberapa masalah utama dan telah mendapat perhatian meluas dalam komuniti sumber terbuka.
Berikut ialah carta arah aliran Bintang projek (mewakili tahap aktiviti projek):
Untuk butiran lanjut projek, sila semak pautan di bawah.
Alamat projek sumber terbuka: https://github.com/jzhang38/TinyLlama
Pengarang projek sumber terbuka: jzhang38
Yang berikut adalah semua ahli yang terlibat dalam pembinaan projek:
Atas ialah kandungan terperinci Model besar Llama kecil yang boleh dijalankan dengan sumber pengiraan dan memori yang minimum. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!