在當前資訊量爆炸的時代,語言模型的訓練日益變得複雜和困難。為了培訓一個高效率的語言模型,我們需要大量的運算資源和時間,這對許多人來說是不切實際的。同時,我們也面臨著如何在有限的記憶體和運算資源下運用大型語言模型的挑戰,尤其是在邊緣設備上。
今天要給大家推薦一個GitHub 開源專案jzhang38/TinyLlama,該專案在GitHub 有超過4.3k Star,用一句話介紹這個專案就是:「The TinyLlama project is an open endeavor to pretrain a 1.1B Llama model on 3 trillion tokens.」。
TinyLlama的目標是在3兆個token上預訓練一個1.1B Llama模型。透過適當的優化,我們可以在短短90天內使用16個A100-40G GPUs來實現這一目標。該專案採用了與Llama 2完全相同的架構和tokenizer,這意味著TinyLlama可以輕鬆嵌入並在許多基於Llama的開源專案中使用。此外,TinyLlama非常緊湊,只有1.1B個參數。這種緊湊性使其能夠滿足許多需要限制計算和記憶體佔用的應用場景。
直接下載模型就可以使用,或透過huggingface 使用demo 。
如果你想自己訓練的話,參考如下訓練詳情。
#TinyLlama 是一個令人興奮的開源項目,它正在積極解決一些關鍵問題,並在開源社區中得到了廣泛的關注。
以下是該專案Star 趨勢圖(代表專案的活躍程度):
更多項目詳情請查看如下連結。
開源專案位址:https://github.com/jzhang38/TinyLlama
開源專案作者:jzhang38
#以下是參與專案建置的所有成員:
以上是只需少量計算和記憶體資源即可運行的小型 Llama 大模型的詳細內容。更多資訊請關注PHP中文網其他相關文章!