搜尋
首頁科技週邊人工智慧小而強大的模型盛火:TinyLlama和LiteLlama成為熱門選擇

目前,研究者開始關注小巧且高性能的小模型,儘管大家都在研究參數規模達到百億甚至千億級的大模型。

小型模型在邊緣裝置上有廣泛應用,如智慧型手機、物聯網裝置和嵌入式系統。這些設備通常運算能力和儲存空間有限,無法有效運行大型語言模型。因此,研究小型模型變得特別重要。

接下來我們要介紹的這兩項研究,可能滿足你對小模型的需求。

TinyLlama-1.1B

#新加坡科技設計大學(SUTD)的研究者最近發布了TinyLlama,這是一個參數量為11億的語言模型,經過在大約3萬億個token上的預訓練。

小而強大的模型盛火:TinyLlama和LiteLlama成為熱門選擇


  • #論文網址:https://arxiv.org/pdf/2401.02385.pdf
  • 專案位址:https://github.com/jzhang38/TinyLlama/blob/main/README_zh-CN.md

##TinyLlama是基於Llama 2架構和分詞器的,這使得它可以輕鬆地與許多使用Llama的開源專案整合。此外,TinyLlama只有11億個參數,體積小巧,非常適合需要限制計算和記憶體佔用的應用程式。

研究表示僅需 16 塊 A100-40G 的 GPU,便可在 90 天內完成 TinyLlama 的訓練。

小而強大的模型盛火:TinyLlama和LiteLlama成為熱門選擇

該專案從上線開始,持續受到關注,目前星標量達到 4.7K。

小而強大的模型盛火:TinyLlama和LiteLlama成為熱門選擇

TinyLlama 模型架構詳細資訊如下所示:

小而強大的模型盛火:TinyLlama和LiteLlama成為熱門選擇

# #訓練細節如下:

小而強大的模型盛火:TinyLlama和LiteLlama成為熱門選擇

#研究者表示,這項研究旨在挖掘使用較大資料集訓練較小模型的潛力。他們重點探討在用遠大於擴展定律(scaling law)建議的 token 數量進行訓練時,較小模型的行為表現。

具體來說,研究使用大約 3 兆個 token 訓練具有 1.1B 個參數的 Transformer (僅解碼器)模型。據了解,這是第一次嘗試使用如此大量的資料來訓練具有 1B 參數的模型。

儘管規模相對較小,但 TinyLlama 在一系列下游任務中表現相當出色,它的效能顯著優於同等大小的現有開源語言模型。具體來說,TinyLlama 在各種下游任務中都超越了 OPT-1.3B 和 Pythia1.4B 。

此外,TinyLlama 也用到了各種最佳化方法,如 flash attention 2、FSDP( Fully Sharded Data Parallel )、 xFormers 等。

在這些技術的加持下,TinyLlama 訓練吞吐量達到了每 A100-40G GPU 每秒 24000 個 token。例如,TinyLlama-1.1B 模型對於 300B token 僅需要 3,456 A100 GPU 小時,而 Pythia 為 4,830 小時,MPT 為 7,920 小時。這顯示了該研究優化的有效性以及在大規模模型訓練中節省大量時間和資源的潛力。

TinyLlama 實現了24k tokens / 秒/ A100 的訓練速度,這個速度好比用戶可以在8 個A100 上用32 小時訓練一個具有11 億參數、220 億token 的chinchilla -optimial 的模型。同時,這些最佳化也大幅減少了顯存佔用,使用者可以把 11 億參數的模型塞入 40GB 的 GPU 裡面還能同時維持 16k tokens 的 per-gpu batch size。只要要把 batch size 改小一點, 你就可以在 RTX 3090/4090 上面訓練 TinyLlama。

小而強大的模型盛火:TinyLlama和LiteLlama成為熱門選擇

小而強大的模型盛火:TinyLlama和LiteLlama成為熱門選擇

#在實驗中,研究主要關注具有純解碼器架構的語言模型,包含約10 億個參數。具體來說,該研究將 TinyLlama 與 OPT-1.3B、Pythia-1.0B 和 Pythia-1.4B 進行了比較。

TinyLlama 在常識推理任務上的表現如下所示,可以看出 TinyLlama 在許多任務上都優於基線,並獲得了最高的平均分數。

小而強大的模型盛火:TinyLlama和LiteLlama成為熱門選擇

此外,研究者在預訓練期間追蹤了TinyLlama 在常識推理基準上的準確率,如圖2 所示,TinyLlama 的性能隨著計算資源的增加而提高,在大多數基準中超過了Pythia-1.4B 的準確率。

小而強大的模型盛火:TinyLlama和LiteLlama成為熱門選擇

表 3 表明,與現有模型相比,TinyLlama 表現出了更好的問題解決能力。

小而強大的模型盛火:TinyLlama和LiteLlama成為熱門選擇

手快的網友已經開始整活了:運行效果出奇得好,在GTX3060 上運行,能以136 tok / 秒的速度運行。

小而強大的模型盛火:TinyLlama和LiteLlama成為熱門選擇

「確實是快!」

小而強大的模型盛火:TinyLlama和LiteLlama成為熱門選擇


小模型LiteLlama

由於TinyLlama 的發布,SLM(小型語言模型)開始引起廣泛關注。德州工農大學的 Xiaotian Han 發布了 SLM-LiteLlama。它有 460M 參數,由 1T token 進行訓練。這是 Meta AI 的 LLaMa 2 的開源複刻版本,但模型規模顯著縮小。

小而強大的模型盛火:TinyLlama和LiteLlama成為熱門選擇

專案位址:https://huggingface.co/ahxt/LiteLlama-460M-1T

#LiteLlama-460M-1T 在RedPajama 資料集上進行訓練,並使用GPT2Tokenizer 對文字進行token 化。作者在 MMLU 任務上對此模型進行評估,結果如下圖所示,在參數量大幅減少的情況下,LiteLlama-460M-1T 仍能取得與其他模型相媲美或更好的成績。

小而強大的模型盛火:TinyLlama和LiteLlama成為熱門選擇

以下為該模型的效能表現,更詳細內容請參閱:

https://www.php.cn/link/05ec1d748d9e3bbc975a057f7cd02fb6

小而強大的模型盛火:TinyLlama和LiteLlama成為熱門選擇

面對規模大幅縮小的LiteLlama,有網友好奇,它是否能夠在4GB 的記憶體上運作。如果你也想知道,不如親自試試看。

小而強大的模型盛火:TinyLlama和LiteLlama成為熱門選擇


#

以上是小而強大的模型盛火:TinyLlama和LiteLlama成為熱門選擇的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
如何使用LM Studio在本地運行LLM? - 分析Vidhya如何使用LM Studio在本地運行LLM? - 分析VidhyaApr 19, 2025 am 11:38 AM

輕鬆在家運行大型語言模型:LM Studio 使用指南 近年來,軟件和硬件的進步使得在個人電腦上運行大型語言模型 (LLM) 成為可能。 LM Studio 就是一個讓這一過程變得輕鬆便捷的優秀工具。本文將深入探討如何使用 LM Studio 在本地運行 LLM,涵蓋關鍵步驟、潛在挑戰以及在本地擁有 LLM 的優勢。無論您是技術愛好者還是對最新 AI 技術感到好奇,本指南都將提供寶貴的見解和實用技巧。讓我們開始吧! 概述 了解在本地運行 LLM 的基本要求。 在您的電腦上設置 LM Studi

蓋伊·佩里(Guy Peri)通過數據轉換幫助麥考密克的未來蓋伊·佩里(Guy Peri)通過數據轉換幫助麥考密克的未來Apr 19, 2025 am 11:35 AM

蓋伊·佩里(Guy Peri)是麥考密克(McCormick)的首席信息和數字官。儘管他的角色僅七個月,但Peri正在迅速促進公司數字能力的全面轉變。他的職業生涯專注於數據和分析信息

迅速工程中的情感鍊是什麼? - 分析Vidhya迅速工程中的情感鍊是什麼? - 分析VidhyaApr 19, 2025 am 11:33 AM

介紹 人工智能(AI)不僅要理解單詞,而且要理解情感,從而以人的觸感做出反應。 這種複雜的互動對於AI和自然語言處理的快速前進的領域至關重要。 Th

12個最佳數據科學工作流程的AI工具-Analytics Vidhya12個最佳數據科學工作流程的AI工具-Analytics VidhyaApr 19, 2025 am 11:31 AM

介紹 在當今以數據為中心的世界中,利用先進的AI技術對於尋求競爭優勢和提高效率的企業至關重要。 一系列強大的工具使數據科學家,分析師和開發人員都能構建,Depl

AV字節:OpenAI的GPT-4O Mini和其他AI創新AV字節:OpenAI的GPT-4O Mini和其他AI創新Apr 19, 2025 am 11:30 AM

本週的AI景觀爆炸了,來自Openai,Mistral AI,Nvidia,Deepseek和Hugging Face等行業巨頭的開創性發行。 這些新型號有望提高功率,負擔能力和可訪問性,這在TR的進步中推動了

報告發現,困惑的Android應用程序有安全缺陷。報告發現,困惑的Android應用程序有安全缺陷。Apr 19, 2025 am 11:24 AM

但是,該公司的Android應用不僅提供搜索功能,而且還充當AI助手,並充滿了許多安全問題,可以將其用戶暴露於數據盜用,帳戶收購和惡意攻擊中

每個人都擅長使用AI:關於氛圍編碼的想法每個人都擅長使用AI:關於氛圍編碼的想法Apr 19, 2025 am 11:17 AM

您可以查看會議和貿易展覽中正在發生的事情。您可以詢問工程師在做什麼,或諮詢首席執行官。 您看的任何地方,事情都以驚人的速度發生變化。 工程師和非工程師 有什麼區別

火箭發射模擬和分析使用Rocketpy -Analytics Vidhya火箭發射模擬和分析使用Rocketpy -Analytics VidhyaApr 19, 2025 am 11:12 AM

模擬火箭發射的火箭發射:綜合指南 本文指導您使用強大的Python庫Rocketpy模擬高功率火箭發射。 我們將介紹從定義火箭組件到分析模擬的所有內容

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱工具

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。