首頁 >科技週邊 >人工智慧 >訓練個中文版ChatGPT沒那麼難：不用A100，開源Alpaca-LoRA+RTX 4090就能搞定

訓練個中文版ChatGPT沒那麼難：不用A100，開源Alpaca-LoRA+RTX 4090就能搞定

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB轉載: 2023-04-16 23:43:011972瀏覽

2023 年，聊天機器人領域似乎只剩下兩個陣營：「OpenAI 的 ChatGPT」和「其他」。

ChatGPT 功能強大，但 OpenAI 幾乎不可能將其開源。「其他」陣營表現欠佳，但不少人都在做開源的努力，例如前段時間 Meta 開源的 LLaMA。

LLaMA 是一系列模型的總稱，參數量從70 億到650 億不等，其中，130 億參數的LLaMA 模型「在大多數基準上」可以勝過參數量達1750 億的GPT-3。不過，模型並沒有經過指令微調（instruct tuning），因此產生效果較差。

為了提高模型性能，來自史丹佛的研究者幫助其完成了指令微調的工作，訓練了一個名為 Alpaca（羊駝）的70 億參數新模型（基於LLaMA 7B）。具體來說，他們讓 OpenAI 的 text-davinci-003 模型以 self-instruct 方式產生 52K 指令遵循（instruction-following）樣本，以此作為 Alpaca 的訓練資料。實驗結果表明，Alpaca 的許多行為都與 text-davinci-003 類似。也就是說，只有 7B 參數的輕量級模型 Alpaca 效能可媲美 GPT-3.5 這樣的超大規模語言模型。

訓練個中文版ChatGPT沒那麼難：不用A100，開源Alpaca-LoRA+RTX 4090就能搞定

對於一般研究者來說，這是一種切實可行的廉價微調方式，不過所需的運算量仍然較大（作者表示他們在8 個80GB A100 上微調了3 個小時）。而且，Alpaca 的種子任務都是英語，收集的資料也都是英文，因此訓練出來的模型未對中文優化。

為了進一步降低微調成本，另一位來自史丹佛的研究者 ——Eric J. Wang 使用 LoRA（low-rank adaptation）技術復現了 Alpaca 的結果。具體來說，Eric J. Wang 使用一張 RTX 4090 顯示卡，只用 5 個小時就訓練了一個和 Alpaca 水平相當的模型，將這類模型對算力的需求降到了消費級。而且，該模型可以在樹莓派上運行（用於研究）。

訓練個中文版ChatGPT沒那麼難：不用A100，開源Alpaca-LoRA+RTX 4090就能搞定

LoRA 的技術原理。 LoRA 的想法是在原始 PLM 旁邊增加一個旁路，做一個降維再升維的操作，來模擬所謂的 intrinsic rank。訓練的時候固定 PLM 的參數，只訓練降維矩陣 A 與升維矩陣 B。而模型的輸入輸出維度不變，輸出時將 BA 與 PLM 的參數疊加。以隨機高斯分佈初始化 A，以 0 矩陣初始化 B，確保訓練的開始此旁路矩陣仍是 0 矩陣（引自：https://finisky.github.io/lora/）。 LoRA 的最大優勢是速度更快，使用的記憶體更少，因此可以在消費級硬體上運行。

訓練個中文版ChatGPT沒那麼難：不用A100，開源Alpaca-LoRA+RTX 4090就能搞定

Eric J. Wang 發布的 Alpaca-LoRA 專案。

專案地址：https://github.com/tloen/alpaca-lora

對於想要訓練自己的類ChatGPT 模型（包括中文版類ChatGPT）但又沒有頂級算力資源配置的研究者來說，這無疑是一大驚喜。因此，在 Alpaca-LoRA 計畫問世後，圍繞著該計畫的教學和訓練成果不斷湧現，本文將介紹其中的幾個。

如何使用Alpaca-LoRA 微調LLaMA

#在Alpaca-LoRA 專案中，作者提到，為了廉價高效地進行微調，他們使用了Hugging Face 的PEFT 。 PEFT 是一個函式庫（LoRA 是其支援的技術之一），可以讓你使用各種基於 Transformer 的語言模型並使用 LoRA 對其進行微調。好處在於，它允許你在一般的硬體上廉價而有效地微調模型，並有較小的（也許是可組合的）輸出。

在近期的一篇部落格中，幾位研究者介紹如何使用 Alpaca-LoRA 來微調 LLaMA。

使用 Alpaca-LoRA 之前，需要具備一些先決條件。首先是 GPU 的選擇，由於 LoRA，現在你可以在 NVIDIA T4 這樣低規格 GPU 或 4090 消費級 GPU 上完成微調；此外，你還需要申請 LLaMA 權重，因為其權重並不對外公開。

先決條件具備了，接下來就是如何使用 Alpaca-LoRA。首選你需要複製 Alpaca-LoRA 儲存庫，程式碼如下：

git clone https://github.com/daanelson/alpaca-lora
cd alpaca-lora

#其次，取得 LLaMA 權重。將下載到的權重值儲存到名為unconverted-weights 資料夾裡，資料夾層次結構就像下面這樣：

unconverted-weights
├── 7B
│ ├── checklist.chk
│ ├── consolidated.00.pth
│ └── params.json
├── tokenizer.model
└── tokenizer_checklist.chk

權重儲存好後，接著使用下列指令將PyTorch checkpoint 的權重轉換為transformer 相容的格式：

cog run python -m transformers.models.llama.convert_llama_weights_to_hf 
--input_dir unconverted-weights 
--model_size 7B 
--output_dir weights

#得到最終的目錄結構應該是這樣的：

weights
├── llama-7b
└── tokenizermdki

#處理好上述兩步，來到第三步，安裝Cog：

sudo curl -o /usr/local/bin/cog -L "https://github.com/replicate/cog/releases/latest/download/cog_$(uname -s)_$(uname -m)"
sudo chmod +x /usr/local/bin/cog

第四步來到微調模型，預設情況下，微調腳本上配置的GPU 功能較弱，但如果你有效能較好的GPU，則可以在finetune.py 中將MICRO_BATCH_SIZE 增加到32 或64。此外，如果你有指令調優資料集，則可以在 finetune.py 中編輯 DATA_PATH 以指向自己的資料集。需要注意的是這項操作應該確保資料格式與 alpaca_data_cleaned.json 相同。接下來執行微調腳本：

cog run python finetune.py

微調過程在 40GB A100 GPU 上花費 3.5 小時，對於處理能力較低的 GPU 則需要更多時間。

最後一步用Cog 運行模型：

$ cog predict -i prompt="Tell me something about alpacas."
Alpacas are domesticated animals from South America. They are closely related to llamas and guanacos and have a long, dense, woolly fleece that is used to make textiles. They are herd animals and live in small groups in the Andes mountains. They have a wide variety of sounds, including whistles, snorts, and barks. They are intelligent and social animals and can be trained to perform certain tasks.

教學作者表示，完成上述步驟之後，大家可以繼續嘗試各種玩法，包含但不限於：

帶上自己的資料集，微調自己的LoRA，例如微調LLaMA，讓它像動漫角色一樣說話。請參閱：https://replicate.com/blog/fine-tune-llama-to-speak-like-homer-simpson
將模型部署到雲端平台上；
結合其他LoRA，例如Stable Diffusion LoRA，把這些都用到影像領域；
使用Alpaca 資料集（或其他資料集）微調更大的LLaMA 模型，並查看它們的表現。這應該可以透過 PEFT 和 LoRA 實現，儘管它需要更大的 GPU。

Alpaca-LoRA 的衍生項目

#儘管Alpaca 表現可以媲美GPT 3.5，但其種子任務都是英語，收集的數據也都是英文，因此訓練出來的模型對中文並不友善。為了提升對話模型在中文的效果，我們來看看有哪些比較好的項目。

首先是來自華中師範大學等機構的三位個人開發者開源的中文語言模型駱駝(Luotuo)，該項目基於LLaMA、Stanford Alpaca、Alpaca LoRA、Japanese-Alpaca -LoRA 等完成，單卡就能完成訓練部署。有趣的是，他們之所以將模型名字命名為駱駝，是因為 LLaMA（大羊駝）和 alpaca（羊駝）都屬於偶蹄目 - 駱駝科。這樣看來，取這個名字也在意料之中。

這個模型是在 Meta 開源的 LLaMA 基礎上，參考 Alpaca 和 Alpaca-LoRA 兩個項目，對中文進行了訓練。

訓練個中文版ChatGPT沒那麼難：不用A100，開源Alpaca-LoRA+RTX 4090就能搞定