ホームページ >テクノロジー周辺機器 >AI >Salesforce xgen-7b:xgen-7bの使用と微調整に関する段階的なチュートリアル
SalesforceのXGEN-7B:8Kコンテキストの長さを備えた強力でコンパクトなオープンソースLLM
いくつかの主要なオープンソースの大型言語モデル(LLMS)は、重要な制限に悩まされています。通常、2048トークンでキャップされた短いコンテキストウィンドウです。 これは、GPT-3.5やGPT-4などの独自のモデルとは対照的であり、最大32,000トークンのコンテキストの長さを誇っています。 この制約は、要約、翻訳、コード生成など、広範なコンテキストの理解を要求するタスクのパフォーマンスに大きな影響を与えます。
salesforceのxgen-7bを入力します。このモデルは、コンテキストの長さのボトルネックに真正面から取り組み、印象的な8,000トークンのコンテキストウィンドウを提供します。これは、同等のオープンソースの代替品よりも4倍です。この記事では、サンプルデータセットでXGEN-7Bの主要な機能、使用、および微調整を説明します。なぜxgen-7b?
を選択するのかXGEN-7Bの利点は、拡張されたコンテキストの長さを超えて拡張されます。 その主な機能には、次のものが含まれます
例外的な効率:
比較的控えめな70億パラメーターにもかかわらず、XGEN-7Bは、はるかに大きなモデルに匹敵するか、それを上回るパフォーマンスを提供します。この効率により、ハイエンドのローカルマシンへの展開が可能になり、広範なクラウドコンピューティングリソースが必要になります。 これにより、個々の研究者から中小企業まで、より幅広いユーザーがアクセスできるようになります。汎用モデルバリアント:Salesforceは、多様なニーズに応えるために3つのXGEN-7Bバリアントを提供します:
xgen-7b-4k-base:
中程度のコンテキストを必要とするタスクに適した4,000トークンモデル。 Apache 2.0ライセンスに基づいてライセンス。長いシーケンス用に最適化:XGEN-7Bのアーキテクチャは、長いシーケンスタスクに特に最適化されています。これは、入力全体を理解することが正確でコヒーレントな出力に不可欠である場合、詳細なドキュメントの要約や包括的な質問回答などのアプリケーションにとって重要です。 salesforce xgen-7bトレーニング方法
XGEN-7Bの印象的な機能は、洗練されたトレーニングプロセスに由来しています: XGEN-7Bの実行には、ローカルに強力なマシン(32GB RAM、ハイエンドGPU)が必要です。 あるいは、Google Colab Proのようなサービスは十分なリソースを提供しています
インストール:
微調整XGEN-7B
インストール(上記で既にカバーされています)
必要なモジュールをインポートします(
のセットアップと実行
TPU-V4ハードウェアでの効率的なLLMトレーニング用に設計されたトレーニングレバレッジセールスフォースのJaxFormerライブラリ。
pip install torch torchvision torchaudio transformers[torch] accelerate peft bitsandbytes trl datasets --upgrade
このコードスニペットは、8Kトークンモデルを使用した基本的な実行を示しています。
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("Salesforce/xgen-7b-8k-base", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("Salesforce/xgen-7b-8k-base", torch_dtype=torch.bfloat16)
inputs = tokenizer("DataCamp is one he ...", return_tensors="pt")
sample = model.generate(**inputs, max_length=128)
print(tokenizer.decode(sample[0]))
、
datasets
データセット(例:Guanaco llama2 Dataset)をロードします
transformers
peft
trl
BitsAndBytesConfig
微調整されたモデルを評価します
以上がSalesforce xgen-7b:xgen-7bの使用と微調整に関する段階的なチュートリアルの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。