Heim >Technologie-Peripheriegeräte >KI >Salesforce XGEN-7B: Ein Schritt-für-Schritt-Tutorial zur Verwendung und Feinabstimmung xgen-7b

Salesforce XGEN-7B: Ein Schritt-für-Schritt-Tutorial zur Verwendung und Feinabstimmung xgen-7b

William ShakespeareOriginal: 2025-03-08 11:44:09134Durchsuche

Salesforce's XGEN-7B: Eine leistungsstarke, kompakte Open-Source-LLM mit 8K-Kontextlänge

Mehrere führende Open-Source-Großsprachmodelle (LLMs) leiden unter einer erheblichen Einschränkung: kurze Kontextfenster, die typischerweise auf 2048-Token begrenzt sind. Dies steht im scharfen Kontrast zu proprietären Modellen wie GPT-3,5 und GPT-4 mit Kontextlängen von bis zu 32.000 Token. Diese Einschränkung wirkt sich stark auf die Leistung auf Aufgaben aus, die ein umfangreiches kontextbezogenes Verständnis erfordern, wie z. B. Zusammenfassung, Übersetzung und Codegenerierung.

Geben Sie das XGen-7b von Salesforce ein. Dieses Modell befasst sich direkt mit dem Kontextlänge-Engpass und bietet ein beeindruckendes Kontextfenster von 8.000, mehr als vergleichbare Open-Source-Alternativen. In diesem Artikel werden die wichtigsten Funktionen, die Verwendung und die Feinabstimmung von XGEN-7B in einem Beispieldatensatz untersucht.

Warum Xgen-7b?

wählen Die Vorteile von

xgen-7b gehen über die erweiterte Kontextlänge hinaus. Die wichtigsten Funktionen umfassen:

Außergewöhnliche Effizienz: Trotz seiner relativ bescheidenen 7-Milliarden-Parameter liefert XGen-7b die Leistungserbringung oder übertrifft viel größere Modelle. Diese Effizienz ermöglicht die Bereitstellung auf hochwertigen lokalen Maschinen, wodurch die Notwendigkeit umfangreicher Cloud-Computing-Ressourcen beseitigt wird. Dies macht es für ein breiteres Spektrum von Nutzern, von einzelnen Forschern bis zu kleinen Unternehmen, zugänglich.

Vielseitige Modellvarianten: Salesforce bietet drei XGen-7b

xgen-7b-4K-Base: Ein 4.000-geöschtes Modell, das für Aufgaben geeignet ist, die einen mäßigen Kontext benötigen. Lizenziert unter der Apache 2.0 -Lizenz.
xgen-7b-8K-Basis: Das 8.000-gequetschte Modell des Flaggschiffs, ideal für komplexe Aufgaben, die eine umfangreiche Kontextanalyse benötigen. Auch unter Apache 2.0 lizenziert.
xgen-7b- {4k, 8K} -inst: Feinabstimmig für interaktive und anlehende Anwendungen (nicht kommerzielle Verwendung). Perfekt für Bildungsinstrumente und Chatbots.

Überlegene Benchmark-Leistung: xgen-7b übertrifft konsequent ähnlich große Modelle für verschiedene Benchmarks, einschließlich MMLU und Humaneval. In der offiziellen Ankündigung finden Sie detaillierte Benchmark -Ergebnisse.

optimiert für lange Sequenzen: Die Architektur von xgen-7b ist speziell für Langzeitaufgaben optimiert. Dies ist entscheidend für Anwendungen wie detaillierte Zusammenfassung der Dokumente und umfassende Fragen, bei denen das Verständnis der gesamten Eingabe für genaue und kohärente Ausgänge von wesentlicher Bedeutung ist.

Salesforce XGen-7b Trainingsmethodik

xgen-7bs beeindruckende Fähigkeiten beruhen aus seinem ausgeklügelten Trainingsprozess:

Stufe 1: Training auf 1,37 Billionen Token gemischten natürlichen Sprachen- und Codedaten.
Stufe 2: Weiteres Training auf 55 Milliarden Token von Codedaten zur Verbesserung der Funktionen der Codegenerierung.

Die JAXFORMER-Bibliothek von Salesforce nutzte die Schulung von Salesforce, die für eine effiziente LLM-Schulung auf TPU-V4-Hardware ausgelegt ist.

Einrichten und Ausführen von XGen-7b

Ausführen von XGen-7b lokal benötigt eine leistungsstarke Maschine (32 GB RAM, High-End-GPU). Alternativ bieten Dienste wie Google Colab Pro ausreichende Ressourcen.

Installation:

Installieren Sie nach der Einrichtung Ihrer Umgebung die erforderlichen Bibliotheken:

pip install torch torchvision torchaudio transformers[torch] accelerate peft bitsandbytes trl datasets --upgrade

Erstanfänger:

Dieser Code-Snippet zeigt einen Basisauslauf mit dem 8K-Token-Modell:

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("Salesforce/xgen-7b-8k-base", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("Salesforce/xgen-7b-8k-base", torch_dtype=torch.bfloat16)

inputs = tokenizer("DataCamp is one he ...", return_tensors="pt")
sample = model.generate(**inputs, max_length=128)

print(tokenizer.decode(sample[0]))

Feinabstimmung xgen-7b

Feinabstimmung XGEN-7B beinhaltet mehrere Schritte (detaillierte Anweisungen werden für die Kürze weggelassen, der Originaltext bietet jedoch eine umfassende Anleitung):

Installation (bereits oben abgedeckt).
importieren die notwendigen Module (aus datasets, transformers, peft, trl).
Konfigurationen für Basis- und fein abgestimmte Modelle definieren.
Laden Sie den Datensatz (z. B. Guanaco llama2 -Datensatz).
Quantisierungsparameter mit BitsAndBytesConfig.
Laden Sie das Modell und den Tokenizer.
PEFT -Parameter mit LoraConfig.
Trainingsargumente mit TrainingArguments.
fein das Modell mit SFTTrainer.
Bewerten Sie das fein abgestimmte Modell.
Speichern Sie das fein abgestimmte Modell und Tokenizer.

Schlussfolgerung

Wenn Sie die Verwendung von XGen-7b an bestimmte Aufgaben unkompliziert zu verwenden, müssen Datensätze und Rechenressourcen sorgfältig berücksichtigt werden. Der oben beschriebene Feinabstimmungsprozess bietet ein robustes Rahmen für die Anpassung dieses leistungsstarken LLM auf Ihre spezifischen Anforderungen. Denken Sie daran, die bereitgestellten Links zu konsultieren, um detailliertere Erklärungen und Ressourcen zu LLMs und Feinabstimmungstechniken zu erhalten.

Das obige ist der detaillierte Inhalt vonSalesforce XGEN-7B: Ein Schritt-für-Schritt-Tutorial zur Verwendung und Feinabstimmung xgen-7b. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

define for while include Token using Length this input windows apache gpt

Stellungnahme：

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Vorheriger Artikel：OpenAIs Operator - Chatgpt wie Moment für KI -AgentenNächster Artikel：OpenAIs Operator - Chatgpt wie Moment für KI -Agenten

In Verbindung stehende Artikel

Mehr sehen