Heim >Technologie-Peripheriegeräte >KI >Feinabstimmung Gemma 2 und lokal benutzen
Dieses Tutorial zeigt das GEMMA 2-Modell von Google auf einem Gesprächsdatensatz von Patient-Doctor-Konversation und Bereitstellung von Offline-Gebrauch. Wir werden die Modellvorbereitung, Feinabstimmung mit LORA, Modellverarbeitung, Quantisierung und lokaler Bereitstellung mit der Jan-Anwendung abdecken.
Gemma 2
verstehenGemma 2, Googles neuestes Open-Source-Großsprachmodell (LLM) von Google, bietet 9B- und 27B-Parameterversionen im Rahmen einer zulässigen Lizenz. Die verbesserte Architektur bietet eine schnellere Schlussfolgerung in verschiedenen Hardware und integriert nahtlos in umarmende Gesichtstransformatoren, Jax, Pytorch und TensorFlow. Verbesserte Sicherheitsmerkmale und ethische KI -Bereitstellungswerkzeuge sind ebenfalls enthalten.
Zugriff auf und läuft Gemma 2
In diesem Abschnitt wird das Herunterladen und Ausführen von Inferenz mit 4-Bit-Quantisierung (für die Speichereffizienz für Verbraucherhardware erforderlich).
erforderlich.
Pakete installieren: bitsandbytes
installieren transformers
, accelerate
und
Umarmung der Gesichtsauthentifizierung:
Verwenden Sie ein umarmendes Gesichts -Token (erhalten von Ihrem Umarmungs -Gesicht -Konto), um sich zu authentifizieren.
Lastmodell und Tokenizer: google/gemma-2-9b-it
Laden Sie das
Inferenz:
Erstellen Sie eine Eingabeaufforderung, tokenisieren Sie sie, generieren Sie eine Antwort und dekodieren Sie sie.
Feinabstimmungs Gemma 2 mit Lora
Dieser Abschnitt führt Sie durch Feinabstimmung Gemma 2 in einem Gesundheitsdatensatz mit LORA (Anpassung mit niedriger Rang) für ein effizientes Training.
Setup: transformers
Installieren Sie die erforderlichen Pakete (datasets
, accelerate
, peft
, trl
, bitsandbytes
, wandb
,
Modell- und Tokenizer-Laden:
Last Gemma 2 (9B-IT) mit 4-Bit-Quantisierung, Anpassung der Datentyp und der Aufmerksamkeitsimplementierung basierend auf Ihren GPU-Funktionen. Konfigurieren Sie die LORA -Parameter.
Datensatz Laden: lavita/ChatDoctor-HealthCareMagic-100k
Laden und Vorbereitung des Datensatzes
Training: Trainingsargumente festlegen (passen Sie die Hyperparameter nach Bedarf an) und trainieren Sie das Modell mithilfe des SFTTrainer
. Überwachen Sie den Trainingsfortschritt mit Gewichten und Vorurteilen.
Bewertung: Beenden Sie die Gewichte und Verzerrungen, um einen Bewertungsbericht zu erstellen.
Speichern des Modells: Speichern Sie den feinen Lora-Adapter lokal und drücken
Zusammenführen des Adapter- und Basismodells
Dieser Schritt verschmilzt den fein abgestimmten Lora-Adapter mit dem Basis-Gemma 2-Modell für ein einzelnes, bereitgestelltes Modell. Dies erfolgt auf einer CPU, um Speicherbeschränkungen zu verwalten.
Setup: Erstellen Sie ein neues Notizbuch (CPU-basiert), installieren Sie die erforderlichen Pakete und authentifizieren Sie sich mit Umarmungsgesicht.
Laden und Zusammenführen: Laden Sie das Basismodell und den gespeicherten Adapter und verschmelzen Sie sie dann mit . PeftModel.merge_and_unload()
Speichern und drücken: Speichern Sie das fusionierte Modell und Tokenizer lokal und drücken Sie sie in den umarmenden Gesichtszentrum.
mit dem Umarmungsraum quantisieren
Verwenden Sie den GGUF My Repo -Umarmungsraum, um das Modell für eine optimale lokale Bereitstellung einfach in das GGUF -Format zu konvertieren und zu quantisieren.
Verwenden Sie das fein abgestimmte Modell lokal mit Jan
Schlussfolgerung
Dieses Tutorial bietet einen umfassenden Leitfaden zur Feinabstimmung und Bereitstellung von Gemma. 2. Denken Sie daran, Hyperparameter und Einstellungen basierend auf Ihrer Hardware und Ihrem Datensatz anzupassen. Erwägen Sie, Keras 3 für möglicherweise schnelleres Training und Inferenz zu untersuchen.Das obige ist der detaillierte Inhalt vonFeinabstimmung Gemma 2 und lokal benutzen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!