Heim >Technologie-Peripheriegeräte >KI >Feinabstimmung Gemma 2 und lokal benutzen

Feinabstimmung Gemma 2 und lokal benutzen

Jennifer AnistonOriginal: 2025-03-05 10:01:10417Durchsuche

Dieses Tutorial zeigt das GEMMA 2-Modell von Google auf einem Gesprächsdatensatz von Patient-Doctor-Konversation und Bereitstellung von Offline-Gebrauch. Wir werden die Modellvorbereitung, Feinabstimmung mit LORA, Modellverarbeitung, Quantisierung und lokaler Bereitstellung mit der Jan-Anwendung abdecken.

Fine-Tuning Gemma 2 and Using it Locally

Gemma 2

verstehen

Gemma 2, Googles neuestes Open-Source-Großsprachmodell (LLM) von Google, bietet 9B- und 27B-Parameterversionen im Rahmen einer zulässigen Lizenz. Die verbesserte Architektur bietet eine schnellere Schlussfolgerung in verschiedenen Hardware und integriert nahtlos in umarmende Gesichtstransformatoren, Jax, Pytorch und TensorFlow. Verbesserte Sicherheitsmerkmale und ethische KI -Bereitstellungswerkzeuge sind ebenfalls enthalten.

Fine-Tuning Gemma 2 and Using it Locally

Zugriff auf und läuft Gemma 2

In diesem Abschnitt wird das Herunterladen und Ausführen von Inferenz mit 4-Bit-Quantisierung (für die Speichereffizienz für Verbraucherhardware erforderlich).

erforderlich.

Pakete installieren: bitsandbytes installieren transformers, accelerate und
.
Umarmung der Gesichtsauthentifizierung:
Verwenden Sie ein umarmendes Gesichts -Token (erhalten von Ihrem Umarmungs -Gesicht -Konto), um sich zu authentifizieren.
Lastmodell und Tokenizer: google/gemma-2-9b-it Laden Sie das
-Modell mit 4-Bit-Quantisierung und geeignetem Gerätezuordnung.
Inferenz:
Erstellen Sie eine Eingabeaufforderung, tokenisieren Sie sie, generieren Sie eine Antwort und dekodieren Sie sie.

Fine-Tuning Gemma 2 and Using it Locally

Fine-Tuning Gemma 2 and Using it Locally

Feinabstimmungs Gemma 2 mit Lora

Dieser Abschnitt führt Sie durch Feinabstimmung Gemma 2 in einem Gesundheitsdatensatz mit LORA (Anpassung mit niedriger Rang) für ein effizientes Training.

Setup: transformers Installieren Sie die erforderlichen Pakete (datasets, accelerate, peft, trl, bitsandbytes, wandb,
). Authentifizieren mit umarmtem Gesicht und Gewichten und Vorurteilen.
Modell- und Tokenizer-Laden:
Last Gemma 2 (9B-IT) mit 4-Bit-Quantisierung, Anpassung der Datentyp und der Aufmerksamkeitsimplementierung basierend auf Ihren GPU-Funktionen. Konfigurieren Sie die LORA -Parameter.
Datensatz Laden: lavita/ChatDoctor-HealthCareMagic-100k Laden und Vorbereitung des Datensatzes
und erstellen Sie ein für das Modell geeignetes Chat -Format.
Training: Trainingsargumente festlegen (passen Sie die Hyperparameter nach Bedarf an) und trainieren Sie das Modell mithilfe des SFTTrainer. Überwachen Sie den Trainingsfortschritt mit Gewichten und Vorurteilen.

Fine-Tuning Gemma 2 and Using it Locally

Fine-Tuning Gemma 2 and Using it Locally

Bewertung: Beenden Sie die Gewichte und Verzerrungen, um einen Bewertungsbericht zu erstellen.
Speichern des Modells: Speichern Sie den feinen Lora-Adapter lokal und drücken

Fine-Tuning Gemma 2 and Using it Locally

Zusammenführen des Adapter- und Basismodells

Dieser Schritt verschmilzt den fein abgestimmten Lora-Adapter mit dem Basis-Gemma 2-Modell für ein einzelnes, bereitgestelltes Modell. Dies erfolgt auf einer CPU, um Speicherbeschränkungen zu verwalten.

Setup: Erstellen Sie ein neues Notizbuch (CPU-basiert), installieren Sie die erforderlichen Pakete und authentifizieren Sie sich mit Umarmungsgesicht.
Laden und Zusammenführen: Laden Sie das Basismodell und den gespeicherten Adapter und verschmelzen Sie sie dann mit . PeftModel.merge_and_unload()
Speichern und drücken: Speichern Sie das fusionierte Modell und Tokenizer lokal und drücken Sie sie in den umarmenden Gesichtszentrum.

Fine-Tuning Gemma 2 and Using it Locally

mit dem Umarmungsraum quantisieren

Verwenden Sie den GGUF My Repo -Umarmungsraum, um das Modell für eine optimale lokale Bereitstellung einfach in das GGUF -Format zu konvertieren und zu quantisieren.

Fine-Tuning Gemma 2 and Using it Locally

Verwenden Sie das fein abgestimmte Modell lokal mit Jan

Laden und installieren Sie die Jan -Anwendung.
Laden Sie das quantisierte Modell aus dem umarmenden Gesichtszentrum herunter.
Laden Sie das Modell im Jan, passen Sie die Parameter (Stoppsequenzen, Strafen, Max-Token, Anweisungen) an und interagieren Sie mit dem feinstimmigen Modell.

Fine-Tuning Gemma 2 and Using it Locally

Schlussfolgerung

Dieses Tutorial bietet einen umfassenden Leitfaden zur Feinabstimmung und Bereitstellung von Gemma. 2. Denken Sie daran, Hyperparameter und Einstellungen basierend auf Ihrer Hardware und Ihrem Datensatz anzupassen. Erwägen Sie, Keras 3 für möglicherweise schnelleres Training und Inferenz zu untersuchen.

Das obige ist der detaillierte Inhalt vonFeinabstimmung Gemma 2 und lokal benutzen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

for format Token using this tensorflow keras pytorch prompt Healthcare Prompt

Stellungnahme：

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Vorheriger Artikel：Ist O3-Mini für die Bildanalyse besser als O1?Nächster Artikel：Ist O3-Mini für die Bildanalyse besser als O1?

In Verbindung stehende Artikel

Mehr sehen