Heim  >  Artikel  >  Backend-Entwicklung  >  Welche Möglichkeiten gibt es, LLM lokal mit vorab trainierten Gewichten auszuführen?

Welche Möglichkeiten gibt es, LLM lokal mit vorab trainierten Gewichten auszuführen?

WBOY
WBOYnach vorne
2024-02-22 12:34:09567Durchsuche

Welche Möglichkeiten gibt es, LLM lokal mit vorab trainierten Gewichten auszuführen?

Frageninhalt

Ich habe einen Cluster, der nicht mit dem Internet verbunden ist, obwohl ein Gewichtsspeicher verfügbar ist. Ich muss eine LLM-Inferenz darauf ausführen.

Die einzige Option, die ich bisher gefunden habe, ist die Verwendung von transformerslangchain 模块的组合,但我不想调整模型的超参数。我遇到了 ollama Software, aber ich kann außer der Python-Bibliothek nichts auf dem Cluster installieren. Daher habe ich mich natürlich gefragt: Welche Möglichkeiten gibt es für die Ausführung der LLM-Inferenz? Es gibt noch einige Fragen.

  1. Kann ich einfach ollama-python Pakete installieren, ohne deren Linux-Software zu installieren? Oder brauche ich beides, um meine Überlegungen anzustellen?
  2. Wenn es mir gelingt, auf diesem Cluster ollama,如何为模型提供预训练权重?如果有帮助,它们存储在(有时多个).bin in der Datei
  3. zu installieren

Richtige Antwort


Sie müssen das ollama。相反,您可以直接本地运行 llm,例如 mistral Modell

eigentlich nicht installieren
llm = gpt4all(
    model="/home/jeff/.cache/huggingface/hub/gpt4all/mistral-7b-openorca.q4_0.gguf",
    device='gpu', n_threads=8,
    callbacks=callbacks, verbose=true)

oder für falcon

from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
import torch

model_id = "tiiuae/falcon-7b-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_id)
pipeline = pipeline(
    "text-generation",
    model=model_id,
    tokenizer=tokenizer,
    torch_dtype=torch.bfloat16,
    # trust_remote_code=True,
    device_map="auto",
    max_new_tokens=100,
    # max_length=200,
)


from langchain_community.llms.huggingface_pipeline import HuggingFacePipeline
llm = HuggingFacePipeline(pipeline=pipeline)

Ich habe auf meinem Laptop eine 16-GB-Speichernvidia 4090 installiert, die die lokale Ausführung der beiden oben genannten Modelle unterstützt.

Das obige ist der detaillierte Inhalt vonWelche Möglichkeiten gibt es, LLM lokal mit vorab trainierten Gewichten auszuführen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:stackoverflow.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen