Heim >Backend-Entwicklung >Python-Tutorial >Welche Möglichkeiten gibt es, LLM lokal mit vorab trainierten Gewichten auszuführen?

Welche Möglichkeiten gibt es, LLM lokal mit vorab trainierten Gewichten auszuführen?

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBnach vorne: 2024-02-22 12:34:09690Durchsuche

Frageninhalt

Ich habe einen Cluster, der nicht mit dem Internet verbunden ist, obwohl ein Gewichtsspeicher verfügbar ist. Ich muss eine LLM-Inferenz darauf ausführen.

Die einzige Option, die ich bisher gefunden habe, ist die Verwendung von transformers 和 langchain 模块的组合，但我不想调整模型的超参数。我遇到了 ollama Software, aber ich kann außer der Python-Bibliothek nichts auf dem Cluster installieren. Daher habe ich mich natürlich gefragt: Welche Möglichkeiten gibt es für die Ausführung der LLM-Inferenz? Es gibt noch einige Fragen.

Kann ich einfach ollama-python Pakete installieren, ohne deren Linux-Software zu installieren? Oder brauche ich beides, um meine Überlegungen anzustellen?
Wenn es mir gelingt, auf diesem Cluster ollama，如何为模型提供预训练权重？如果有帮助，它们存储在（有时多个）.bin in der Datei

Richtige Antwort

Sie müssen das ollama。相反，您可以直接本地运行 llm，例如 mistral Modell

eigentlich nicht installieren

llm = gpt4all(
    model="/home/jeff/.cache/huggingface/hub/gpt4all/mistral-7b-openorca.q4_0.gguf",
    device='gpu', n_threads=8,
    callbacks=callbacks, verbose=true)

oder für falcon

from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
import torch

model_id = "tiiuae/falcon-7b-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_id)
pipeline = pipeline(
    "text-generation",
    model=model_id,
    tokenizer=tokenizer,
    torch_dtype=torch.bfloat16,
    # trust_remote_code=True,
    device_map="auto",
    max_new_tokens=100,
    # max_length=200,
)


from langchain_community.llms.huggingface_pipeline import HuggingFacePipeline
llm = HuggingFacePipeline(pipeline=pipeline)

Ich habe auf meinem Laptop eine 16-GB-Speichernvidia 4090 installiert, die die lokale Ausführung der beiden oben genannten Modelle unterstützt.

Das obige ist der detaillierte Inhalt vonWelche Möglichkeiten gibt es, LLM lokal mit vorab trainierten Gewichten auszuführen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Python linux langchain

Stellungnahme：

Dieser Artikel ist reproduziert unter:stackoverflow.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Vorheriger Artikel：XML kann nicht mithilfe des Schemas validiert werden, funktioniert jedoch durch Lesen der geschriebenen DateiNächster Artikel：XML kann nicht mithilfe des Schemas validiert werden, funktioniert jedoch durch Lesen der geschriebenen Datei

In Verbindung stehende Artikel

Mehr sehen