Heim >Backend-Entwicklung >Python-Tutorial >Welche Möglichkeiten gibt es, LLM lokal mit vorab trainierten Gewichten auszuführen?
Ich habe einen Cluster, der nicht mit dem Internet verbunden ist, obwohl ein Gewichtsspeicher verfügbar ist. Ich muss eine LLM-Inferenz darauf ausführen.
Die einzige Option, die ich bisher gefunden habe, ist die Verwendung von transformers
和 langchain
模块的组合,但我不想调整模型的超参数。我遇到了 ollama
Software, aber ich kann außer der Python-Bibliothek nichts auf dem Cluster installieren. Daher habe ich mich natürlich gefragt: Welche Möglichkeiten gibt es für die Ausführung der LLM-Inferenz? Es gibt noch einige Fragen.
ollama-python
Pakete installieren, ohne deren Linux-Software zu installieren? Oder brauche ich beides, um meine Überlegungen anzustellen? ollama
,如何为模型提供预训练权重?如果有帮助,它们存储在(有时多个).bin
in der Datei Sie müssen das ollama
。相反,您可以直接本地运行 llm,例如 mistral
Modell
llm = gpt4all( model="/home/jeff/.cache/huggingface/hub/gpt4all/mistral-7b-openorca.q4_0.gguf", device='gpu', n_threads=8, callbacks=callbacks, verbose=true)
oder für falcon
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline import torch model_id = "tiiuae/falcon-7b-instruct" tokenizer = AutoTokenizer.from_pretrained(model_id) pipeline = pipeline( "text-generation", model=model_id, tokenizer=tokenizer, torch_dtype=torch.bfloat16, # trust_remote_code=True, device_map="auto", max_new_tokens=100, # max_length=200, ) from langchain_community.llms.huggingface_pipeline import HuggingFacePipeline llm = HuggingFacePipeline(pipeline=pipeline)
Ich habe auf meinem Laptop eine 16-GB-Speichernvidia 4090 installiert, die die lokale Ausführung der beiden oben genannten Modelle unterstützt.
Das obige ist der detaillierte Inhalt vonWelche Möglichkeiten gibt es, LLM lokal mit vorab trainierten Gewichten auszuführen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!