Rumah  >  Artikel  >  pembangunan bahagian belakang  >  Apakah pilihan untuk menjalankan LLM secara tempatan menggunakan pemberat pra-latihan?

Apakah pilihan untuk menjalankan LLM secara tempatan menggunakan pemberat pra-latihan?

WBOY
WBOYke hadapan
2024-02-22 12:34:09601semak imbas

Apakah pilihan untuk menjalankan LLM secara tempatan menggunakan pemberat pra-latihan?

Kandungan soalan

Saya mempunyai kluster yang tidak disambungkan ke internet walaupun terdapat repositori berat yang tersedia. Saya perlu menjalankan inferens LLM padanya.

Satu-satunya pilihan yang saya temui setakat ini ialah menggunakan perisian transformerslangchain 模块的组合,但我不想调整模型的超参数。我遇到了 ollama, tetapi saya tidak boleh memasang apa-apa pada kluster, kecuali perpustakaan python. Jadi, secara semula jadi saya tertanya-tanya, apakah pilihan untuk menjalankan inferens LLM? Masih ada beberapa soalan.

  1. Bolehkah saya memasang ollama-python pakej tanpa memasang perisian Linux mereka? Atau adakah saya memerlukan kedua-duanya untuk menjalankan penaakulan saya?
  2. Jika saya berjaya memasang pada kluster ini ollama,如何为模型提供预训练权重?如果有帮助,它们存储在(有时多个).bin dalam fail

Jawapan betul


Anda sebenarnya tidak perlu memasang model ollama。相反,您可以直接本地运行 llm,例如 mistral

llm = gpt4all(
    model="/home/jeff/.cache/huggingface/hub/gpt4all/mistral-7b-openorca.q4_0.gguf",
    device='gpu', n_threads=8,
    callbacks=callbacks, verbose=true)

atau untuk falcon

from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
import torch

model_id = "tiiuae/falcon-7b-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_id)
pipeline = pipeline(
    "text-generation",
    model=model_id,
    tokenizer=tokenizer,
    torch_dtype=torch.bfloat16,
    # trust_remote_code=True,
    device_map="auto",
    max_new_tokens=100,
    # max_length=200,
)


from langchain_community.llms.huggingface_pipeline import HuggingFacePipeline
llm = HuggingFacePipeline(pipeline=pipeline)

Saya mempunyai memori 16g nvidia 4090 dipasang pada komputer riba saya, yang boleh menyokong 2 model di atas untuk dijalankan secara tempatan.

Atas ialah kandungan terperinci Apakah pilihan untuk menjalankan LLM secara tempatan menggunakan pemberat pra-latihan?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:stackoverflow.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam