>백엔드 개발 >파이썬 튜토리얼 >로컬 LLM 실행 및 API 요청에 대한 빠르고 간단한 가이드

로컬 LLM 실행 및 API 요청에 대한 빠르고 간단한 가이드

DDD
DDD원래의
2024-11-22 08:55:15835검색

Quick and Dirty Guide to Running a Local LLM and Making API Requests

좋아요. 우리는 로컬 LLM(언어 모델)을 실행하고 API 요청을 하기 위한 빠르고 간단한 솔루션을 탐구할 것이기 때문에 긴장을 늦추지 마세요. 고급 상용 솔루션이 하는 것과 매우 유사합니다. 왜? 글쎄, 왜 안돼? 단 3분이면 대부분의 테스트에 대해 로컬로 실행되는 완벽하게 괜찮은 시스템을 갖출 수 있습니다. 그리고 다시 클라우드로 확장해야 할 필요성을 느끼면 다시 전환하는 것이 사실상 매우 쉽습니다.

다음은 우리가 따라야 할 문서입니다. 대부분 읽었다고 주장할 수 있습니다.

  • OpenAI API 문서

특히 다음과 같은 요청에 집중하겠습니다.

curl https://api.openai.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -d '{
     "model": "gpt-4o-mini",
     "messages": [{"role": "user", "content": "Say this is a test!"}],
     "temperature": 0.7
   }'

지금까지는 너무 좋았죠? 획기적인 것은 없습니다. 그런데 여기서부터 재미가 납니다...

LM 스튜디오에 들어가세요

로컬 LLM을 훨씬 쉽게 처리할 수 있게 해주는 LM Studio](https://lmstudio.ai/)라는 보석 같은 도구가 있습니다. 모델을 설치하고 실행하면 개발자라는 콘솔 아이콘이 있는 탭이 표시됩니다. 알아요, 처음에는 별로 흥미롭지 않을 것 같지만, 조금만 더 기다려 보세요. 점점 좋아지니까요. 이 탭에는 로컬 모델을 사용하는 방법을 정확하게 보여주는 편리한 CURL 예제가 함께 제공됩니다. 그리고, 모르시겠지만, 꽤 친숙해 보이네요!

curl http://localhost:1234/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama-3.1-8b-lexi-uncensored-v2",
    "messages": [
      { "role": "system", "content": "Always answer in rhymes. Today is Thursday" },
      { "role": "user", "content": "What day is it today?" }
    ],
    "temperature": 0.7,
    "max_tokens": -1,
    "stream": false
}'

꽤 낯익은 것 같죠? 이것은 우리가 방금 본 것의 로컬 버전입니다. 로컬 머신에서 실행된다는 점을 제외하면 OpenAI API 요청과 동일한 설정을 얻습니다. 게다가 "항상 운율로 대답하세요" 시스템 프롬프트처럼 약간의 감각도 있습니다. 시, 누구 있나요?

파이썬은 어떻습니까? 우리는 당신을 얻었다.

Python으로 작업하는 것을 선호한다면(실제로 그렇지 않은 사람이 있을까요?) Python의 요청 모듈을 사용하여 동일한 요청을 보내는 방법은 다음과 같습니다.

import requests
import json

url = "http://localhost:1234/v1/chat/completions"

headers = {
    "Content-Type": "application/json"
}

data = {
    "model": "llama-3.1-8b-lexi-uncensored-v2",
    "messages": [
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "What is the capital of France?"}
    ],
    "temperature": 0.7,
    "max_tokens": -1,
    "stream": False
}

response = requests.post(url, headers=headers, data=json.dumps(data))

if response.status_code == 200:
    result = response.json()
    print(result["choices"][0]["message"]["content"])
else:
    print(f"Error: {response.status_code}")

그리고 짜잔! 이제 상용 API와 마찬가지로 로컬 LLM에 요청을 보낼 준비가 되었습니다. 계속해서 테스트하고, 부수고, 운율을 맞추세요. 세상(또는 적어도 귀하의 모델)이 귀하의 굴입니다.

즐기다!

위 내용은 로컬 LLM 실행 및 API 요청에 대한 빠르고 간단한 가이드의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.