Rumah >pembangunan bahagian belakang >Tutorial Python >Buka Kunci Keajaiban Imej: Panduan Pantas dan Mudah untuk Menggunakan Model SmolVLM-M Termaju

Buka Kunci Keajaiban Imej: Panduan Pantas dan Mudah untuk Menggunakan Model SmolVLM-M Termaju

Susan Sarandon
Susan Sarandonasal
2025-01-24 14:10:10251semak imbas

Artikel ini mempamerkan SmolVLM-500M-Instruct, model penglihatan-ke-teks yang canggih dan padat. Walaupun saiznya agak kecil (500 juta parameter), ia menunjukkan keupayaan yang mengagumkan.

Ini kod Python:

<code class="language-python">import torch
from transformers import AutoProcessor, AutoModelForVision2Seq
from PIL import Image
import warnings

warnings.filterwarnings("ignore", message="Some kwargs in processor config are unused")

def describe_image(image_path):
    processor = AutoProcessor.from_pretrained("HuggingFaceTB/SmolVLM-500M-Instruct")
    model = AutoModelForVision2Seq.from_pretrained("HuggingFaceTB/SmolVLM-500M-Instruct")

    image = Image.open(image_path)

    prompt = "Describe the image content in detail.  Provide a concise textual response."
    inputs = processor(text=[prompt], images=[image], return_tensors="pt")

    with torch.no_grad():
        outputs = model.generate(
            pixel_values=inputs["pixel_values"],
            input_ids=inputs["input_ids"],
            attention_mask=inputs["attention_mask"],
            max_new_tokens=150,
            do_sample=True,
            temperature=0.7
        )

    description = processor.batch_decode(outputs, skip_special_tokens=True)[0]
    return description.strip()

if __name__ == "__main__":
    image_path = "images/bender.jpg"

    try:
        description = describe_image(image_path)
        print("Image Description:", description)
    except Exception as e:
        print(f"Error: {e}")</code>

Skrip ini memanfaatkan perpustakaan Hugging Face Transformers untuk menjana penerangan teks daripada imej. Ia memuatkan model dan pemproses pra-latihan, memproses imej dan mengeluarkan teks deskriptif. Pengendalian ralat disertakan.

Kod tersedia di sini: https://www.php.cn/link/042886829869470b75f63dddfd7e9d9d

Menggunakan imej bukan stok berikut (diletakkan dalam direktori imej projek):

Unlock the Magic of Images: A Quick and Easy Guide to Using the Cutting-Edge SmolVLM-M Model

Model menjana penerangan (gesaan dan parameter boleh dilaraskan untuk kawalan yang lebih halus): Sebuah robot, duduk di atas sofa, sedang asyik membaca buku. Rak buku dan pintu kelihatan di latar belakang. Kerusi putih dengan kusyen juga ada di tempat kejadian.

Kelajuan dan kecekapan model patut diberi perhatian berbanding model bahasa yang lebih besar.

Atas ialah kandungan terperinci Buka Kunci Keajaiban Imej: Panduan Pantas dan Mudah untuk Menggunakan Model SmolVLM-M Termaju. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn