Rumah >pembangunan bahagian belakang >Tutorial Python >Buka Kunci Keajaiban Imej: Panduan Pantas dan Mudah untuk Menggunakan Model SmolVLM-M Termaju
Artikel ini mempamerkan SmolVLM-500M-Instruct, model penglihatan-ke-teks yang canggih dan padat. Walaupun saiznya agak kecil (500 juta parameter), ia menunjukkan keupayaan yang mengagumkan.
Ini kod Python:
<code class="language-python">import torch from transformers import AutoProcessor, AutoModelForVision2Seq from PIL import Image import warnings warnings.filterwarnings("ignore", message="Some kwargs in processor config are unused") def describe_image(image_path): processor = AutoProcessor.from_pretrained("HuggingFaceTB/SmolVLM-500M-Instruct") model = AutoModelForVision2Seq.from_pretrained("HuggingFaceTB/SmolVLM-500M-Instruct") image = Image.open(image_path) prompt = "Describe the image content in detail. Provide a concise textual response." inputs = processor(text=[prompt], images=[image], return_tensors="pt") with torch.no_grad(): outputs = model.generate( pixel_values=inputs["pixel_values"], input_ids=inputs["input_ids"], attention_mask=inputs["attention_mask"], max_new_tokens=150, do_sample=True, temperature=0.7 ) description = processor.batch_decode(outputs, skip_special_tokens=True)[0] return description.strip() if __name__ == "__main__": image_path = "images/bender.jpg" try: description = describe_image(image_path) print("Image Description:", description) except Exception as e: print(f"Error: {e}")</code>
Skrip ini memanfaatkan perpustakaan Hugging Face Transformers untuk menjana penerangan teks daripada imej. Ia memuatkan model dan pemproses pra-latihan, memproses imej dan mengeluarkan teks deskriptif. Pengendalian ralat disertakan.
Kod tersedia di sini: https://www.php.cn/link/042886829869470b75f63dddfd7e9d9d
Menggunakan imej bukan stok berikut (diletakkan dalam direktori imej projek):
Model menjana penerangan (gesaan dan parameter boleh dilaraskan untuk kawalan yang lebih halus): Sebuah robot, duduk di atas sofa, sedang asyik membaca buku. Rak buku dan pintu kelihatan di latar belakang. Kerusi putih dengan kusyen juga ada di tempat kejadian.
Kelajuan dan kecekapan model patut diberi perhatian berbanding model bahasa yang lebih besar.
Atas ialah kandungan terperinci Buka Kunci Keajaiban Imej: Panduan Pantas dan Mudah untuk Menggunakan Model SmolVLM-M Termaju. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!