ホームページ >バックエンド開発 >Python チュートリアル >画像の魔法を解き放つ: 最先端の SmolVLM-M モデルを使用するための簡単なガイド

画像の魔法を解き放つ: 最先端の SmolVLM-M モデルを使用するための簡単なガイド

Susan Sarandon
Susan Sarandonオリジナル
2025-01-24 14:10:10251ブラウズ

この記事では、最先端のコンパクトなビジョンからテキストへのモデルであるSmolvlm-500m-Instructを紹介しています。 比較的小さいサイズ(5億パラメーター)にもかかわらず、印象的な機能を示しています。

これがPythonコードです:

このスクリプトは、ハグするフェイストランスライブラリを活用して、画像からテキストの説明を生成します。 事前に訓練されたモデルとプロセッサをロードし、画像を処理し、記述テキストを出力します。 エラー処理が含まれています。
<code class="language-python">import torch
from transformers import AutoProcessor, AutoModelForVision2Seq
from PIL import Image
import warnings

warnings.filterwarnings("ignore", message="Some kwargs in processor config are unused")

def describe_image(image_path):
    processor = AutoProcessor.from_pretrained("HuggingFaceTB/SmolVLM-500M-Instruct")
    model = AutoModelForVision2Seq.from_pretrained("HuggingFaceTB/SmolVLM-500M-Instruct")

    image = Image.open(image_path)

    prompt = "Describe the image content in detail.  Provide a concise textual response."
    inputs = processor(text=[prompt], images=[image], return_tensors="pt")

    with torch.no_grad():
        outputs = model.generate(
            pixel_values=inputs["pixel_values"],
            input_ids=inputs["input_ids"],
            attention_mask=inputs["attention_mask"],
            max_new_tokens=150,
            do_sample=True,
            temperature=0.7
        )

    description = processor.batch_decode(outputs, skip_special_tokens=True)[0]
    return description.strip()

if __name__ == "__main__":
    image_path = "images/bender.jpg"

    try:
        description = describe_image(image_path)
        print("Image Description:", description)
    except Exception as e:
        print(f"Error: {e}")</code>

コードはこちらから入手できます:

https://www.php.cn/link/042886829869470b75f63dddfd7e9d9d

次のノンストック画像を使用して(プロジェクトの画像ディレクトリに配置):

Unlock the Magic of Images: A Quick and Easy Guide to Using the Cutting-Edge SmolVLM-M Modelモデルは説明を生成します(プロンプトとパラメーターは、より細かい制御のために調整できます):

ソファに座ったロボットは、本を読むことに夢中になります。 本棚とドアが背景に見えます。クッションが付いた白い椅子もシーンにあります。

モデルの速度と効率は、より大きな言語モデルと比較して注目に値します。

以上が画像の魔法を解き放つ: 最先端の SmolVLM-M モデルを使用するための簡単なガイドの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。