ホームページ >テクノロジー周辺機器 >AI >llama 3.2 90bチュートリアル:retrylit&groqを備えた画像キャプションアプリ
メタは、ラマ3.2 11B&90Bビジョンモデルを導入することにより、ラマエコシステムにマルチモダリティを最終的に追加しました。これらの2つのモデルは、テキストと画像の両方の処理に優れているため、90Bバージョンを使用してプロジェクトを構築するようになりました。 この記事では、私の作品を共有し、フロントエンド用のRestreamlitを使用してインタラクティブな画像キャプションアプリを構築し、キャプションを生成するためのエンジンとしてLlama 3.2 90bを使用してガイドします。
画像キャプションアプリにllama 3.2 90bを使用する理由llama 3.2-vision 90bは、画像入力とテキスト入力の両方を含むタスク用に構築された最先端のマルチモーダル大手言語モデル(LLM)です。
これらの機能が、画像キャプションのような現実世界のアプリケーションにどのように変換されるかを調べてみましょう。
画像キャプションパイプライン画像キャプションは、画像のコンテンツを要約する記述テキストを生成する自動化されたプロセスです。コンピュータービジョンと自然言語処理を組み合わせて、言語の視覚的詳細を解釈および表現します。
伝統的に、画像キャプションには複雑なパイプラインが必要であり、多くの場合、画像処理と言語生成のための個別の段階が含まれます。標準的なアプローチには、イメージの前処理、機能抽出、キャプション生成の3つの主要な手順が含まれます。
画像の前処理:通常、画像はサイズ変更、正規化され、時にはトリミングされて、モデルの入力仕様を確実に満たすようにします。
機能抽出:視覚機能が抽出され、画像内のオブジェクト、シーン、または関連する詳細を識別します。ほとんどのモデルでは、これには画像を解釈するための個別のビジョンモデルが必要であり、言語モデルが理解できる構造化されたデータを生成します。llama 3.2 90bを使用すると、この伝統的に複雑なプロセスがより簡単になります。モデルのVision Adapterは、視覚機能をコア言語モデルに統合し、画像を直接解釈し、単純なプロンプトを介してキャプションを生成できるようにします。
そのアーキテクチャ内に横断層を埋め込むことにより、Llama 3.2 90Bを使用すると、ユーザーは単にモデルを促すだけで画像を説明できます。このシンプルさは、よりアクセスしやすく効率的な画像キャプションを可能にします。単一のプロンプトは、画像の本質を効果的にキャプチャする自然で記述的なキャプションを生成できます。
画像キャプションアプリの概要当社のアプリケーションには、次の機能が含まれます
タイトル:アプリの目的を確立するために、目立つタイトル、llamaキャプション。
アップロードボタン:ユーザーのデバイスから画像をアップロードするインターフェイス。ボタンの生成:キャプション生成プロセスを開始するボタン。
キャプション出力:アプリは、生成されたキャプションをインターフェイスに直接表示します。
import streamlit as st from groq import Groq import base64 import os import json # Set up Groq API Key os.environ['GROQ_API_KEY'] = json.load(open('credentials.json', 'r'))['groq_token'] # Function to encode the image def encode_image(image_path): with open(image_path, "rb") as image_file: return base64.b64encode(image_file.read()).decode('utf-8')最終的な流線アプリ:Llama Captioner
このretrylitアプリケーションは、画像キャプション用のユーザーフレンドリーなインターフェイスを提供します。機能の内訳は次のとおりです
# Function to generate caption def generate_caption(uploaded_image): base64_image = base64.b64encode(uploaded_image.read()).decode('utf-8') client = Groq() chat_completion = client.chat.completions.create( messages=[ { "role": "user", "content": [ {"type": "text", "text": "What's in this image?"}, { "type": "image_url", "image_url": { "url": f"data:image/jpeg;base64,{base64_image}", }, }, ], } ], model="llama-3.2-90b-vision-preview", ) return chat_completion.choices[0].message.content
以上がllama 3.2 90bチュートリアル:retrylit&groqを備えた画像キャプションアプリの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。