llama 3.2 90bチュートリアル：retrylit＆groqを備えた画像キャプションアプリ-AI-php.cn

ホームページ

テクノロジー周辺機器

llama 3.2 90bチュートリアル：retrylit＆groqを備えた画像キャプションアプリ

Lisa Kudrow

Mar 01, 2025 am 10:28 AM

メタは、ラマ3.2 11B＆90Bビジョンモデルを導入することにより、ラマエコシステムにマルチモダリティを最終的に追加しました。これらの2つのモデルは、テキストと画像の両方の処理に優れているため、90Bバージョンを使用してプロジェクトを構築するようになりました。この記事では、私の作品を共有し、フロントエンド用のRestreamlitを使用してインタラクティブな画像キャプションアプリを構築し、キャプションを生成するためのエンジンとしてLlama 3.2 90bを使用してガイドします。

画像キャプションアプリにllama 3.2 90bを使用する理由

llama 3.2-vision 90bは、画像入力とテキスト入力の両方を含むタスク用に構築された最先端のマルチモーダル大手言語モデル（LLM）です。

視覚的推論、画像認識、画像キャプションなどの複雑なタスクに取り組む能力が際立っています。 60億の画像テキストペアの大規模なデータセットで訓練されています。

llama 3.2-visionは、テキストタスクの複数の言語をサポートしているため、アプリに最適です。ただし、英語は画像関連のアプリケーションの主な焦点です。その主要な機能により、Visual質問応答（VQA）、Document VQA、Image-Textの検索などのタスクに最適な選択肢になり、画像キャプションは傑出したアプリケーションの1つです。

これらの機能が、画像キャプションのような現実世界のアプリケーションにどのように変換されるかを調べてみましょう。

画像キャプションパイプライン

画像キャプションは、画像のコンテンツを要約する記述テキストを生成する自動化されたプロセスです。コンピュータービジョンと自然言語処理を組み合わせて、言語の視覚的詳細を解釈および表現します。

伝統的に、画像キャプションには複雑なパイプラインが必要であり、多くの場合、画像処理と言語生成のための個別の段階が含まれます。標準的なアプローチには、イメージの前処理、機能抽出、キャプション生成の3つの主要な手順が含まれます。

画像の前処理：通常、画像はサイズ変更、正規化され、時にはトリミングされて、モデルの入力仕様を確実に満たすようにします。

機能抽出：視覚機能が抽出され、画像内のオブジェクト、シーン、または関連する詳細を識別します。ほとんどのモデルでは、これには画像を解釈するための個別のビジョンモデルが必要であり、言語モデルが理解できる構造化されたデータを生成します。

キャプション生成：これらの抽出された機能は、言語モデルによって使用され、視覚データで識別されたオブジェクト、コンテキスト、および関係を組み合わせて、コヒーレントな説明を作成します。

llama 3.2 90bを使用すると、この伝統的に複雑なプロセスがより簡単になります。モデルのVision Adapterは、視覚機能をコア言語モデルに統合し、画像を直接解釈し、単純なプロンプトを介してキャプションを生成できるようにします。

そのアーキテクチャ内に横断層を埋め込むことにより、Llama 3.2 90Bを使用すると、ユーザーは単にモデルを促すだけで画像を説明できます。このシンプルさは、よりアクセスしやすく効率的な画像キャプションを可能にします。単一のプロンプトは、画像の本質を効果的にキャプチャする自然で記述的なキャプションを生成できます。

画像キャプションアプリの概要

Llama 3.2 90bのパワーを実現するために、フロントエンドにStreamlitを使用してシンプルでありながら効果的な画像キャプションアプリケーションを構築し、キャプションを生成するためにGROQを構築します。

アプリを使用すると、ユーザーは画像をアップロードし、2回のクリックでモデルによって生成された説明的なキャプションを受信できます。このセットアップはユーザーフレンドリーであり、開始するには最小限のコーディング知識が必要です。

当社のアプリケーションには、次の機能が含まれます

タイトル：アプリの目的を確立するために、目立つタイトル、llamaキャプション。

アップロードボタン：ユーザーのデバイスから画像をアップロードするインターフェイス。

ボタンの生成：キャプション生成プロセスを開始するボタン。

キャプション出力：アプリは、生成されたキャプションをインターフェイスに直接表示します。

GROQコンソールでサインアップしてGROQ APIキーを取得します。
credentiences.json

インストールと構成のためのGroqのQuickStartガイドに従ってください

以下のこのPythonコードスニペットは、GROQ APIと対話するための流線アプリケーションを設定します。含まれています：

拡張されたセキュリティのために、別のJSONファイルからGROQ APIキーを読み取ります。
以下の関数を書くことで進みます。これは、GROQ APIを使用してアップロードされた画像のテキスト説明を生成するように設計されています。機能の内訳は次のとおりです
1. 画像エンコーディング：アップロードされた画像は、base64エンコードされた文字列に変換されます。この形式により、画像データをAPIリクエスト内で簡単に送信できます。
ユーザープロンプト：「この画像には何が含まれていますか？」
- base64エンコードされた画像データは、データURIに埋め込まれています。 llama-3.2-90b-vision-previewモデルは、画像を処理してテキストの説明を生成するために指定されています。
1. 最後に、retrylit：
```
import streamlit as st
from groq import Groq
import base64
import os
import json

# Set up Groq API Key
os.environ['GROQ_API_KEY'] = json.load(open('credentials.json', 'r'))['groq_token']

# Function to encode the image
def encode_image(image_path):
   with open(image_path, "rb") as image_file:
       return base64.b64encode(image_file.read()).decode('utf-8')
```
最終的な流線アプリ：Llama Captioner

このretrylitアプリケーションは、画像キャプション用のユーザーフレンドリーなインターフェイスを提供します。機能の内訳は次のとおりです
```
# Function to generate caption
def generate_caption(uploaded_image):
   base64_image = base64.b64encode(uploaded_image.read()).decode('utf-8')
   client = Groq()
   chat_completion = client.chat.completions.create(
       messages=[
           {
               "role": "user",
               "content": [
                   {"type": "text", "text": "What's in this image?"},
                   {
                       "type": "image_url",
                       "image_url": {
                           "url": f"data:image/jpeg;base64,{base64_image}",
                       },
                   },
               ],
           }
       ],
       model="llama-3.2-90b-vision-preview",
   )
   return chat_completion.choices[0].message.content
```
タイトルとファイルアップローダー：
- 画像ディスプレイ：
画像がアップロードされたら、アプリはSt.Image関数を使用して表示します。
成功すると、成功メッセージが表示され、その後に生成されたキャプションが続きます。
- 以下のスニペットは、キャプションを生成するためにエディホールの画像がアップロードされた動作中のコードです。驚くべきことに、それは「最強の男」などのようにはっきりと見えなかった情報さえ抽出しました。
- 結論
- llama 3.2 90bとRiremlitを使用して画像キャプションアプリを構築することで、AIが困難なタスクを容易にする方法を示しています。このプロジェクトは、強力なモデルとシンプルなインターフェイスを組み合わせて、直感的で使いやすいツールを作成します。
ラマで学習を続けるには、次のリソースをお勧めします。
- llama 3.2 1bを実行する方法torchchat
- llama 3.2およびgradioチュートリアル：マルチモーダルWebアプリを構築
- llamaスタック：実用的な例を備えたガイド
- llama 3.2を微調整してローカルに使用します：ステップバイステップガイド
- llama 3.3：デモプロジェクトを使用したステップバイステップのチュートリアル

以上がllama 3.2 90bチュートリアル：retrylit＆groqを備えた画像キャプションアプリの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

踊りましょう：私たちの人間のニューラルネットを微調整するための構造化された動きApr 27, 2025 am 11:09 AM

科学者は、彼らの機能を理解するために、人間とより単純なニューラルネットワーク（C. elegansのものと同様）を広く研究してきました。ただし、重要な疑問が生じます。新しいAIと一緒に効果的に作業するために独自のニューラルネットワークをどのように適応させるのか

新しいGoogleリークは、Gemini AIのサブスクリプションの変更を明らかにしますApr 27, 2025 am 11:08 AM

GoogleのGemini Advanced：Horizonの新しいサブスクリプションティア現在、Gemini Advancedにアクセスするには、1か月あたり19.99ドルのGoogle One AIプレミアムプランが必要です。ただし、Android Authorityのレポートは、今後の変更を示唆しています。最新のGoogle p

データ分析の加速がAIの隠されたボトルネックをどのように解決しているかApr 27, 2025 am 11:07 AM

高度なAI機能を取り巻く誇大宣伝にもかかわらず、エンタープライズAIの展開内に大きな課題が潜んでいます：データ処理ボトルネック。 CEOがAIの進歩を祝う間、エンジニアはクエリの遅い時間、過負荷のパイプライン、

MarkitDown MCPは、任意のドキュメントをマークダウンに変換できます！Apr 27, 2025 am 09:47 AM

ドキュメントの取り扱いは、AIプロジェクトでファイルを開くだけでなく、カオスを明確に変えることです。 PDF、PowerPoint、Wordなどのドキュメントは、あらゆる形状とサイズでワークフローをフラッシュします。構造化された取得

建物のエージェントにGoogle ADKを使用する方法は？ - 分析VidhyaApr 27, 2025 am 09:42 AM

Googleのエージェント開発キット（ADK）のパワーを活用して、実際の機能を備えたインテリジェントエージェントを作成します。このチュートリアルは、ADKを使用して会話エージェントを構築し、GeminiやGPTなどのさまざまな言語モデルをサポートすることをガイドします。 w

効果的な問題解決のためにLLMを介したSLMの使用 - 分析VidhyaApr 27, 2025 am 09:27 AM

まとめ： Small Language Model（SLM）は、効率のために設計されています。それらは、リソース不足、リアルタイム、プライバシーに敏感な環境の大手言語モデル（LLM）よりも優れています。特にドメインの特異性、制御可能性、解釈可能性が一般的な知識や創造性よりも重要である場合、フォーカスベースのタスクに最適です。 SLMはLLMSの代替品ではありませんが、精度、速度、費用対効果が重要な場合に理想的です。テクノロジーは、より少ないリソースでより多くを達成するのに役立ちます。それは常にドライバーではなく、プロモーターでした。蒸気エンジンの時代からインターネットバブル時代まで、テクノロジーの力は、問題の解決に役立つ範囲にあります。人工知能（AI）および最近では生成AIも例外ではありません

コンピュータービジョンタスクにGoogle Geminiモデルを使用する方法は？ - 分析VidhyaApr 27, 2025 am 09:26 AM

コンピュータービジョンのためのGoogleGeminiの力を活用：包括的なガイド大手AIチャットボットであるGoogle Geminiは、その機能を会話を超えて拡張して、強力なコンピュータービジョン機能を網羅しています。このガイドの利用方法については、

Gemini 2.0 Flash vs O4-Mini：GoogleはOpenaiよりもうまくやることができますか？Apr 27, 2025 am 09:20 AM

2025年のAIランドスケープは、GoogleのGemini 2.0 FlashとOpenaiのO4-Miniの到着とともに感動的です。数週間離れたこれらの最先端のモデルは、同等の高度な機能と印象的なベンチマークスコアを誇っています。この詳細な比較

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。