マルチモーダルAIエージェントを使用して、製品成分の秘密のロックを解除してください! 複雑な成分リストを解読するのにうんざりしていませんか?この記事では、Gemini 2.0、Phidata、およびTavily Web検索を使用して、強力な製品成分アナライザーを構築する方法について説明します。 時間のかかる個々の成分の検索に別れを告げ、インスタントの実用的な洞察にこんにちは!
重要な学習成果
このチュートリアルでは、このチュートリアルで説明しますビジョン言語タスクのためにPhidataとGemini 2.0を活用するマルチモーダルAIエージェントアーキテクチャの設計。
エージェントワークフロー内の強化されたコンテキストと情報の検索のタビリーWeb検索の統合。- 画像処理とWeb検索を巧みに組み合わせた製品成分アナライザーエージェントの構築詳細な製品分析。
- マルチモーダルシナリオでエージェントのパフォーマンスを最適化するための効果的なシステムプロンプトと指示の作成の技術を習得します。 リアルタイムの画像分析、栄養情報、およびパーソナライズされた健康に関する推奨事項のために、ユーザーフレンドリーな流線UIを開発します。
- この記事は、データサイエンスブログの一部です
- 目次
マルチモーダルシステムの理解 実際のマルチモーダルアプリケーション マルチモーダルエージェントの力
製品成分アナライザーエージェントの構築 必須リンク
- 結論
- よくある質問
- マルチモーダルシステムの理解
- マルチモーダルシステムは、テキスト、画像、オーディオ、ビデオなど、多様なデータ型を同時に処理および解釈するように設計されています。 Gemini 2.0 Flash、GPT-4O、Claude Sonnet 3.5、Pixtral-12Bなどのビジョン言語モデルは、これらのモダリティ間の複雑な関係を認識し、複雑な入力から貴重な知識を抽出します。 この記事では、画像を分析し、テキストの説明を生成するビジョン言語モデルに焦点を当てています。 これらのシステムは、コンピュータービジョンと自然言語処理をシームレスにブレンドして、ユーザープロンプトに基づいて視覚情報を解釈します。
- 実世界のマルチモーダルアプリケーション
- マルチモーダルシステムは、さまざまな産業に革命をもたらしています
財務:スクリーンショットを撮るだけで複雑な金融条件を即座に理解します。
eコマース:
製品ラベルを撮影して、詳細な成分分析と健康の洞察を取得します。教育:教科書からの複雑な図と概念の簡略化された説明を得る。
Healthcare:
- マルチモーダルエージェントの力 マルチモーダルエージェントへのシフトは、AI相互作用の大きな進歩を表しています。 これらがとても効果的である理由は次のとおりです
- 視覚データとテキストデータの同時処理は、より正確でコンテキストが豊富な応答につながります。 複雑な情報が簡素化されているため、より多くの視聴者が簡単にアクセスできます。
- ユーザーは、包括的な分析のために単一の画像をアップロードし、手動の成分検索の必要性を排除します。 Web検索と画像分析を組み合わせると、より完全で信頼できる洞察が提供されます。
- 製品成分アナライザーエージェントの構築
- retrienlit:ユーザーフレンドリーなWebアプリケーションを作成します
- ステップ2:APIのセットアップと構成apiキーを取得します:
製品成分分析エージェントを段階的に構築しましょう
ステップ1:依存関係のセットアップ
必要なのは
です gemini 2.0フラッシュ:強力なマルチモーダル処理用。
タビリー検索:シームレスなWeb検索統合のため。
- Phidata:エージェントシステムを調整し、ワークフローを管理する
!pip install phidata google-generativeai tavily-python streamlit pillowhttps://www.php.cn/link/feac4a1c91eb74bfce13cb7c052c233b
tavily apiキー:
https://www.php.cn/link/c73ff6dceadedf3652d678cd790ff167- ステップ3:システムのプロンプトと手順
- 明確な命令は、最適なLLMパフォーマンスに不可欠です。 エージェントの役割と責任を定義します
from phi.agent import Agent from phi.model.google import Gemini # needs a api key from phi.tools.tavily import TavilyTools # also needs a api key import os TAVILY_API_KEY = "<replace-your-api-key>" GOOGLE_API_KEY = "<replace-your-api-key>" os.environ['TAVILY_API_KEY'] = TAVILY_API_KEY os.environ['GOOGLE_API_KEY'] = GOOGLE_API_KEY</replace-your-api-key></replace-your-api-key>
Phidataエージェントは、マークダウンを処理し、システムプロンプトと命令に基づいて動作するように構成されています。 Gemini 2.0フラッシュは推論モデルとして使用され、効率的なWeb検索のためにTavily Searchが統合されています。
ステップ5:マルチモーダル画像処理
SYSTEM_PROMPT = """ You are an expert Food Product Analyst specialized in ingredient analysis and nutrition science. Your role is to analyze product ingredients, provide health insights, and identify potential concerns by combining ingredient analysis with scientific research. You utilize your nutritional knowledge and research works to provide evidence-based insights, making complex ingredient information accessible and actionable for users. Return your response in Markdown format. """ INSTRUCTIONS = """ * Read ingredient list from product image * Remember the user may not be educated about the product, break it down in simple words like explaining to 10 year kid * Identify artificial additives and preservatives * Check against major dietary restrictions (vegan, halal, kosher). Include this in response. * Rate nutritional value on scale of 1-5 * Highlight key health implications or concerns * Suggest healthier alternatives if needed * Provide brief evidence-based recommendations * Use Search tool for getting context """
分析を開始するために、画像パスまたはURLをプロンプトとともに提供します。 両方のアプローチを使用した例は、元の記事で提供されています。 ステップ6&7:Webアプリ開発を合理化する
(元の記事の詳細なコード)retrylitアプリケーションが作成され、画像のアップロード、分析、および結果表示用のユーザーフレンドリーなインターフェイスが提供されます。 アプリには、製品、画像のアップロード、ライブ写真キャプチャなどのタブが含まれています。 最適なパフォーマンスのために、画像のサイズ変更とキャッシュが実装されています
agent = Agent( model = Gemini(), tools = [TavilyTools()], markdown=True, system_prompt = SYSTEM_PROMPT, instructions = INSTRUCTIONS )
本質的なリンク
完全なコード:[GitHubリンクをこちらに挿入]
展開アプリ:[ここに展開されたアプリリンクを挿入]
結論
マルチモーダルAIエージェントは、複雑な情報との対話と理解をどのように変換し、理解しています。 製品成分アナライザーは、ビジョン、言語、およびWeb検索を組み合わせて、アクセス可能で実用的な洞察を提供する力を示しています。
よくある質問
- Q1。オープンソースのマルチモーダルビジョンモデルモデル:llava、pixtral-12b、multimodal-gpt、nvila、およびqwenは例です。 q2。ラマ3マルチモーダルですか?:
- はい、llama 3およびllama 3.2ビジョンモデルはマルチモーダルです。 q3。マルチモーダルLLM vs.マルチモーダルエージェント: LLMプロセスマルチモーダルデータ。エージェントはLLMSおよびその他のツールを使用してタスクを実行し、マルチモーダル入力に基づいて決定を下します。
- プレースホルダーを実際のAPIキーに置き換えることを忘れないでください。 完全で機能的なガイドのために、完全なコードと展開されたアプリリンクを追加する必要があります。
以上が製品成分分析のためのマルチモーダルエージェントを構築しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

AIは、野火の回復許可を合理化します オーストラリアのハイテク企業ArchistarのAIソフトウェアは、機械学習とコンピュータービジョンを利用して、地域の規制に準拠するための建築計画の評価を自動化します。この前検証は重要です

エストニアのデジタル政府:米国のモデル? 米国は官僚的な非効率性と闘っていますが、エストニアは説得力のある代替品を提供しています。 この小さな国は、AIを搭載した、ほぼ100%デジタル化された市民中心の政府を誇っています。 これはそうではありません

結婚式を計画することは記念碑的な仕事であり、しばしば最も組織化されたカップルでさえ圧倒されます。 この記事は、AIの影響に関する進行中のフォーブスシリーズの一部(こちらのリンクを参照)で、生成AIが結婚式の計画にどのように革命をもたらすことができるかを調べます。 結婚式のpl

政府は、さまざまな確立されたタスクにそれらを利用している一方で、企業はAIエージェントを販売のためにますます活用しています。 ただし、消費者の支持者は、個人がターゲットのターゲットに対する防御として自分のAIエージェントを所有する必要性を強調しています

Googleはこのシフトをリードしています。その「AIの概要」機能はすでに10億人以上のユーザーにサービスを提供しており、誰もがリンクをクリックする前に完全な回答を提供しています。[^2] 他のプレイヤーも速く地位を獲得しています。 ChatGpt、Microsoft Copilot、およびPE

2022年、彼はソーシャルエンジニアリング防衛のスタートアップDoppelを設立してまさにそれを行いました。そして、サイバー犯罪者が攻撃をターボチャージするためのより高度なAIモデルをハーネスするにつれて、DoppelのAIシステムは、企業が大規模に戦うのに役立ちました。

出来上がりは、適切な世界モデルとの対話を介して、生成AIとLLMを実質的に後押しすることができます。 それについて話しましょう。 革新的なAIブレークスルーのこの分析は、最新のAIで進行中のForbes列のカバレッジの一部であり、

労働者2050年。全国の公園は、ノスタルジックなパレードが街の通りを通り抜ける一方で、伝統的なバーベキューを楽しんでいる家族でいっぱいです。しかし、お祝いは現在、博物館のような品質を持っています。


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

SublimeText3 中国語版
中国語版、とても使いやすい

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません
