recherche
MaisonPériphériques technologiquesIAConstruisez un agent multimodal pour l'analyse des ingrédients du produit

Déverrouillez les secrets des ingrédients du produit avec un agent d'IA multimodal! Vous en avez assez de déchiffrer les listes d'ingrédients complexes? Cet article vous montre comment construire un puissant analyseur d'ingrédients de produit à l'aide de la recherche Web Gemini 2.0, Phidata et Tavily. Dites adieu aux recherches individuelles individuelles et bonjour aux idées instantanées et exploitables!

Résultats d'apprentissage clés

Ce tutoriel vous guidera à travers:

  • Concevoir une architecture d'agent d'agent AI multimodale tirant parti de Phidata et Gemini 2.0 pour les tâches de langue visuelle.
  • Intégration de la recherche sur le Web Tavily pour un contexte et une récupération d'informations améliorés dans votre flux de travail d'agent.
  • Construire un agent d'analyseur d'ingrédients de produit qui combine de manière experte le traitement d'image et la recherche Web pour l'analyse détaillée des produits.
  • maîtriser l'art de fabriquer des invites et des instructions de système efficaces pour optimiser les performances de l'agent dans les scénarios multimodaux.
  • Développer une interface utilisateur rationalisée conviviale pour l'analyse d'images en temps réel, les informations nutritionnelles et les recommandations de santé personnalisées.

Cet article fait partie du blogathon de la science des données.

Table des matières

  • Comprendre les systèmes multimodaux
  • Applications multimodales du monde réel
  • La puissance des agents multimodaux
  • Construire l'agent d'analyseur d'ingrédients de votre produit
  • liens essentiels
  • Conclusion
  • Les questions fréquemment posées

Comprendre les systèmes multimodaux

Les systèmes multimodaux sont conçus pour traiter et interpréter les divers types de données simultanément - y compris le texte, les images, l'audio et la vidéo. Des modèles de vision comme Gemini 2.0 Flash, GPT-4O, Claude Sonnet 3.5 et Pixtral-12b excellent pour reconnaître les relations complexes entre ces modalités, en extraissant des connaissances précieuses à partir d'entrées complexes. Cet article se concentre sur les modèles de langue de vision qui analysent les images et génèrent des explications textuelles. Ces systèmes mélangent parfaitement la vision par ordinateur et le traitement du langage naturel pour interpréter les informations visuelles en fonction des invites utilisateur.

Applications multimodales du monde réel

Les systèmes multimodaux révolutionnent diverses industries:

  • Finance: Comprenez instantanément des termes financiers complexes en prenant simplement une capture d'écran.
  • e-commerce: obtenir une analyse détaillée des ingrédients et des informations sur la santé en photographiant les étiquettes de produits.
  • Éducation: Gardez des explications simplifiées des diagrammes et concepts complexes des manuels.
  • Care de santé: Recevoir des explications claires des rapports médicaux et des étiquettes de prescription.

La puissance des agents multimodaux

Le changement vers des agents multimodaux représente un progrès significatif de l'interaction IA. Voici pourquoi ils sont si efficaces:

  • Le traitement simultané des données visuelles et textuels conduit à des réponses plus précises et riches en contexte.
  • Les informations complexes sont simplifiées, ce qui la rend facilement accessible à un public plus large.
  • Les utilisateurs téléchargent une seule image pour une analyse complète, éliminant le besoin de recherches d'ingrédients manuels.
  • La combinaison de la recherche Web et de l'analyse d'images offre des informations plus complètes et fiables.

Construire l'agent d'analyseur d'ingrédients de votre produit

Build a Multimodal Agent for Product Ingredient Analysis

Créons l'agent d'analyse des ingrédients du produit étape par étape:

Étape 1: Configuration des dépendances

Nous aurons besoin:

  • Gemini 2.0 Flash: pour un puissant traitement multimodal.
  • Recherche tavillante: pour l'intégration de recherche Web sans couture.
  • phidata: pour orchestrer le système d'agent et gérer les workflows.
  • Streamlit: pour créer une application Web conviviale.
!pip install phidata google-generativeai tavily-python streamlit pillow

Étape 2: Configuration et configuration de l'API

Obtenez des clés d'API à partir de:

from phi.agent import Agent
from phi.model.google import Gemini # needs a api key
from phi.tools.tavily import TavilyTools # also needs a api key

import os
TAVILY_API_KEY = "<replace-your-api-key>"
GOOGLE_API_KEY = "<replace-your-api-key>"
os.environ['TAVILY_API_KEY'] = TAVILY_API_KEY
os.environ['GOOGLE_API_KEY'] = GOOGLE_API_KEY</replace-your-api-key></replace-your-api-key>

Étape 3: Invite du système et instructions

Les instructions claires sont cruciales pour les performances optimales de LLM. Nous définirons le rôle et les responsabilités de l'agent:

SYSTEM_PROMPT = """
You are an expert Food Product Analyst specialized in ingredient analysis and nutrition science. 
Your role is to analyze product ingredients, provide health insights, and identify potential concerns by combining ingredient analysis with scientific research. 
You utilize your nutritional knowledge and research works to provide evidence-based insights, making complex ingredient information accessible and actionable for users.
Return your response in Markdown format. 
"""

INSTRUCTIONS = """
* Read ingredient list from product image 
* Remember the user may not be educated about the product, break it down in simple words like explaining to 10 year kid
* Identify artificial additives and preservatives
* Check against major dietary restrictions (vegan, halal, kosher). Include this in response. 
* Rate nutritional value on scale of 1-5
* Highlight key health implications or concerns
* Suggest healthier alternatives if needed
* Provide brief evidence-based recommendations
* Use Search tool for getting context
"""

Étape 4: Définition de l'objet agent

L'agent Phidata est configuré pour traiter la marque et fonctionner en fonction de l'invite du système et des instructions. Gemini 2.0 Flash est utilisé comme modèle de raisonnement, et la recherche tavillante est intégrée pour une recherche Web efficace.

agent = Agent(
    model = Gemini(),
    tools = [TavilyTools()],
    markdown=True,
    system_prompt = SYSTEM_PROMPT,
    instructions = INSTRUCTIONS
)

Étape 5: Traitement d'images multimodal

Fournissez le chemin d'image ou l'URL, ainsi qu'une invite, pour initier l'analyse. Des exemples utilisant les deux approches sont fournis dans l'article d'origine.

Étape 6 et 7: Sationure de développement d'applications Web (code détaillé dans l'article d'origine)

Une application Streamlit est créée pour fournir une interface conviviale pour le téléchargement d'image, l'analyse et l'affichage des résultats. L'application comprend des onglets par exemple des produits, des téléchargements d'images et une capture de photos en direct. Le redimensionnement et la mise en cache d'image sont implémentés pour des performances optimales.

liens essentiels

  • Code complet: [Insérez le lien github ici]
  • Application déployée: [Insérer le lien d'application déployé ici]

Conclusion

Les agents d'IA multimodaux transforment la façon dont nous interagissons et comprenons des informations complexes. L'analyseur d'ingrédients du produit démontre la puissance de combiner la vision, la langue et la recherche Web pour fournir des informations accessibles et exploitables.

Questions fréquemment posées

  • Q1. Modèles multimodaux de vision en ligne open source: llava, pixtral-12b, multimodal-gpt, nvila et qwen sont des exemples.
  • Q2. Est-ce que Llama 3 Multimodal ?: Oui, Llama 3 et Llama 3.2 Les modèles de vision sont multimodaux.
  • Q3. LLM multimodal vs agent multimodal: un LLM traite les données multimodales; Un agent utilise des LLM et d'autres outils pour effectuer des tâches et prendre des décisions basées sur des entrées multimodales.

N'oubliez pas de remplacer les espaces réservés par vos clés API réelles. Le code complet et les liens d'application déployés doivent être ajoutés pour un guide complet et fonctionnel.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Guide d'un chef d'entreprise sur l'optimisation générative du moteur (GEO)Guide d'un chef d'entreprise sur l'optimisation générative du moteur (GEO)May 03, 2025 am 11:14 AM

Google mène ce changement. Sa fonction "AI AperSews" sert déjà plus d'un milliard d'utilisateurs, fournissant des réponses complètes avant que quiconque clique sur un lien. [^ 2] D'autres joueurs gagnent également du terrain rapidement. Chatgpt, Microsoft Copilot et PE

Cette startup utilise des agents d'IA pour lutterCette startup utilise des agents d'IA pour lutterMay 03, 2025 am 11:13 AM

En 2022, il a fondé la startup de défense de l'ingénierie sociale Doppel pour faire exactement cela. Et alors que les cybercriminels exploitent des modèles d'IA de plus en plus avancés pour turbuler leurs attaques, les systèmes d'IA de Doppel ont aidé les entreprises à les combattre à grande échelle - plus rapidement et

Comment les modèles mondiaux sont radicalement remodeler l'avenir de l'IA génératrice et des LLMComment les modèles mondiaux sont radicalement remodeler l'avenir de l'IA génératrice et des LLMMay 03, 2025 am 11:12 AM

Le tour est joué, via l'interaction avec les modèles mondiaux appropriés, l'IA et les LLM génératives peuvent être considérablement stimulées. Parlons-en. Cette analyse d'une percée innovante de l'IA fait partie de ma couverture de colonne Forbes en cours sur la dernière IA, y compris

Mai Jour 2050: Qu'avons-nous laissé pour célébrer?Mai Jour 2050: Qu'avons-nous laissé pour célébrer?May 03, 2025 am 11:11 AM

La fête du Travail 2050. Les parcs à travers le pays se remplissent de familles bénéficiant de barbecues traditionnelles tandis que les défilés nostalgiques vont dans les rues de la ville. Pourtant, la célébration porte désormais une qualité de musée - une reconstitution historique plutôt que la commémoration de C

Le détecteur DeepFake dont vous n'avez jamais entendu parler est précis à 98%Le détecteur DeepFake dont vous n'avez jamais entendu parler est précis à 98%May 03, 2025 am 11:10 AM

Pour aider à lutter contre cette tendance urgente et troublante, un article évalué par les pairs dans l'édition de février 2025 du TEM Journal fournit l'une des évaluations les plus claires et axées sur les données sur la présente affaire de la technologie de profondeur technologique. Chercheur

Quantum Talent Wars: La crise cachée menaçant la prochaine frontière de la technologieQuantum Talent Wars: La crise cachée menaçant la prochaine frontière de la technologieMay 03, 2025 am 11:09 AM

De la diminution considérablement du temps nécessaire pour formuler de nouveaux médicaments à la création d'énergie plus verte, il y aura d'énormes opportunités pour les entreprises de commencer. Il y a cependant un gros problème: il y a une grave pénurie de personnes avec les compétences Busi

Le prototype: ces bactéries peuvent produire de l'électricitéLe prototype: ces bactéries peuvent produire de l'électricitéMay 03, 2025 am 11:08 AM

Il y a des années, les scientifiques ont constaté que certains types de bactéries semblent respirer en générant de l'électricité, plutôt que de prendre de l'oxygène, mais comment ils l'ont fait était un mystère. Une nouvelle étude publiée dans la revue Cell identifie comment cela se produit: le microb

IA et cybersécurité: le calcul de 100 jours de la nouvelle administrationIA et cybersécurité: le calcul de 100 jours de la nouvelle administrationMay 03, 2025 am 11:07 AM

Lors de la conférence RSAC 2025 cette semaine, SNYK a accueilli un panel opportun intitulé «Les 100 premiers jours: comment l'IA, la politique et la cybersécurité se collèment», avec une gamme All-Star: Jen Easterly, ancienne directrice de la CISA; Nicole Perlroth, ancienne journaliste et partne

See all articles

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Outils chauds

SublimeText3 Linux nouvelle version

SublimeText3 Linux nouvelle version

Dernière version de SublimeText3 Linux

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

PhpStorm version Mac

PhpStorm version Mac

Le dernier (2018.2.1) outil de développement intégré PHP professionnel

mPDF

mPDF

mPDF est une bibliothèque PHP qui peut générer des fichiers PDF à partir de HTML encodé en UTF-8. L'auteur original, Ian Back, a écrit mPDF pour générer des fichiers PDF « à la volée » depuis son site Web et gérer différentes langues. Il est plus lent et produit des fichiers plus volumineux lors de l'utilisation de polices Unicode que les scripts originaux comme HTML2FPDF, mais prend en charge les styles CSS, etc. et présente de nombreuses améliorations. Prend en charge presque toutes les langues, y compris RTL (arabe et hébreu) ​​et CJK (chinois, japonais et coréen). Prend en charge les éléments imbriqués au niveau du bloc (tels que P, DIV),

Télécharger la version Mac de l'éditeur Atom

Télécharger la version Mac de l'éditeur Atom

L'éditeur open source le plus populaire