Bauen Sie einen multimodalen Agenten für die Analyse der Produktzutat auf-KI-php.cn

Heim

Technologie-Peripheriegeräte

Bauen Sie einen multimodalen Agenten für die Analyse der Produktzutat auf

Joseph Gordon-Levitt

Mar 09, 2025 am 11:28 AM

Entsperren Sie die Geheimnisse der Produktzutaten mit einem multimodalen AI -Agenten! Sind Sie es leid, komplexe Zutatlisten zu entschlüsseln? Dieser Artikel zeigt, wie Sie mit Gemini 2.0, Phidata und Tavily Web Search einen leistungsstarken Produktzutatanalysator aufbauen können. Verabschieden Sie sich von zeitaufwändigen individuellen Zutatensuche und Hallo zu sofortigen, umsetzbaren Erkenntnissen!

wichtige Lernergebnisse

Dieses Tutorial führt Sie durch:

Entwerfen einer multimodalen AI-Agentenarchitektur, die Phidata und Gemini 2.0 für Visionsprachenaufgaben nutzt.
Integrieren Sie die Tavily -Web -Suche nach verbessertem Kontext und Informationsabruf in Ihren Agent -Workflow.
Erstellen eines Produkts für Produktzutatenanalysator, der die Bildverarbeitung und Web -Suche nach einer detaillierten Produktanalyse kombiniert.
Beherrschen der Kunst des Erstellens effektiver Systemaufforderungen und -anweisungen zur Optimierung der Agentenleistung in multimodalen Szenarien.
Entwickeln einer benutzerfreundlichen Stromversorgungs-Benutzeroberfläche für Echtzeit-Bildanalyse, Ernährungsinformationen und personalisierte Gesundheitsempfehlungen.

Dieser Artikel ist Teil des Data Science -Blogathons.

Inhaltsverzeichnis

multimodale Systeme verstehen
reale multimodale Anwendungen
Die Kraft multimodaler Wirkstoffe
Konstruktion Ihres Produkts Analysator Agent
Essentielle Links
Schlussfolgerung
häufig gestellte Fragen

multimodale Systeme verstehen

multimodale Systeme sind so konzipiert, dass sie verschiedene Datentypen gleichzeitig verarbeiten und interpretieren - einschließlich Text, Bildern, Audio und Videos. Visionsprachel-Modelle wie Gemini 2.0 Flash, GPT-4O, Claude Sonnet 3.5 und Pixtral-12b erkennen die komplizierten Beziehungen zwischen diesen Modalitäten und extrahieren wertvolles Wissen aus komplexen Eingaben. Dieser Artikel konzentriert sich auf Visionsprachmodelle, die Bilder analysieren und textuelle Erklärungen generieren. Diese Systeme mischen nahtlos Computer Vision und natürliche Sprachverarbeitung, um visuelle Informationen basierend auf Benutzeranforderungen zu interpretieren.

reale multimodale Anwendungen

multimodale Systeme revolutionieren verschiedene Branchen:

Finanzen: Verstehen Sie die komplexen finanziellen Begriffe sofort, indem Sie einfach einen Screenshot aufnehmen.
E-Commerce: detaillierte Inhaltsstoffanalyse und Gesundheitseinblicke erhalten, indem Produktetiketten fotografiert werden.
Ausbildung: Vereinfache Erklärungen für komplexe Diagramme und Konzepte aus Lehrbüchern.
Gesundheitswesen: Erhalt klare Erklärungen zu medizinischen Berichten und verschreibungspflichtigen Beschriftungen.

Die Leistung multimodaler Mittel

Die Verschiebung zu multimodalen Wirkstoffen stellt einen signifikanten Fortschritt bei der AI -Wechselwirkung dar. Hier ist der Grund, warum sie so effektiv sind:

gleichzeitige Verarbeitung visueller und Textdaten führt zu genauen und kontextreichen Antworten.
komplexe Informationen werden vereinfacht, sodass sie für ein breiteres Publikum leicht zugänglich sind.
Benutzer laden ein einzelnes Bild für eine umfassende Analyse hoch und beseitigen die Notwendigkeit einer manuellen Inhaltsstoffsuche.
Kombination der Websuche und Bildanalyse liefert vollständigere und zuverlässigere Erkenntnisse.

Konstruktion Ihres Produktzutaters Analysator Agent

Build a Multimodal Agent for Product Ingredient Analysis

bauen wir die Produktzutatanalyse-Agent Schritt für Schritt auf:

Schritt 1: Abhängigkeiten einrichten

Wir brauchen:

Gemini 2.0 Flash: Für leistungsstarke multimodale Verarbeitung.
suche: nach nahtloser Websuche Integration.
Phidata: Um das Agentensystem zu orchestrieren und Workflows zu verwalten.
streamlit: Erstellen einer benutzerfreundlichen Webanwendung.

!pip install phidata google-generativeai tavily-python streamlit pillow

Schritt 2: API -Setup und Konfiguration

API -Schlüssel erhalten von:

Gemini API -Schlüssel: https://www.php.cn/link/feac4a1c91eb74bfce13cb7c052c233b
Tavily API -Schlüssel: https://www.php.cn/link/c73ff6dceadedf3652d678cd790ff167

from phi.agent import Agent
from phi.model.google import Gemini # needs a api key
from phi.tools.tavily import TavilyTools # also needs a api key

import os
TAVILY_API_KEY = "<replace-your-api-key>"
GOOGLE_API_KEY = "<replace-your-api-key>"
os.environ['TAVILY_API_KEY'] = TAVILY_API_KEY
os.environ['GOOGLE_API_KEY'] = GOOGLE_API_KEY</replace-your-api-key></replace-your-api-key>

Schritt 3: Systemaufforderung und Anweisungen

Klare Anweisungen sind für eine optimale LLM -Leistung von entscheidender Bedeutung. Wir definieren die Rolle und Verantwortung des Agenten:

SYSTEM_PROMPT = """
You are an expert Food Product Analyst specialized in ingredient analysis and nutrition science. 
Your role is to analyze product ingredients, provide health insights, and identify potential concerns by combining ingredient analysis with scientific research. 
You utilize your nutritional knowledge and research works to provide evidence-based insights, making complex ingredient information accessible and actionable for users.
Return your response in Markdown format. 
"""

INSTRUCTIONS = """
* Read ingredient list from product image 
* Remember the user may not be educated about the product, break it down in simple words like explaining to 10 year kid
* Identify artificial additives and preservatives
* Check against major dietary restrictions (vegan, halal, kosher). Include this in response. 
* Rate nutritional value on scale of 1-5
* Highlight key health implications or concerns
* Suggest healthier alternatives if needed
* Provide brief evidence-based recommendations
* Use Search tool for getting context
"""

Schritt 4: Definieren des Agentenobjekts

Der Phidata -Agent ist so konfiguriert, dass er Markdown und Anweisungen verarbeitet und betrieben wird. Gemini 2.0 Flash wird als Argumentationsmodell verwendet, und die Tavily -Suche wird für eine effiziente Websuche integriert.

agent = Agent(
    model = Gemini(),
    tools = [TavilyTools()],
    markdown=True,
    system_prompt = SYSTEM_PROMPT,
    instructions = INSTRUCTIONS
)

Schritt 5: Multimodale Bildverarbeitung

Geben Sie den Bildpfad oder die URL zusammen mit einer Eingabeaufforderung an, um eine Analyse zu initiieren. Beispiele, die beide Ansätze verwenden, finden Sie im ursprünglichen Artikel.

Schritt 6 & 7: Streamlit Web App -Entwicklung

(detaillierter Code im Originalartikel)

Eine streamlitische Anwendung wird erstellt, um eine benutzerfreundliche Schnittstelle für Bild-Upload, Analyse und Ergebnisanzeige für Bild anzubieten. Die App enthält Registerkarten, beispielsweise Produkte, Bild -Uploads und Live -Fotoerfassung. Bild -Größen- und -daching werden für eine optimale Leistung implementiert.

Essentielle Links

Schlussfolgerung

multimodale AI -Mittel transformieren, wie wir mit komplexen Informationen interagieren und verstehen. Der Produktzutatanalysator für Produkte demonstriert die Kraft, Vision, Sprache und Websuche zu kombinieren, um zugängliche, umsetzbare Erkenntnisse zu liefern.

häufig gestellte Fragen

Q1. Open-Source Multimodal Vision-Sprach-Modelle: llava, pixtral-12b, multimodal-gpt, nvila und qwen sind Beispiele.
Q2. Ist Lama 3 multimodal ?: Ja, Lama 3 und Lama 3.2 Vision -Modelle sind multimodal.
Q3. Multimodal LLM vs. Multimodal Agent: A LLM verarbeitet multimodale Daten; Ein Agent verwendet LLMs und andere Tools, um Aufgaben auszuführen und Entscheidungen basierend auf multimodalen Eingängen zu treffen.

Denken Sie daran, die Platzhalter durch Ihre tatsächlichen API -Schlüssel zu ersetzen. Der vollständige Code und die bereitgestellten App -Links sollten für eine vollständige und funktionale Anleitung hinzugefügt werden.

Das obige ist der detaillierte Inhalt vonBauen Sie einen multimodalen Agenten für die Analyse der Produktzutat auf. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Verwandter Artikel

Ein Leitfaden für Unternehmensleiter zur generativen Motoroptimierung (GEO)May 03, 2025 am 11:14 AM

Google führt diese Verschiebung an. Die Funktion "KI -Übersichten" bietet bereits mehr als eine Milliarde Nutzer und liefert vollständige Antworten, bevor jemand auf einen Link klickt. [^2] Andere Spieler gewinnen ebenfalls schnell an Boden. Chatgpt, Microsoft Copilot und PE

Dieses Startup verwendet AI -Agenten, um böswillige Anzeigen und Imitatorkonten zu bekämpfenMay 03, 2025 am 11:13 AM

Im Jahr 2022 gründete er Social Engineering Defense Startup Doppel, um genau das zu tun. Und da Cybercriminals immer fortgeschrittenere KI -Modelle zum Turbo -Ladung ihrer Angriffe nutzen, haben die KI -Systeme von Doppel dazu beigetragen, sie im Maßstab zu bekämpfen - schneller und

Wie Weltmodelle die Zukunft der generativen KI und der LLMs radikal umformierenMay 03, 2025 am 11:12 AM

Voila kann durch die Interaktion mit geeigneten Weltmodellen im Wesentlichen angehoben werden. Reden wir darüber. Diese Analyse eines innovativen KI -Durchbruch

Mai Tag 2050: Was haben wir gegangen, um zu feiern?May 03, 2025 am 11:11 AM

Labor Day 2050. Parks im ganzen Land füllen sich mit Familien, die traditionelle Grillen genießen, während nostalgische Paraden durch die Straßen der Stadt winden. Die Feier hat nun nun eine museumähnliche Qualität-historische Nachstellung als das Gedenken an C

Der DeepFake -Detektor, von dem Sie noch nie gehört haben, dass dies zu 98% genau istMay 03, 2025 am 11:10 AM

Um diesen dringenden und beunruhigenden Trend zu beheben, bietet ein von Experten begutachteter Artikel im Februar 2025 des TEM Journal eine der klarsten, datengesteuerten Bewertungen, wo diese technologische DeepFake derzeit steht. Forscher

Quantentalentkriege: Die versteckte Krise bedroht die nächste Grenze des TechniksMay 03, 2025 am 11:09 AM

Angesichts der dauernden Zeit, die nötig ist, um neue Medikamente zu formulieren, bis zur Schaffung umweltfreundlicherer Energie, wird es für Unternehmen große Möglichkeiten geben, neue Wege zu brechen. Es gibt jedoch ein großes Problem: Es gibt einen schwerwiegenden Mangel an Menschen mit den Fähigkeiten,

Der Prototyp: Diese Bakterien können Strom erzeugenMay 03, 2025 am 11:08 AM

Vor Jahren stellten Wissenschaftler fest, dass bestimmte Arten von Bakterien durch Elektrizität zu atmen scheinen, anstatt Sauerstoff aufzunehmen, aber wie sie dies taten, war ein Rätsel. Eine neue in der Journal Cell veröffentlichte Studie identifiziert, wie dies geschieht: die Mikrob

KI und Cybersicherheit: Die 100-Tage-Abrechnung der neuen VerwaltungMay 03, 2025 am 11:07 AM

Auf der RSAC 2025-Konferenz in dieser Woche veranstaltete Snyk ein zeitnahes Panel mit dem Titel „Die ersten 100 Tage: How AI, Policy & Cybersecurity Collide“ mit einer All-Star-Aufstellung: Jen Eastersh, ehemaliger CISA-Direktor; Nicole Perlroth, ehemalige Journalistin und Partne

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

4 Wochen vorByDDD

Wie kann ich KB5055523 in Windows 11 nicht installieren?

3 Wochen vorByDDD

Wie kann ich KB5055518 in Windows 10 nicht installieren?

3 Wochen vorByDDD

Kraftstufen für jeden Feind & Monster in R.E.P.O.

3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Blauer Prinz: Wie man zum Keller kommt

3 Wochen vorByDDD

Heiße Werkzeuge

mPDF

mPDF ist eine PHP-Bibliothek, die PDF-Dateien aus UTF-8-codiertem HTML generieren kann. Der ursprüngliche Autor, Ian Back, hat mPDF geschrieben, um PDF-Dateien „on the fly“ von seiner Website auszugeben und verschiedene Sprachen zu verarbeiten. Es ist langsamer und erzeugt bei der Verwendung von Unicode-Schriftarten größere Dateien als Originalskripte wie HTML2FPDF, unterstützt aber CSS-Stile usw. und verfügt über viele Verbesserungen. Unterstützt fast alle Sprachen, einschließlich RTL (Arabisch und Hebräisch) und CJK (Chinesisch, Japanisch und Koreanisch). Unterstützt verschachtelte Elemente auf Blockebene (wie P, DIV),