首页 >科技周边 >人工智能 >建立用于产品成分分析的多模式代理

建立用于产品成分分析的多模式代理

Joseph Gordon-Levitt
Joseph Gordon-Levitt原创
2025-03-09 11:28:09656浏览

用多模式AI代理解锁产品成分的秘密! 厌倦了解密的复杂成分列表?本文向您展示了如何使用Gemini 2.0,Phidata和Tavily Web搜索来构建功能强大的产品成分分析仪。 告别耗时的个人成分搜索,并向即时,可行的见解!

键学习成果

本教程将指导您通过:

设计多模式AI代理体系结构利用Phidata和Gemini 2.0进行视觉语言任务。
  • 集成坦维利的Web搜索以在您的代理工作流程中进行增强的上下文和信息检索。
  • 构建产品成分分析仪代理,该代理专业结合图像处理和网络搜索以详细的产品分析。
  • 掌握制作有效系统提示和说明的艺术,以优化多模式场景中的代理性能。
  • >开发一个用户友好的简化UI,以实时图像分析,营养信息和个性化的健康建议。

>本文是数据科学博客马拉松的一部分。 > 目录的

了解多模式系统

    现实世界的多模式应用
  • 多模式剂的力量
  • 构建产品成分分析仪代理
  • 基本链接
  • 结论
  • 常见问题
  • 了解多模式系统

>多模式系统旨在同时处理和解释多种数据类型,包括文本,图像,音频和视频。诸如Gemini 2.0 Flash,GPT-4O,Claude Sonnet 3.5和Pixtral-12b Excel之类的视觉语言模型在识别这些模式之间的复杂关系,从而从复杂的输入中提取了宝贵的知识。 本文重点介绍了分析图像并生成文本解释的视觉模型。 这些系统无缝将计算机视觉和自然语言处理融合,以根据用户提示来解释视觉信息。

现实世界多模式应用

多模式系统正在彻底改变各种行业:

财务:
    >通过简单地拍摄屏幕截图即可立即理解复杂的财务条款。
  • 通过拍摄产品标签,> 电子商务:
  • 获得详细的成分分析和健康见解。
  • 教育:
  • 获得了教科书中复杂图和概念的简化解释。
  • 医疗保健:
  • >收到有关医疗报告和处方标签的明确说明。
  • 多模式剂的力量

>向多模式剂的转变代表了AI相互作用的显着进步。 这就是为什么它们如此有效:

  • >同时处理视觉和文本数据会导致更精确和上下文富裕的响应。
  • 复杂的信息被简化,使得更广泛的受众可以轻松访问。
  • >用户上传单个图像以进行综合分析,消除了对手动成分搜索的需求。
  • 结合Web搜索和图像分析提供了更完整和可靠的见解。
  • >

构建产品成分分析仪代理>

Build a Multimodal Agent for Product Ingredient Analysis

>让我们逐步构建产品成分分析代理:>

步骤1:设置依赖项

> 我们需要:

gemini 2.0 Flash:用于强大的多模式处理。
    >
  • tavely搜索:用于无缝的Web搜索集成。
  • Phidata:编排代理系统并管理工作流程。>
  • 简化:创建一个用户友好的Web应用程序。
  • 步骤2:API设置和配置
>
!pip install phidata google-generativeai tavily-python streamlit pillow
从:

获取API键 Gemini API键:

https://www.php.cn/link/link/feacyc4a1c91eb74bfce13cb7c052c2c233b

tavily api键:
    https://www.php.cn/link/link/c73ff6dceadef3652d678cd790ff167 >步骤3:系统提示和说明
  • 明确的说明对于最佳LLM性能至关重要。 我们将定义代理人的角色和责任:
from phi.agent import Agent
from phi.model.google import Gemini # needs a api key
from phi.tools.tavily import TavilyTools # also needs a api key

import os
TAVILY_API_KEY = "<replace-your-api-key>"
GOOGLE_API_KEY = "<replace-your-api-key>"
os.environ['TAVILY_API_KEY'] = TAVILY_API_KEY
os.environ['GOOGLE_API_KEY'] = GOOGLE_API_KEY</replace-your-api-key></replace-your-api-key>
>

步骤4:定义代理对象>

> Phidata代理被配置为根据系统提示和说明进行处理和操作。 Gemini 2.0 Flash用作推理模型,并且集成了Tavily搜索以进行有效的Web搜索。

SYSTEM_PROMPT = """
You are an expert Food Product Analyst specialized in ingredient analysis and nutrition science. 
Your role is to analyze product ingredients, provide health insights, and identify potential concerns by combining ingredient analysis with scientific research. 
You utilize your nutritional knowledge and research works to provide evidence-based insights, making complex ingredient information accessible and actionable for users.
Return your response in Markdown format. 
"""

INSTRUCTIONS = """
* Read ingredient list from product image 
* Remember the user may not be educated about the product, break it down in simple words like explaining to 10 year kid
* Identify artificial additives and preservatives
* Check against major dietary restrictions (vegan, halal, kosher). Include this in response. 
* Rate nutritional value on scale of 1-5
* Highlight key health implications or concerns
* Suggest healthier alternatives if needed
* Provide brief evidence-based recommendations
* Use Search tool for getting context
"""
>

步骤5:多模式图像处理

提供图像路径或URL以及提示来启动分析。 使用两种方法的示例在原始文章中提供了。

步骤6&7:简化Web应用程序开发
agent = Agent(
    model = Gemini(),
    tools = [TavilyTools()],
    markdown=True,
    system_prompt = SYSTEM_PROMPT,
    instructions = INSTRUCTIONS
)
(原始文章中的详细代码)

> 创建一个简化的应用程序,以提供一个用户友好的接口,以进行图像上传,分析和结果显示。 该应用程序包括示例产品,图像上传和实时照片捕获的选项卡。 图像调整大小和缓存是为最佳性能实施的。

基本链接

完整代码:[insert github链接在此处]

>部署的应用程序:[插入部署的应用链接在此处] >

结论

多模式A​​I代理正在改变我们与复杂信息的互动和理解的方式。 产品成分分析仪展示了将视觉,语言和网络搜索相结合以提供可访问的,可操作的见解的力量。

>常见问题

  • Q1。开源多模式视觉语言模型:llava,pixtral-12b,多模式-GPT,NVILA和QWEN是示例。
  • Q2。 Llama 3多模式吗?:是的,Llama 3和Llama 3.2视觉模型是多模式的。
  • Q3。多模式LLM与多模式代理: llm处理多模式数据;代理使用LLM和其他工具来执行任务并根据多模式输入做出决策。
  • 记住用实际的API键代替占位符。 应添加完整的代码和部署的应用链接,以获取完整且功能指南。

以上是建立用于产品成分分析的多模式代理的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn