搜索
首页科技周边人工智能建立用于产品成分分析的多模式代理

用多模式AI代理解锁产品成分的秘密! 厌倦了解密的复杂成分列表?本文向您展示了如何使用Gemini 2.0,Phidata和Tavily Web搜索来构建功能强大的产品成分分析仪。 告别耗时的个人成分搜索,并向即时,可行的见解!

键学习成果

本教程将指导您通过:

设计多模式AI代理体系结构利用Phidata和Gemini 2.0进行视觉语言任务。
  • 集成坦维利的Web搜索以在您的代理工作流程中进行增强的上下文和信息检索。
  • 构建产品成分分析仪代理,该代理专业结合图像处理和网络搜索以详细的产品分析。
  • 掌握制作有效系统提示和说明的艺术,以优化多模式场景中的代理性能。
  • >开发一个用户友好的简化UI,以实时图像分析,营养信息和个性化的健康建议。

>本文是数据科学博客马拉松的一部分。 > 目录的

了解多模式系统

    现实世界的多模式应用
  • 多模式剂的力量
  • 构建产品成分分析仪代理
  • 基本链接
  • 结论
  • 常见问题
  • 了解多模式系统

>多模式系统旨在同时处理和解释多种数据类型,包括文本,图像,音频和视频。诸如Gemini 2.0 Flash,GPT-4O,Claude Sonnet 3.5和Pixtral-12b Excel之类的视觉语言模型在识别这些模式之间的复杂关系,从而从复杂的输入中提取了宝贵的知识。 本文重点介绍了分析图像并生成文本解释的视觉模型。 这些系统无缝将计算机视觉和自然语言处理融合,以根据用户提示来解释视觉信息。

现实世界多模式应用

多模式系统正在彻底改变各种行业:

财务:
    >通过简单地拍摄屏幕截图即可立即理解复杂的财务条款。
  • 通过拍摄产品标签,> 电子商务:
  • 获得详细的成分分析和健康见解。
  • 教育:
  • 获得了教科书中复杂图和概念的简化解释。
  • 医疗保健:
  • >收到有关医疗报告和处方标签的明确说明。
  • 多模式剂的力量

>向多模式剂的转变代表了AI相互作用的显着进步。 这就是为什么它们如此有效:

  • >同时处理视觉和文本数据会导致更精确和上下文富裕的响应。
  • 复杂的信息被简化,使得更广泛的受众可以轻松访问。
  • >用户上传单个图像以进行综合分析,消除了对手动成分搜索的需求。
  • 结合Web搜索和图像分析提供了更完整和可靠的见解。
  • >

构建产品成分分析仪代理>

Build a Multimodal Agent for Product Ingredient Analysis

>让我们逐步构建产品成分分析代理:>

步骤1:设置依赖项

> 我们需要:

gemini 2.0 Flash:用于强大的多模式处理。
    >
  • tavely搜索:用于无缝的Web搜索集成。
  • Phidata:编排代理系统并管理工作流程。>
  • 简化:创建一个用户友好的Web应用程序。
  • 步骤2:API设置和配置
>
!pip install phidata google-generativeai tavily-python streamlit pillow
从:

获取API键 Gemini API键:

https://www.php.cn/link/link/feacyc4a1c91eb74bfce13cb7c052c2c233b

tavily api键:
    https://www.php.cn/link/link/c73ff6dceadef3652d678cd790ff167 >步骤3:系统提示和说明
  • 明确的说明对于最佳LLM性能至关重要。 我们将定义代理人的角色和责任:
from phi.agent import Agent
from phi.model.google import Gemini # needs a api key
from phi.tools.tavily import TavilyTools # also needs a api key

import os
TAVILY_API_KEY = "<replace-your-api-key>"
GOOGLE_API_KEY = "<replace-your-api-key>"
os.environ['TAVILY_API_KEY'] = TAVILY_API_KEY
os.environ['GOOGLE_API_KEY'] = GOOGLE_API_KEY</replace-your-api-key></replace-your-api-key>
>

步骤4:定义代理对象>

> Phidata代理被配置为根据系统提示和说明进行处理和操作。 Gemini 2.0 Flash用作推理模型,并且集成了Tavily搜索以进行有效的Web搜索。

SYSTEM_PROMPT = """
You are an expert Food Product Analyst specialized in ingredient analysis and nutrition science. 
Your role is to analyze product ingredients, provide health insights, and identify potential concerns by combining ingredient analysis with scientific research. 
You utilize your nutritional knowledge and research works to provide evidence-based insights, making complex ingredient information accessible and actionable for users.
Return your response in Markdown format. 
"""

INSTRUCTIONS = """
* Read ingredient list from product image 
* Remember the user may not be educated about the product, break it down in simple words like explaining to 10 year kid
* Identify artificial additives and preservatives
* Check against major dietary restrictions (vegan, halal, kosher). Include this in response. 
* Rate nutritional value on scale of 1-5
* Highlight key health implications or concerns
* Suggest healthier alternatives if needed
* Provide brief evidence-based recommendations
* Use Search tool for getting context
"""
>

步骤5:多模式图像处理

提供图像路径或URL以及提示来启动分析。 使用两种方法的示例在原始文章中提供了。

步骤6&7:简化Web应用程序开发
agent = Agent(
    model = Gemini(),
    tools = [TavilyTools()],
    markdown=True,
    system_prompt = SYSTEM_PROMPT,
    instructions = INSTRUCTIONS
)
(原始文章中的详细代码)

> 创建一个简化的应用程序,以提供一个用户友好的接口,以进行图像上传,分析和结果显示。 该应用程序包括示例产品,图像上传和实时照片捕获的选项卡。 图像调整大小和缓存是为最佳性能实施的。

基本链接

完整代码:[insert github链接在此处]

>部署的应用程序:[插入部署的应用链接在此处] >

结论

多模式A​​I代理正在改变我们与复杂信息的互动和理解的方式。 产品成分分析仪展示了将视觉,语言和网络搜索相结合以提供可访问的,可操作的见解的力量。

>常见问题

  • Q1。开源多模式视觉语言模型:llava,pixtral-12b,多模式-GPT,NVILA和QWEN是示例。
  • Q2。 Llama 3多模式吗?:是的,Llama 3和Llama 3.2视觉模型是多模式的。
  • Q3。多模式LLM与多模式代理: llm处理多模式数据;代理使用LLM和其他工具来执行任务并根据多模式输入做出决策。
  • 记住用实际的API键代替占位符。 应添加完整的代码和部署的应用链接,以获取完整且功能指南。

以上是建立用于产品成分分析的多模式代理的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
商业领袖生成引擎优化指南(GEO)商业领袖生成引擎优化指南(GEO)May 03, 2025 am 11:14 AM

Google正在领导这一转变。它的“ AI概述”功能已经为10亿用户提供服务,在任何人单击链接之前提供完整的答案。[^2] 其他球员也正在迅速获得地面。 Chatgpt,Microsoft Copilot和PE

该初创公司正在使用AI代理来与恶意广告和模仿帐户进行战斗该初创公司正在使用AI代理来与恶意广告和模仿帐户进行战斗May 03, 2025 am 11:13 AM

2022年,他创立了社会工程防御初创公司Doppel,以此做到这一点。随着网络犯罪分子越来越高级的AI模型来涡轮增压,Doppel的AI系统帮助企业对其进行了大规模的对抗 - 更快,更快,

世界模型如何从根本上重塑生成AI和LLM的未来世界模型如何从根本上重塑生成AI和LLM的未来May 03, 2025 am 11:12 AM

瞧,通过与合适的世界模型进行交互,可以实质上提高生成的AI和LLM。 让我们来谈谈。 对创新AI突破的这种分析是我正在进行的《福布斯》列的最新覆盖范围的一部分,包括

2050年五月:我们要庆祝什么?2050年五月:我们要庆祝什么?May 03, 2025 am 11:11 AM

劳动节2050年。全国范围内的公园充满了享受传统烧烤的家庭,而怀旧游行则穿过城市街道。然而,庆祝活动现在具有像博物馆般的品质 - 历史重演而不是纪念C

您从未听说过的DeepFake探测器准确是98%您从未听说过的DeepFake探测器准确是98%May 03, 2025 am 11:10 AM

为了帮助解决这一紧急且令人不安的趋势,在2025年2月的TEM期刊上进行了同行评审的文章,提供了有关该技术深击目前面对的最清晰,数据驱动的评估之一。 研究员

量子人才战争:隐藏的危机威胁技术的下一个边界量子人才战争:隐藏的危机威胁技术的下一个边界May 03, 2025 am 11:09 AM

从大大减少制定新药所需的时间到创造更绿色的能源,企业将有巨大的机会打破新的地面。 不过,有一个很大的问题:严重缺乏技能的人

原型:这些细菌可以产生电力原型:这些细菌可以产生电力May 03, 2025 am 11:08 AM

几年前,科学家发现某些类型的细菌似乎通过发电而不是吸收氧气而呼吸,但是它们是如何做到的,这是一个谜。一项发表在“杂志”杂志上的新研究确定了这种情况的发生方式:Microb

AI和网络安全:新政府的100天估算AI和网络安全:新政府的100天估算May 03, 2025 am 11:07 AM

在本周的RSAC 2025会议上,Snyk举办了一个及时的小组,标题为“前100天:AI,Policy&Cyber​​security Collide如何相撞”,其中包括全明星阵容:前CISA董事Jen Easterly;妮可·珀洛斯(Nicole Perlroth),前记者和帕特纳(Partne)

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

功能强大的PHP集成开发环境

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能