Maison >Périphériques technologiques >IA >Comment construire un système agentique multimodal pour les informations de stock?

Comment construire un système agentique multimodal pour les informations de stock?

William Shakespeare
William Shakespeareoriginal
2025-03-04 10:41:10422parcourir

Les systèmes agentiques multimodaux représentent un progrès révolutionnaire dans le domaine de l'intelligence artificielle, combinant de manière transparente divers types de données, tels que le texte, les images, l'audio et la vidéo - dans un système unifié qui améliore considérablement les capacités des technologies intelligentes. Ces systèmes reposent sur des agents intelligents autonomes qui peuvent traiter, analyser et synthétiser indépendamment les informations provenant de diverses sources, facilitant une compréhension plus profonde et plus nuancée des situations complexes.

En fusionnant les entrées multimodales avec des fonctionnalités agentiques, ces systèmes peuvent s'adapter dynamiquement en temps réel aux environnements changeants et aux interactions utilisateur, offrant une expérience plus réactive et intelligente. Cette fusion stimule non seulement l'efficacité opérationnelle dans une gamme d'industries, mais augmente également les interactions humaines-ordinateur, ce qui les rend plus fluides, intuitives et contextuellement conscientes. En conséquence, les cadres agentiques multimodaux sont prêts à remodeler la façon dont nous interagissons et utilisons la technologie, ce qui stimule l'innovation dans d'innombrables applications entre les secteurs.

Objectifs d'apprentissage

  • Avantages des systèmes d'IA agentiques avec analyse d'image avancée
  • Comment l'outil de vision de l'équipage de l'IA améliore les capacités d'IA agentiques?
  • Aperçu du modèle Deepseek-R1-Distill-QWEN-7B et de ses fonctionnalités
  • Tutoriel python pratique intégrant l'outil de vision avec Deepseek R1
  • Construire un système multi-modal multi-agentim pour l'analyse des stocks
  • Analyser et comparer les comportements de stock à l'aide de graphiques boursiers

Cet article a été publié dans le cadre du Data Science Blogathon.

Table des matières

  • Systèmes AI agents avec des capacités d'analyse d'image
  • Construire un système agentique multimodal pour expliquer le comportement des stocks à partir de graphiques boursiers
  • Implémentation pratique de Python à l'aide de l'ollama sur Google Cola Insights
  • Conclusions
  • Questions fréquemment posées
  • Systèmes d'IA agentiques avec capacités d'analyse d'image

Les systèmes d'IA agentiques, fortifiés avec des capacités d'analyse d'images sophistiquées, transforment les industries en permettant une suite de fonctions indispensables.

  • Traitement des données visuelles instantanées: Ces systèmes avancés possèdent la capacité d'analyser d'immenses quantités d'informations visuelles en temps réel, améliorant considérablement l'efficacité opérationnelle dans divers secteurs, notamment les soins de santé, la fabrication et le commerce de détail. Ce traitement rapide facilite la prise de décision rapide et les réponses immédiates aux conditions dynamiques.
  • Précision supérieure dans la reconnaissance d'image: Bénéficiant de taux de précision de reconnaissance dépassant 95%, l'agence AI diminue considérablement la survenue de faux positifs dans les tâches de reconnaissance d'image. Ce niveau de précision élevé se traduit par des résultats plus fiables et dignes de confiance, cruciaux pour les applications où la précision est primordiale.
  • Exécution des tâches autonomes: En incorporant de manière transparente l'analyse d'images dans leurs cadres opérationnels, ces systèmes intelligents peuvent exécuter de manière autonome des tâches complexes, comme fournir des diagnostics médicaux ou effectuer des opérations de surveillance, le tout sans avoir besoin d'une surveillance humaine directe. Cette automatisation rationalise non seulement les flux de travail, mais minimise également le potentiel d'erreur humaine, ouvrant la voie à une productivité et une fiabilité accrue.

Crew Ai Vision Tool

Crewai est un cadre de pointe et open source conçu pour orchestrer les agents d'IA autonomes dans des équipes cohérentes, leur permettant de lutter contre les tâches complexes en collaboration. Au sein de Crewai, chaque agent se voit attribuer des rôles spécifiques, équipé d'outils désignés et entraîné par des objectifs bien définis, reflétant la structure d'une équipe de travail réelle.

L'outil de vision étend les capacités de Crewai, permettant aux agents de traiter et de comprendre les données texte basées sur l'image, intégrant ainsi les informations visuelles dans leurs processus de prise de décision. Les agents peuvent tirer parti de l'outil de vision pour extraire le texte des images en fournissant simplement une URL ou un chemin de fichier, améliorant leur capacité à recueillir des informations à partir de diverses sources. Une fois le texte extrait, les agents peuvent ensuite utiliser ces informations pour générer des réponses complètes ou des rapports détaillés, automatiser davantage les workflows et améliorer l'efficacité globale. Pour utiliser efficacement l'outil de vision, il est nécessaire de définir la clé API OpenAI dans les variables d'environnement, assurant une intégration transparente avec les modèles de langage.

Construire un système agentique multimodal pour expliquer le comportement des stocks des graphiques des stocks

Nous allons construire un système agentique multimodal sophistiqué qui tiendra d'abord l'outil de vision de Crewai conçu pour interpréter et analyser les graphiques boursiers (présentés comme des images) de deux sociétés. Ce système exploitera ensuite la puissance du modèle Deepseek-R1-Distill-QWEN-7B pour fournir des explications détaillées du comportement de ces sociétés, offrant des informations bien liées aux performances des deux sociétés et en comparant leur comportement. Cette approche permet une compréhension complète et une comparaison des tendances du marché en combinant l'analyse des données visuelles avec des modèles de langage avancé, permettant la prise de décision éclairée.

Comment construire un système agentique multimodal pour les informations de stock?

Deepseek-R1-Distill-Qwen-7b

Pour adapter les capacités de raisonnement avancées de Deepseek R1 à utiliser dans des modèles de langage plus compacts, les créateurs ont compilé un ensemble de données de 800 000 exemples générés par Deepseek R1 lui-même. Ces exemples ont ensuite été utilisés pour affiner les modèles existants tels que Qwen et Llama. Les résultats ont démontré que cette méthode de distillation de connaissances relativement simple a effectivement transféré les capacités de raisonnement sophistiqué de R1 à ces autres modèles

Le modèle Deepseek-R1-Distill-QWEN-7B est l'un des modèles Distillé Deepseek R1. Il s'agit d'une version distillée de la plus grande architecture Deepseek-R1, conçue pour offrir une efficacité améliorée tout en conservant des performances robustes. Voici quelques fonctionnalités clés:

Le modèle excelle dans les tâches mathématiques, atteignant un score impressionnant de 92,8% sur le référence MATH-500, démontrant sa capacité à gérer efficacement le raisonnement mathématique complexe.

En plus de ses prouesses mathématiques, le deepseek-r1-distill-qwen-7b fonctionne assez bien sur les tâches de réponses aux questions factuelles, le score 49,1% sur le diamant GPQA, indiquant un bon équilibre entre les capacités de raisonnement mathématique et factuel.

Nous tirons parti de ce modèle pour expliquer et trouver des raisonnements derrière le comportement des actions des sociétés après l'extraction d'informations à partir d'images du graphique en stock.

Comment construire un système agentique multimodal pour les informations de stock?

Implémentation pratique python à l'aide d'Olllama sur Google Colab

Nous utiliserons Olllama pour tirer les modèles LLM et utiliser le GPU T4 sur Google Colab pour construire ce système agentique multimodal.

Étape 1. Installez les bibliothèques nécessaires

!pip install crewai crewai_tools
!sudo apt update
!sudo apt install -y pciutils
!pip install langchain-ollama
!curl -fsSL https://ollama.com/install.sh | sh
!pip install ollama==0.4.2

Étape 2. Activation du threading pour configurer le serveur Olllama

import threading
import subprocess
import time

def run_ollama_serve():
  subprocess.Popen(["ollama", "serve"])

thread = threading.Thread(target=run_ollama_serve)
thread.start()
time.sleep(5)

Étape 3. Tirer les modèles Olllama

!ollama pull deepseek-r1

Étape 4. Définition de la clé API OpenAI et du modèle LLM

import os
from crewai import Agent, Task, Crew, Process, LLM
from crewai_tools import LlamaIndexTool
from langchain_openai import ChatOpenAI
from crewai_tools import VisionTool
vision_tool = VisionTool()

os.environ['OPENAI_API_KEY'] =''
os.environ["OPENAI_MODEL_NAME"] = "gpt-4o-mini"

llm = LLM(
    
    model="ollama/deepseek-r1",
)

Étape 5. Définition des agents, tâches dans l'équipage

def create_crew(image_url,image_url1):

  #Agent For EXTRACTNG INFORMATION FROM STOCK CHART
  stockchartexpert= Agent(
        role="STOCK CHART EXPERT",
        goal="Your goal is to EXTRACT INFORMATION FROM THE TWO GIVEN %s & %s stock charts correctly """%(image_url, image_url1),
        backstory="""You are a STOCK CHART expert""",
        verbose=True,tools=[vision_tool],
        allow_delegation=False

    )

  #Agent For RESEARCH WHY THE STOCK BEHAVED IN A SPECIFIC WAY
  stockmarketexpert= Agent(
        role="STOCK BEHAVIOUR EXPERT",
        goal="""BASED ON THE PREVIOUSLY EXTRACTED INFORMATION ,RESEARCH ABOUT THE RECENT UPDATES OF THE TWO COMPANIES and EXPLAIN AND COMPARE IN SPECIFIC POINTS WHY THE STOCK BEHAVED THIS WAY . """,
        backstory="""You are a STOCK BEHAVIOUR EXPERT""",
        verbose=True,

        allow_delegation=False,llm = llm
         )

  #Task For EXTRACTING INFORMATION FROM A STOCK CHART
  task1 = Task(
      description="""Your goal is to EXTRACT INFORMATION FROM THE GIVEN %s & %s stock chart correctly """%((image_url,image_url1)),
      expected_output="information in text format",
      agent=stockchartexpert,
  )

  #Task For EXPLAINING WITH ENOUGH REASONINGS WHY THE STOCK BEHAVED IN A SPECIFIC WAY
  task2 = Task(
      description="""BASED ON THE PREVIOUSLY EXTRACTED INFORMATION ,RESEARCH ABOUT THE RECENT UPDATES OF THE TWO COMPANIES and EXPLAIN AND COMPARE IN SPECIFIC POINTS WHY THE STOCK BEHAVED THIS WAY.""",
      expected_output="Reasons behind stock behavior in BULLET POINTS",
      agent=stockmarketexpert
  )
 
  #Define the crew based on the defined agents and tasks
  crew = Crew(
      agents=[stockchartexpert,stockmarketexpert],
      tasks=[task1,task2],
      verbose=True,  # You can set it to 1 or 2 to different logging levels
  )

  result = crew.kickoff()
  return result

Étape 6. Exécution de l'équipage

Les deux graphiques de deux stocks ci-dessous ont été donnés en tant qu'apport à l'équipage

Comment construire un système agentique multimodal pour les informations de stock?

Comment construire un système agentique multimodal pour les informations de stock?

text = create_crew("https://www.eqimg.com/images/2024/11182024-chart6-equitymaster.gif","https://www.eqimg.com/images/2024/03262024-chart4-equitymaster.gif")
pprint(text)

Comment construire un système agentique multimodal pour les informations de stock?

Comment construire un système agentique multimodal pour les informations de stock?

Sortie finale

Mamaearth's stock exhibited volatility during the year due to internal<br> challenges that led to significant price changes. These included unexpected<br> product launches and market controversies which caused both peaks and<br> troughs in the share price, resulting in an overall fluctuating trend.<br><br>On the other hand, Zomato demonstrated a generally upward trend in its share<br> price over the same period. This upward movement can be attributed to<br> expanding business operations, particularly with successful forays into<br> cities like Bengaluru and Pune, enhancing their market presence. However,<br> near the end of 2024, external factors such as a major scandal or regulatory<br> issues might have contributed to a temporary decline in share price despite<br> the overall positive trend.<br><br>In summary, Mamaearth's stock volatility stems from internal inconsistencies<br> and external controversies, while Zomato's upward trajectory is driven by<br> successful market expansion with minor setbacks due to external events.

Comme le montre la production finale, le système agentique a donné une assez bonne analyse et comparaison des comportements du cours des actions des graphiques boursiers avec des raisons suffisantes comme une incursion dans les villes, et l'expansion des opérations commerciales derrière la tendance à la hausse du cours de l'action de Zomato.

Un autre exemple de système agentique multimodal pour les informations de stock

Vérifions et comparons le comportement du cours des actions des graphiques d'actions pour deux autres sociétés - Jubilant Food Works & Bikaji Foods International Ltd. pour l'an 2024.

Comment construire un système agentique multimodal pour les informations de stock?

Comment construire un système agentique multimodal pour les informations de stock?

text = create_crew("https://s3.tradingview.com/p/PuKVGTNm_mid.png","https://images.cnbctv18.com/uploads/2024/12/bikaji-dec12-2024-12-b639f48761fab044197b144a2f9be099.jpg?im=Resize,width=360,aspect=fit,type=normal")
print(text)

Comment construire un système agentique multimodal pour les informations de stock?

Comment construire un système agentique multimodal pour les informations de stock?

Sortie finale

The stock behavior of Jubilant Foodworks and Bikaji can be compared based on<br> their recent updates and patterns observed in their stock charts.<br><br>Jubilant Foodworks:<br><br>Cup & Handle Pattern: This pattern is typically bullish, indicating that the<br> buyers have taken control after a price decline. It suggests potential<br> upside as the candlestick formation may signal a reversal or strengthening<br> buy interest.<br><br>Breakout Point: The horizontal dashed line marking the breakout point implies<br> that the stock has reached a resistance level and may now test higher<br> prices. This is a positive sign for bulls, as it shows strength in the<br> upward movement.<br><br>Trend Line Trend: The uptrend indicated by the trend line suggests ongoing<br> bullish sentiment. The price consistently moves upwards along this line,<br> reinforcing the idea of sustained growth.<br><br>Volume Correlation: Volume bars at the bottom showing correlation with price<br> movements indicate that trading volume is increasing alongside upward price<br> action. This is favorable for buyers as it shows more support and stronger<br> interest in buying.<br><br>Bikaji:<br><br>Recent Price Change: The stock has shown a +4.80% change, indicating positive<br> momentum in the short term.<br><br>Year-to-Date Performance: Over the past year, the stock has increased by<br> 61.42%, which is significant and suggests strong growth potential. This<br> performance could be attributed to various factors such as market<br> conditions, company fundamentals, or strategic initiatives.<br><br>Time Frame: The time axis spans from January to December 2024, providing a<br> clear view of the stock's performance over the next year.<br><br>Comparison:<br><br>Both companies' stocks are showing upward trends, but Jubilant Foodworks has<br> a more specific bullish pattern (Cup & Handle) that supports its current<br> movement. Bikaji, on the other hand, has demonstrated strong growth over the<br> past year and continues to show positive momentum with a recent price<br> increase. The volume in Jubilant Foodworks correlates well with upward<br> movements, indicating strong buying interest, while Bikaji's performance<br> suggests sustained or accelerated growth.<br><br>The stock behavior reflects different strengths: Jubilant Foodworks benefits<br> from a clear bullish pattern and strong support levels, whereas Bikaji<br> stands out with its year-to-date growth. Both indicate positive<br> developments, but the contexts and patterns differ slightly based on their<br> respective market positions and dynamics.

Comme le montre la production finale, le système agentique a donné une assez bonne analyse et comparaison des comportements du cours des actions des graphiques boursiers avec des explications élaborées sur les tendances observées comme les performances soutenues de Bikaji contrairement au modèle optimiste de FoodWorks de Bikaji.

Conclusions

En conclusion, les cadres agentiques multimodaux marquent un changement transformateur dans l'IA en mélangeant divers types de données pour une meilleure prise de décision en temps réel. Ces systèmes améliorent l'intelligence adaptative en intégrant une analyse d'image avancée et des capacités agentiques. En conséquence, ils optimisent l'efficacité et la précision dans divers secteurs. L'outil de vision de l'équipage et le modèle R1 Deepseek montrent comment ces cadres permettent des applications sophistiquées, comme l'analyse du comportement des stocks. Cette progression met en évidence le rôle croissant de l'IA dans la stimulation de l'innovation et l'amélioration de la prise de décision.

Les plats clés

  1. Frameworks agentiques multimodaux: Ces frameworks intègrent du texte, des images, de l'audio et de la vidéo dans un système d'IA unifié, améliorant les capacités d'intelligence artificielle. Les agents intelligents de ces systèmes traitent, analysent et synthétisent indépendamment les informations à partir de diverses sources. Cette capacité leur permet de développer une compréhension nuancée des situations complexes, ce qui rend l'IA plus adaptable et réactif.
  2. Adaptation en temps réel: En fusionnant les entrées multimodales avec une fonctionnalité agentique, ces systèmes s'adaptent dynamiquement aux environnements changeants. Cette adaptabilité permet des interactions utilisateur plus réactives et intelligentes. L'intégration de plusieurs types de données améliore l'efficacité opérationnelle dans divers secteurs, notamment les soins de santé, la fabrication et le commerce de détail. Il améliore la vitesse de décision et la précision, conduisant à de meilleurs résultats
  3. Capacités d'analyse d'images: Les systèmes d'IA agentiques avec reconnaissance d'image avancée peuvent traiter de grands volumes de données visuelles en temps réel, fournissant des résultats précis pour les applications où la précision est critique. Ces systèmes effectuent de manière autonome des tâches complexes, telles que les diagnostics médicaux et la surveillance, réduisant l'erreur humaine et améliorant la productivité.
  4. Crew Ai Vision Tool: Cet outil permet aux agents autonomes au sein de Crewai d'extraire et de traiter le texte des images, d'améliorer leurs capacités de prise de décision et d'améliorer l'efficacité globale du flux de travail.
  5. Deepseek-R1-Distill-QWEN-7B: Ce modèle distillé offre des performances robustes tout en étant plus compact, en excellant dans des tâches telles que le raisonnement mathématique et la réponse aux questions factuelles, ce qui le rend adapté à l'analyse du comportement des stocks.

Le média présenté dans cet article ne appartient pas à l'analyse vidhya et est utilisé à la discrétion de l'auteur.

Les questions fréquemment posées

Q1. Quels sont les cadres agentiques multimodaux dans AI?

ANS. Les cadres agentiques multimodaux combinent divers types de données comme le texte, les images, l'audio et la vidéo dans un système d'IA unifié. Cette intégration permet aux agents intelligents d'analyser et de traiter plusieurs formes de données pour une prise de décision plus nuancée et efficace.

Q2. Qu'est-ce que l'équipage AI?

Ans. Crew IA est un cadre avancé et open source conçu pour coordonner les agents d'IA autonomes en équipes cohérentes qui travaillent en collaboration pour effectuer des tâches complexes. Chaque agent du système se voit attribuer un rôle spécifique, équipé d'outils désignés et entraîné par des objectifs bien définis, imitant la structure et la fonction d'une équipe de travail réelle.

Q3. Comment l'outil de vision de l'équipage AI améliore-t-il les systèmes multimodaux?

ANS. L'outil de vision de l'équipage AI permet aux agents d'extraire et de traiter le texte des images. Cette capacité permet au système de comprendre les données visuelles et de les intégrer dans les processus de prise de décision, améliorant davantage l'efficacité du flux de travail.

Q4. Quelles industries peuvent bénéficier des systèmes d'IA agentiques avec des capacités d'analyse d'image?

ANS. Ces systèmes sont particulièrement bénéfiques dans les industries comme les soins de santé, la fabrication et le commerce de détail, où l'analyse en temps réel et la précision de la reconnaissance d'image sont essentielles pour les tâches telles que le diagnostic médical et le contrôle de la qualité.

Q5. Quels sont les modèles distillés de Deepseek R1?

ANS. Les modèles distillés de Deepseek-R1 sont des versions plus petites et plus efficaces du plus grand modèle Deepseek-R1, créé à l'aide d'un processus appelé distillation, qui préserve une grande partie de la puissance de raisonnement du modèle d'origine tout en réduisant les demandes de calcul. Ces modèles distillés sont affinés à l'aide de données générées par Deepseek-R1. Quelques exemples de ces modèles distillés sont Deepseek-R1-Distill-QWEN-1.5B, Deepseek-R1-Distill-Qwen-7B, Deepseek-R1-Distill-Qwen-14b, Deepseek-R1-Distill-Lama-8b entre autres.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn