Maison >développement back-end >Tutoriel Python >Comment créer des agents IA capables d'utiliser n'importe quel site Web

Comment créer des agents IA capables d'utiliser n'importe quel site Web

Susan Sarandon
Susan Sarandonoriginal
2025-01-08 00:02:40208parcourir

Connecter les agents IA au Web : le parcours d'un développeur et l'essor de l'utilisation de l'ordinateur

L'un des obstacles majeurs au développement d'agents IA au cours des deux dernières années a été l'octroi d'un accès fiable au Web. Considérons un agent IA conçu pour envoyer des emails : comment le connecter à Gmail ou Outlook ? API, sites Web ou agents Web autonomes ? Cet article explore diverses méthodes.

API et SDK : une approche limitée

De nombreux développeurs utilisent des API et des SDK. Cela offre une faible latence et une authentification robuste, mais des limites existent :

  • Indisponibilité des API : Tous les services Web ne fournissent pas d'API.
  • Défis en matière de documentation : Une documentation obsolète ou mal rédigée est courante.
  • Lacunes des fonctionnalités : Les API ne disposent souvent pas de toutes les fonctionnalités de leurs sites Web correspondants, ce qui entrave des tâches spécifiques.

Heureusement, plusieurs services proposent des bibliothèques d'appels API :

  • Composio : Fournit des outils pour les agents IA avec une authentification forte.
  • Outils Langchain : Une ressource pour les agents Langchain/graph.
  • Apify : Une vaste bibliothèque d'API pilotée par la communauté.

Cependant, pour un accès universel aux services Web, nous devons aller au-delà des API.

Interaction avec le site Web : l'approche humaine

Une interaction fiable avec le site Web de l'agent IA permet d'automatiser toute tâche humaine basée sur le Web. Mais comment ?

De nombreux développeurs utilisent initialement des frameworks de test de navigateur comme Selenium ou Playwright. Cette approche se heurte cependant à des défis :

  • Fragilité : Les modifications apportées au site Web (par exemple, les tests A/B) interrompent facilement les scripts.
  • Détectabilité : Les navigateurs de test sont facilement identifiés et bloqués.
  • Déploiement en production : L'hébergement des navigateurs, la gestion de l'authentification et la rotation des proxys sont complexes en production.

Pour résoudre ces problèmes, nous avons expérimenté un SDK de navigateur qui :

  1. Utilise des sélecteurs de langage naturel (par exemple, get_element("find the login button")) au lieu de sélecteurs CSS fragiles.
  2. Intégre l'authentification intégrée.
  3. Propose un hébergement à distance préconfiguré avec des proxys rotatifs intégrés pour éviter le blocage.

Ce travail, désormais open-source (Dendrite SDK), n'est plus en développement actif mais reste disponible pour étude et adaptation. Des alternatives similaires incluent :

  • AgentQL : Une bibliothèque Python.
  • Stagehand : Une bibliothèque JavaScript/TypeScript.

Utilisation de l'ordinateur : l'avenir des agents d'IA Web ?

La « Leçon amère » de Rich Sutton met en évidence la domination des solutions d'IA généralisables et évolutives avec un calcul accru. Computer Use d'Anthropic incarne ce principe, permettant aux LLM de contrôler directement les ordinateurs/navigateurs à l'aide de la souris et du clavier, éliminant ainsi le besoin de scripts et d'appels d'API. Leur approche met l'accent sur les compétences informatiques générales plutôt que sur les outils spécifiques à des tâches. Cela correspond parfaitement à la Bitter Lesson, suggérant que les agents d’IA les plus polyvalents interagiront directement avec le Web comme les humains. Les premiers résultats montrent une grande fiabilité dans les tâches complexes utilisant des invites bien conçues, souvent améliorées par l'améliorateur d'invite d'Anthropic.

Conclusion : Embrasser l’avenir

Bien que les API restent précieuses, l'avenir favorisera probablement les approches de type utilisation informatique pour la plupart des agents d'IA. Si un agent peut se connecter et utiliser la fonction de recherche d'un site Web pour extraire des conclusions des meilleurs résultats, pourquoi s'appuyer sur l'intégralité de la base de données via une API ? La question pour les développeurs d’IA est de savoir s’ils doivent adopter cette approche généralisable ou risquer de se heurter aux limites de méthodes plus spécialisées.

Remarque : Ceci est mon premier message de développement. Les commentaires sur l’amélioration des futurs articles sont les bienvenus. Les questions sur les agents IA ou l’automatisation des tâches basée sur l’IA sont également encouragées. How to Build AI Agents that can Use any Website How to Build AI Agents that can Use any Website How to Build AI Agents that can Use any Website How to Build AI Agents that can Use any Website

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn