Maison >développement back-end >Tutoriel Python >Comment créer des agents IA capables d'utiliser n'importe quel site Web
Connecter les agents IA au Web : le parcours d'un développeur et l'essor de l'utilisation de l'ordinateur
L'un des obstacles majeurs au développement d'agents IA au cours des deux dernières années a été l'octroi d'un accès fiable au Web. Considérons un agent IA conçu pour envoyer des emails : comment le connecter à Gmail ou Outlook ? API, sites Web ou agents Web autonomes ? Cet article explore diverses méthodes.
API et SDK : une approche limitée
De nombreux développeurs utilisent des API et des SDK. Cela offre une faible latence et une authentification robuste, mais des limites existent :
Heureusement, plusieurs services proposent des bibliothèques d'appels API :
Cependant, pour un accès universel aux services Web, nous devons aller au-delà des API.
Interaction avec le site Web : l'approche humaine
Une interaction fiable avec le site Web de l'agent IA permet d'automatiser toute tâche humaine basée sur le Web. Mais comment ?
De nombreux développeurs utilisent initialement des frameworks de test de navigateur comme Selenium ou Playwright. Cette approche se heurte cependant à des défis :
Pour résoudre ces problèmes, nous avons expérimenté un SDK de navigateur qui :
get_element("find the login button")
) au lieu de sélecteurs CSS fragiles.Ce travail, désormais open-source (Dendrite SDK), n'est plus en développement actif mais reste disponible pour étude et adaptation. Des alternatives similaires incluent :
Utilisation de l'ordinateur : l'avenir des agents d'IA Web ?
La « Leçon amère » de Rich Sutton met en évidence la domination des solutions d'IA généralisables et évolutives avec un calcul accru. Computer Use d'Anthropic incarne ce principe, permettant aux LLM de contrôler directement les ordinateurs/navigateurs à l'aide de la souris et du clavier, éliminant ainsi le besoin de scripts et d'appels d'API. Leur approche met l'accent sur les compétences informatiques générales plutôt que sur les outils spécifiques à des tâches. Cela correspond parfaitement à la Bitter Lesson, suggérant que les agents d’IA les plus polyvalents interagiront directement avec le Web comme les humains. Les premiers résultats montrent une grande fiabilité dans les tâches complexes utilisant des invites bien conçues, souvent améliorées par l'améliorateur d'invite d'Anthropic.
Conclusion : Embrasser l’avenir
Bien que les API restent précieuses, l'avenir favorisera probablement les approches de type utilisation informatique pour la plupart des agents d'IA. Si un agent peut se connecter et utiliser la fonction de recherche d'un site Web pour extraire des conclusions des meilleurs résultats, pourquoi s'appuyer sur l'intégralité de la base de données via une API ? La question pour les développeurs d’IA est de savoir s’ils doivent adopter cette approche généralisable ou risquer de se heurter aux limites de méthodes plus spécialisées.
Remarque : Ceci est mon premier message de développement. Les commentaires sur l’amélioration des futurs articles sont les bienvenus. Les questions sur les agents IA ou l’automatisation des tâches basée sur l’IA sont également encouragées.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!