Maison  >  Article  >  développement back-end  >  Que savoir sur le robot d'exploration Python

Que savoir sur le robot d'exploration Python

silencement
silencementoriginal
2019-05-16 18:41:566433parcourir

Un robot d'exploration, connu sous le nom de robot Web, est plus communément appelé chasseur de pages Web dans la communauté FOAF. Il s'agit d'un programme ou d'un script qui capture automatiquement les informations du World Wide Web selon certaines règles. Il est principalement utilisé dans la recherche. moteurs. Il lit tout le contenu et les liens d’un site Web, crée des index de texte intégral pertinents dans la base de données, puis passe à un autre site Web. Les robots d'exploration traditionnels partent de l'URL d'une ou plusieurs pages Web initiales, obtiennent l'URL sur la page Web initiale, puis extraient continuellement de nouvelles URL de la page actuelle et les mettent dans la file d'attente jusqu'à ce que certaines conditions d'arrêt du système soient remplies.

Que savoir sur le robot d'exploration Python

Préparation avant d'étudier

1. Un amour pour apprendre

2. un clavier (n'importe quel système fera l'affaire. J'utilise os x, donc les exemples seront basés sur ceci)

3. Quelques connaissances préliminaires liées au html. Pas besoin d’être compétent, juste un peu de compréhension suffit ! Connaissance de base de la syntaxe de Python.

Parcours d'apprentissage spécifique

Il est généralement divisé en trois aspects majeurs :

1. bs4 --- re)

2. Crawler de framework à grande échelle (framework Scrapy principalement)

3. Crawler de simulation de navigateur (simulation Mechanize et simulation Selenium)

Étapes spécifiques :

1. Installation et utilisation de Beautiful Soup

demande la bibliothèque, installez l'environnement Beautiful Soup Crawler, l'analyseur Beautiful Soup, les règles régulières de la bibliothèque L'utilisation de expressions, pratique du robot d'exploration bs4. Obtenez le contenu de la pratique du robot d'exploration Baidu Tieba bs4, obtenez les informations gagnantes de Shuangseqiu, pratique du robot d'exploration bs4, obtenez le point de départ de la pratique du robot d'exploration bs4, obtenez les informations sur le film, pratique du robot d'exploration bs4. Obtenez la liste de la chaîne Yueyin

2. Cadre de robot d'exploration Scrapy

Installez Scrapy, sélecteur Xpath et CSS dans la pratique du robot d'exploration Scrapy, le cinéma et la télévision d'aujourd'hui Pratique du robot d'exploration Scrapy, prévisions météorologiques Pratique du robot d'exploration Scrapy, obtenez Pratique du robot Scrapy de l'agent, Encyclopédie des encyclopédies Pratique du robot Scrapy, attaque et défense liées au robot (lié au pool d'agents)

3. Robot de simulation de navigateur

Installation et utilisation du module Mechanize, utilisez Mechanize pour obtenir les annonces des stations musicales, installation et utilisation du module Selenium, sélection du navigateur PhantomJS, pratique Selenium & PhantomJS, obtention du proxy Selenium & PhantomJS, robot d'exploration de bandes dessinées ;

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Article précédent:Que signifie python elif ?Article suivant:Que signifie python elif ?