Maison >développement back-end >Tutoriel Python >Ce qui doit être installé pour le robot d'exploration Python

Ce qui doit être installé pour le robot d'exploration Python

藏色散人
藏色散人original
2019-07-05 10:28:2710925parcourir

Ce qui doit être installé pour le robot d'exploration Python

80 % des robots d'exploration dans le monde sont développés sur la base de Python. L'apprentissage des compétences des robots d'exploration peut fournir des sources de données importantes pour l'analyse ultérieure du Big Data, l'exploration, l'apprentissage automatique, etc.

Le robot d'exploration Python doit installer les bibliothèques associées :

Bibliothèques impliquées dans le robot d'exploration Python :

Bibliothèque de requête, bibliothèque d'analyse, référentiel, bibliothèque d'outils

1. Bibliothèque de requêtes : urllib/re/requests

(1) urllib/re est la bibliothèque fournie avec python par défaut et peut être vérifiée par la commande suivante :

Aucun message d'erreur n'est affiché, indiquant que l'environnement est normal

(2) demande l'installation

2.1 Ouvrez CMD, entrez

pip3 install requests

2.2 Attendez l'installation et vérifiez

(3) Installation de Selenium (pilote le navigateur pour le comportement d'accès au site Web)

3.1 Ouvrez CMD et entrez

pip3 install selenium

3.2 Installer Chromedriver

Site Web : https://npm.taobao.org/

Décompressez le package compressé téléchargé et placez l'exe dans le chemin D:Python3.6.0Scripts

Tant qu'il est dans la variable PATH

3.3 Une fois l'installation terminée, vérifiez

et appuyez sur Entrée pour faire apparaître le chrome interface du navigateur

3.4 Installer d'autres navigateurs

Navigateur sans interface phantomjs

URL de téléchargement : http://phantomjs.org/

Une fois le téléchargement terminé, décompressez-le et mettez le répertoire entier dans D:Python3.6.0Scripts, ajoutez le chemin du répertoire bin à la variable PATH

Vérification :

Ouvrir CMD

phantomjs
console.log('phantomjs')

CTRL+C

python
from selenium import webdriver
driver = webdriver.PhantomJS()
dirver.get('http://www.baidu.com')
driver.page_source

2 . Bibliothèque d'analyse :

2.1 lxml (XPATH)

Ouvrez CMD

pip3 install lxml

ou téléchargez-la depuis https://pypi.python.org, par exemple, lxml. -4.1.1-cp36-cp36m-win_amd64.whl ( md5), téléchargez d'abord le fichier whl

pip3 install 文件名.whl

2.2 beautifulsoup

Ouvrez CMD, vous devez installer lxml

pip3 install beautifulsoup4

Vérification

python
from bs4 import BeautifulSoup
soup = BeautifulSoup(&#39;<html></html>&#39;,&#39;lxml&#39;)

2.3 pyquery (similaire à jquery) Syntaxe)

Ouvrir CMD

pip3 install pyquery

Vérifier les résultats de l'installation

python
from pyquery import PyQuery as pq
doc = pq(&#39;<html>hi</html>&#39;)
result = doc(&#39;html&#39;).text()
result

3. Dépôt

3.1 pymysql (opération MySQL, base de données relationnelle)

Installation :

pip3 install pymysql

Test post-installation :

3.2 pymongo (fonctionnement de MongoDB, clé-valeur)

Installation

pip3 install pymongo

Vérification

python
import pymongo
client = pymongo.MongoClient(&#39;localhost&#39;)
db = client[&#39;testdb&#39;]
db[&#39;table&#39;].insert({&#39;name&#39;:&#39;bob&#39;})
db[&#39;table&#39;].find_one({&#39;name&#39;:&#39;bob&#39;})

3.3 redis (crawler distribué, maintenir la file d'attente d'exploration)

Installation :

pip3 install redis

Vérification :

4. Bibliothèque d'outils

4.1 flask (bibliothèque WEB)

pip3 install flask

4.2 Django (système de maintenance distribué sur chenilles)

pip3 install django

4.3 jupyter (exécuté sur la page Web Le Bloc-notes sur le client prend en charge le markdown et peut exécuter du code sur la page Web)

pip3 install jupyter

Vérification :

Ouvrir CMD

jupyter notebook

et vous pouvez créer un bloc-notes et des blocs de code directement sur la page Web et des blocs Markdown, prendre en charge l'impression

[Recommandations associées]

1 bibliothèque de robots d'exploration Python et outils associés<.>

2.

Tutoriel de démarrage avec les robots d'exploration Python

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn