Heim  >  Artikel  >  Backend-Entwicklung  >  Was muss für den Python-Crawler installiert werden?

Was muss für den Python-Crawler installiert werden?

藏色散人
藏色散人Original
2019-07-05 10:28:2710762Durchsuche

Was muss für den Python-Crawler installiert werden?

80 % der Crawler weltweit werden auf Basis von Python entwickelt. Durch das Erlernen von Crawlerfähigkeiten können wichtige Datenquellen für die anschließende Big-Data-Analyse, das Mining, maschinelles Lernen usw. bereitgestellt werden.

Der Python-Crawler muss verwandte Bibliotheken installieren:

Am Python-Crawler beteiligte Bibliotheken:

Anforderungsbibliothek, Parsing-Bibliothek, Repository, Tool-Bibliothek

1. Bibliothek anfordern: urllib/re/requests

(1) urllib/re ist die Bibliothek, die standardmäßig mit Python geliefert wird und mit dem folgenden Befehl überprüft werden kann:

Es wird keine Fehlermeldung ausgegeben, was darauf hinweist, dass die Umgebung normal ist

(2) fordert Installation an

2.1 Öffnen Sie CMD und geben Sie

pip3 install requests

ein 2.2 Warten Sie auf die Installation und überprüfen Sie

(3) Selenium-Installation (steuert den Browser für das Website-Zugriffsverhalten)

3.1 Öffnen Sie CMD und geben Sie

pip3 install selenium
ein

3.2 Chromedriver installieren

Website: https://npm.taobao.org/

Entpacken Sie das heruntergeladene komprimierte Paket und legen Sie die Exe-Datei im Pfad D:Python3.6.0Scripts ab

Solange es sich in der PATH-Variablen befindet

3.3 Nachdem die Installation abgeschlossen ist, überprüfen Sie

und drücken Sie die Eingabetaste, um das Chrome aufzurufen Browseroberfläche

3.4 Andere Browser installieren

Schnittstellenloser Browser Phantomjs

Download-URL: http://phantomjs.org/

Nachdem der Download abgeschlossen ist, Entpacken Sie es und legen Sie das gesamte Verzeichnis in D: Python3.6.0 ab. Skripte, fügen Sie den Pfad zum bin-Verzeichnis zur PATH-Variablen hinzu

Überprüfung:

CMD öffnen

phantomjs
console.log('phantomjs')

CTRL+C

python
from selenium import webdriver
driver = webdriver.PhantomJS()
dirver.get('http://www.baidu.com')
driver.page_source

2 . Parsing-Bibliothek:

2.1 lxml (XPATH)

Öffnen Sie CMD

pip3 install lxml

oder laden Sie es von https://pypi.python.org herunter, zum Beispiel lxml -4.1.1-cp36-cp36m-win_amd64.whl (md5), laden Sie zuerst die WHL-Datei herunter

pip3 install 文件名.whl

2.2 beautifulsoup

Öffnen Sie CMD, Sie müssen lxml installieren

pip3 install beautifulsoup4

Überprüfung

python
from bs4 import BeautifulSoup
soup = BeautifulSoup(&#39;<html></html>&#39;,&#39;lxml&#39;)

2.3 pyquery (ähnlich der jquery-Syntax)

CMD öffnen

pip3 install pyquery

Installationsergebnisse überprüfen

python
from pyquery import PyQuery as pq
doc = pq(&#39;<html>hi</html>&#39;)
result = doc(&#39;html&#39;).text()
result

3. Repository

3.1 pymysql (Operation MySQL, relationale Datenbank)

Installation:

pip3 install pymysql

Post-Installationstest:

3.2 Pymongo (Betrieb von MongoDB, Schlüsselwert)

Installation

pip3 install pymongo

Verifizierung

python
import pymongo
client = pymongo.MongoClient(&#39;localhost&#39;)
db = client[&#39;testdb&#39;]
db[&#39;table&#39;].insert({&#39;name&#39;:&#39;bob&#39;})
db[&#39;table&#39;].find_one({&#39;name&#39;:&#39;bob&#39;})

3.3 Redis (verteilter Crawler, Crawling-Warteschlange beibehalten)

Installation:

pip3 install redis

Überprüfung:

4. Tool-Bibliothek

4.1 Flask (WEB-Bibliothek)

pip3 install flask

4.2 Django (verteiltes Crawler-Wartungssystem)

pip3 install django

4.3 jupyter (läuft auf der Webseite Notepad auf dem Client unterstützt Markdown und kann Code auf der Webseite ausführen)

pip3 install jupyter

Überprüfung:

Öffne CMD

jupyter notebook

und Sie können Notizblock- und Codeblöcke direkt auf der Webseite und Markdown-Blöcke erstellen und das Drucken unterstützen

[Verwandte Empfehlungen]

1. Python-Crawler-Bibliothek und zugehörige Tools

2. Erste Schritte mit Python-Crawlern-Tutorial

Das obige ist der detaillierte Inhalt vonWas muss für den Python-Crawler installiert werden?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn