Heim >Backend-Entwicklung >Python-Tutorial >Welches Buch sollte der Python-Crawler lesen?

Welches Buch sollte der Python-Crawler lesen?

爱喝马黛茶的安东尼
爱喝马黛茶的安东尼Original
2019-06-12 10:52:384944Durchsuche

Die Webcrawler-Technologie wird immer nützlicher als praktische Möglichkeit, Online-Informationen zu sammeln und daraus nutzbare Informationen zu extrahieren. Mit einer einfachen Programmiersprache wie Python können Sie komplexe Websites mit minimalen Programmierkenntnissen crawlen.

Welches Buch sollte der Python-Crawler lesen?

„Web Crawler in Python schreiben“ ist eine hervorragende Anleitung zur Verwendung von Python zum Crawlen von Netzwerkdaten. Es erklärt, wie man Daten von statischen Seiten crawlt und den Cache zum Verwalten von Servern verwendet. Lademethode. Darüber hinaus erklärt dieses Buch, wie man Daten mithilfe von AJAX-URLs und Firebug-Erweiterungen extrahiert, sowie weitere Fakten zu Scraping-Techniken wie der Verwendung von Browser-Rendering, der Verwaltung von Cookies und dem Senden von Formularen aus komplexen Websites, die durch CAPTCHAs geschützt sind, zum Extrahieren von Daten usw. Dieses Buch verwendet Scrapy, um einen erweiterten Webcrawler zu erstellen und einige echte Websites zu crawlen.

Verwandte Empfehlungen: „Python-Video-Tutorial

Welches Buch sollte der Python-Crawler lesen?

„Writing Web Crawler in Python“ stellt den folgenden Inhalt vor:

Crawlen Sie die Website, indem Sie den Links folgen.

Verwenden Sie lxml, um Daten aus der Seite zu extrahieren.

Erstellen Sie einen Thread-Crawler, um die Seite parallel zu crawlen >

Heruntergeladene Inhalte zwischenspeichern, um den Bandbreitenverbrauch zu reduzieren;

Interaktion mit Formularen und Sitzungen; CAPTCHA-Probleme lösen; 🎜>

AJAX-Aufrufe zurückentwickeln

Verwenden Sie Scrapy, um erweiterte Crawler zu erstellen.

Wer liest dieses Buch?

Dieses Buch richtet sich an Entwickler, die zuverlässige Daten-Crawling-Lösungen erstellen möchten. Dieses Buch setzt voraus, dass die Leser über einige Kenntnisse der Python-Programmierung verfügen Erfahrung. Natürlich können auch Leser mit Erfahrung in der Entwicklung anderer Programmiersprachen dieses Buch lesen und die darin enthaltenen Konzepte und Prinzipien verstehen.

Über den Autor · · · · · ·

Richard Lawson kommt aus Australien und hat einen Abschluss in Informatik an der University of Melbourne. Nach seinem Abschluss gründete er ein auf Web-Crawling spezialisiertes Unternehmen, das Unternehmen in über 50 Ländern Remote-Arbeit ermöglichte. Er beherrscht Esperanto, kann sich auf Chinesisch und Koreanisch unterhalten und beschäftigt sich aktiv mit Open-Source-Software. Derzeit absolviert er ein Aufbaustudium an der Universität Oxford und verbringt seine Freizeit mit der Entwicklung autonomer Drohnen.

Inhaltsverzeichnis · · · · · · ·

Inhaltsverzeichnis

Kapitel 1 Einführung in Web Crawler 1

1.1 Wann sind Webcrawler nützlich1

1.2 Sind Webcrawler legal21.3 Hintergrundrecherche3

1.3.1 Überprüfen Sie robots.txt 3

1.3.2 Überprüfen Sie die Sitemap4

1.3.3 Schätzen Sie die Größe der Website5

1.3.4 Identifizieren Sie die auf der Website verwendete Technologie7

1.3.5 Finden der Websitebesitzer7

1.4 Den ersten Webcrawler schreiben 8

1.4.1 Webseiten herunterladen 9

1.4.2 Sitemap-Crawler 12

1.4. 3 ID-Traversal-Crawler 13

1.4.4 Link-Crawler 15

1.5 Kapitelzusammenfassung 22

Kapitel 2 Datenerfassung

2.1 Analysieren von Webseiten 23

2.2 Drei Web-Scraping-Methoden 262.2.1 Regulärer Ausdruck 26

2.2.2 Beautiful Soup 28

2.2.3 Lxml 30

2.2.4 Leistungsvergleich 32

2.2.5 Fazit 35

2.2.6 Crawl-Callback für Link-Crawler hinzufügen 35

2.3 Zusammenfassung davon Kapitel 38

Kapitel 3 Download-Caching 39

3.1 Caching-Unterstützung für Link-Crawler hinzufügen 39

3.2 Festplatten-Caching 423.2 . 1. Implementierung 44

3.2.2 Cache-Test 46

3.2.3 Speicherplatz sparen 46

3.2.4 Bereinigen abgelaufener Daten 47

3.2.5 Nachteile 48

3.3 Datenbank-Cache 49

3.3.1 Was ist NoSQL50

3.3.2 Installation von MongoDB 50

3.3.3 Überblick über MongoDB 50

3.3.4 MongoDB-Cache-Implementierung 52

3.3.5 Komprimierung 54

3.3.6 Cache-Test 54

3.4 Zusammenfassung dieses Kapitels 55

Kapitel 4 Gleichzeitiger Download 57

4.1 1 Million Webseiten 57

4.2 Serieller Crawler 604.3 Multithread-Crawler 60

4.3.1 Funktionsweise von Threads und Prozessen61

4.3.2 Implementierung61

4.3.3 Multiprozess-Crawler63

4.4 Leistung67

4.5 Zusammenfassung dieses Kapitels 68

Kapitel 5 Dynamischer Inhalt 69

5.1 Beispiele für dynamische Webseiten 69

5.2 Reverse Engineering von dynamischem Web Seiten 725.3 Dynamische Webseiten rendern 77

5.3.1 PyQt oder PySide 78

5.3.2 JavaScript ausführen 78

5.3.3 WebKit verwenden zur Interaktion mit der Website 80

5.3.4 Selenium 85

5.4 Kapitelzusammenfassung 88

Kapitel 6 Formularinteraktion 89

6.1 Anmeldeformular 90

6.2 Anmeldeskripterweiterung, die Inhaltsaktualisierungen unterstützt 976.3 Verwendung des Mechanize-Moduls zur Implementierung der automatisierten Formularverarbeitung 100

6.4 Zusammenfassung dieses Kapitels 102

Kapitel 7 Verifizierungscode-Verarbeitung 103

7.1 Registrieren eines Kontos 103

7.2 Optische Zeichenerkennung 1067.3 Verarbeitung komplexer Verifizierungscodes 111

7.3.1 Verifizierungscode-Verarbeitungsdienst 112 verwenden

7.3.2 9kw Erste Schritte 112

7.3.3 Integration mit der Registrierungsfunktion 119

7.4 Zusammenfassung dieses Kapitels 120

Kapitel 8 Scrapy 121

8.1 Installation 121

8.2 Starten Sie das Projekt 122

8.2.1 Definieren Sie das Modell 123

8.2.2 Erstellen Sie einen Crawler 124

8.2.3 Verwenden Sie Shell-Befehle zum Crawlen 128

8.2.4 Ergebnisse überprüfen 129

8.2.5 Crawler unterbrechen und fortsetzen 132

8.3 Verwenden Sie Portia, um visuelle Crawler zu schreiben 133

8.3.1 Installation 133

8.3.2 Anmerkung 136

8.3.3 Crawler optimieren 138

8.3.4 Ergebnisse überprüfen 140

8.4 Mit Scrapely automatisiertes Crawlen erreichen 141

8.5 Zusammenfassung dieses Kapitels 142

Zusammenfassung von Kapitel 9 143

9.1 Google-Suchmaschine 143

9.2 Facebook 148

9.2. 1. Website 148

9.2.2 API 150

9.3 Lücke 151

9.4 BMW 153

9.5 Zusammenfassung davon Kapitel 157

Das obige ist der detaillierte Inhalt vonWelches Buch sollte der Python-Crawler lesen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn