Heim >Backend-Entwicklung >Python-Tutorial >Was ist ein Crawler? Einführung in Konzepte im Python-Webcrawler
Der Inhalt dieses Artikels befasst sich mit der Frage: Was ist ein Crawler? Die Einführung von Konzepten in Python-Webcrawlern hat einen gewissen Referenzwert. Freunde in Not können sich darauf beziehen.
Einführung in Crawler-bezogene Konzepte
a) Was ist ein Crawler:
Ein Crawler wird geschrieben von Das Programm simuliert den Prozess, bei dem ein Browser im Internet surft und ihn dann Daten aus dem Internet crawlen lässt.
b) Welche Sprachen können Crawler implementieren:
1.php: Kann Crawler implementieren. PHP gilt als die schönste Sprache der Welt (das ist natürlich eine eigene Behauptung, was bedeutet, dass Wang Po Melonen verkauft), aber PHP schneidet bei der Unterstützung von Multithreading und Multiprozess in Crawlern nicht gut ab.
2.java: Crawler kann implementiert werden. Java kann Crawler sehr gut handhaben und implementieren. Es ist das einzige, das mit Python mithalten kann, und ist Pythons größter Konkurrent. Allerdings ist der Java-Crawler-Code relativ aufgebläht und die Kosten für die Rekonstruktion sind hoch.
3.c, c++: Crawler können implementiert werden. Die Verwendung dieser Methode zur Implementierung von Crawlern spiegelt jedoch lediglich die Fähigkeiten einiger Leute (großer Leute) wider, ist jedoch keine kluge und vernünftige Wahl.
4.python: Crawler können implementiert werden. Python verfügt über eine einfache Syntax zum Implementieren und Verarbeiten von Crawlern, schönen Code, unterstützt viele Module, geringe Lernkosten, verfügt über ein sehr leistungsfähiges Framework (Scrapy usw.) und ist unbeschreiblich gut! Nein aber!
c) Klassifizierung von Crawlern: Je nach Nutzungsszenario können sie in die folgenden zwei Kategorien unterteilt werden
1. Universal-Crawler sind Suchmaschinen (Baidu , Google, Yahoo usw. ) ein wichtiger Teil des „Crawling-Systems“. Der Hauptzweck besteht darin, Webseiten aus dem Internet auf den lokalen Computer herunterzuladen, um eine Spiegelsicherung der Internetinhalte zu erstellen.
1) Wie crawlen Suchmaschinen Website-Daten im Internet?
a) Das Portal stellt dem Suchmaschinenunternehmen aktiv die URL seiner Website zur Verfügung
b) Das Suchmaschinenunternehmen arbeitet mit dem DNS-Dienstleister zusammen, um die URL der Website zu erhalten
c) Portal Die Website verlinkt aktiv auf die benutzerfreundlichen Links einiger bekannter Websites
2. Fokussierter Crawler: Fokussierter Crawler crawlt bestimmte Daten im Netzwerk basierend auf bestimmten Anforderungen. Beispiel: Rufen Sie den Namen und die Filmrezensionen des Films auf Douban ab, anstatt alle Datenwerte auf der gesamten Seite abzurufen.
d) robots.txt-Protokoll:
Wenn Sie nicht möchten, dass die Daten auf der angegebenen Seite in Ihrem Portal vom Crawler-Programm gecrawlt werden, können Sie bestehen Schreiben Sie eine robots.txt-Protokolldatei, um das Daten-Crawling des Crawler-Programms einzuschränken. Das Schreibformat des Roboterprotokolls kann auf den Robotern von Taobao beobachtet werden (besuchen Sie einfach www.taobao.com/robots.txt). Es ist jedoch zu beachten, dass diese Vereinbarung nur einer mündlichen Vereinbarung gleichkommt und keine relevanten Technologien zur obligatorischen Kontrolle verwendet. Daher dient diese Vereinbarung dem Schutz vor Herren und nicht vor Schurken. Aber das Crawler-Programm, das wir in der Crawler-Lernphase schreiben, kann das Roboterprotokoll zunächst ignorieren.
e) Anti-Crawler:
Das Portal setzt entsprechende Strategien und technische Mittel ein, um zu verhindern, dass Crawler-Programme Website-Daten crawlen.
f) Anti-Crawler:
Das Crawler-Programm nutzt entsprechende Strategien und technische Mittel, um die Anti-Crawler-Methode der Portal-Website zu knacken und dadurch die entsprechenden Daten zu crawlen .
Das obige ist der detaillierte Inhalt vonWas ist ein Crawler? Einführung in Konzepte im Python-Webcrawler. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!