Heim >Backend-Entwicklung >Python-Tutorial >Wie man mit Python einen Crawler erstellt
„Erste Schritte“ ist eine gute Motivation, aber es kann langsam sein, dass es funktioniert. Wenn Sie ein Projekt in Ihren Händen oder im Kopf haben, werden Sie in der Praxis zielorientiert sein und nicht langsam lernen Modul.
Wenn außerdem jeder Wissenspunkt im Wissenssystem ein Punkt im Diagramm ist und die Abhängigkeitsbeziehung eine Kante ist, darf dieses Diagramm kein gerichtetes azyklisches Diagramm sein, da die Erfahrung des Lernens A kann Ihnen helfen, B zu lernen. Sie müssen also nicht lernen, wie man „anfängt“, weil es keinen solchen „Anfangspunkt“ gibt. Was Sie lernen müssen, ist, wie man etwas Größeres macht Sie werden schnell lernen, was Sie lernen müssen. Natürlich können Sie argumentieren, dass Sie zuerst Python kennen müssen. Wie können Sie sonst Python lernen, um einen Crawler zu erstellen? Crawler :D
Siehe viele Antworten oben. Sie sprechen alle über „Technik“ – welche Software verwendet werden soll und wie man crawlt. Lassen Sie mich also über „Tao“ und „Technik“ sprechen – wie der Crawler funktioniert und wie um es in Python zu implementieren
Lassen Sie es uns kurz zusammenfassen:
Sie müssen lernen
Grundlegendes Crawler-Funktionsprinzip
Grundlegendes http-Crawling-Tool, Scrapy
Bloom-Filter: Bloom-Filter nach Beispiel
Wenn Sie Webseiten in großem Umfang crawlen müssen, müssen Sie das Konzept der verteilten Crawler erlernen. Tatsächlich ist es nicht so mysteriös Sie müssen lernen, wie Sie eine verteilte Warteschlange verwalten, die von allen Clustermaschinen effektiv gemeinsam genutzt werden kann. Die einfachste Implementierung ist rq: https://github.com/nvie/rq
Die Kombination von rq und Scrapy: Darkrho/Scrapy-Redis · GitHub
Nachträgliche Verarbeitung, Webseitenextraktion (grangier/python-goose · GitHub), Speicherung (Mongodb)
Das Folgende ist eine kurze Geschichte :
Erzählen Sie mir von der Erfahrung, den gesamten Douban hinunterzuklettern, als Sie einen Cluster geschrieben haben. >1) Zuerst müssen Sie verstehen, wie der Crawler funktioniert.
Stellen Sie sich vor, Sie sind eine Spinne werden ins Internet gestellt. Was sollten Sie also tun? Ja, Sie können einfach irgendwo anfangen, zum Beispiel auf der Startseite des People's Daily Auf der Seite „People's Daily“ können Sie die verschiedenen Seiten sehen, die dorthin führen. Sie freuen sich also, auf die Seite „Inlandsnachrichten“ zu gelangen. Großartig, Sie haben das Crawlen der beiden Seiten (Homepage und Inlandsnachrichten) abgeschlossen. Machen Sie sich keine Sorgen darüber, wie Sie mit der heruntergekletterten Seite umgehen sollen. Sie haben die gesamte Seite in HTML kopiert und in Ihren Text eingefügt zurück zur „Homepage“. Als schlaue Spinne müssen Sie wissen, dass Sie nicht zurückkriechen müssen, weil Sie sie bereits gesehen haben. Daher müssen Sie Ihr Gehirn nutzen, um die Adressen der Seiten zu speichern, die Sie bereits angesehen haben. Auf diese Weise überprüfen Sie jedes Mal, wenn Sie einen neuen Link sehen, der möglicherweise gecrawlt werden muss, zunächst, ob Sie diese Seitenadresse gedanklich bereits besucht haben. Wenn Sie dort waren, gehen Sie nicht hin.
Okay, theoretisch kann man beweisen, dass Sie definitiv alle Webseiten crawlen können, wenn alle Seiten von der Startseite aus erreicht werden können.
Wie implementiert man es also in Python?
Sehr einfach
Import Queueinitial_page = "http://www.renminribao.com"url_queue = Queue.Queue()seen = set()seen.insert(initial_page)url_queue.put(initial_page)while(True) :
#Weitermachen, bis alles verloren ist
if url_queue.size()>0:
current_url = url_queue.get() #Erste URL in der Warteschlange abrufen
store(current_url) # Store die durch diese URL dargestellte Webseite
für next_url in extract_urls(current_url): #Extrahieren Sie die mit dieser URL verknüpfte URL
wenn next_url nicht gesehen wird:
seen.put(next_url)
url_queue.put( next_url)
else:
break
ist bereits in Pseudocode geschrieben.
Das Rückgrat aller Crawler ist hier: Lassen Sie uns analysieren, warum Crawler eigentlich eine sehr komplizierte Sache sind – Suchmaschinenunternehmen haben normalerweise ein ganzes Team, um sie zu warten und zu entwickeln.
2) Effizienz
Wenn Sie den obigen Code direkt verarbeiten und direkt ausführen, wird es ein ganzes Jahr dauern, bis Sie den gesamten Douban-Inhalt durchforstet haben. Ganz zu schweigen davon, dass Suchmaschinen wie Google das gesamte Web durchsuchen müssen.
Was ist das Problem? Es müssen zu viele Webseiten gecrawlt werden und der obige Code ist zu langsam. Nehmen Sie an, dass es N Websites im gesamten Netzwerk gibt, und analysieren Sie dann, ob die Komplexität der Wiederverwendung N * log (N) ist, da alle Webseiten einmal durchlaufen werden müssen und die Wiederverwendung jedes Satzes eine log (N) Komplexität erfordert. OK, OK, ich weiß, dass die Set-Implementierung von Python Hash ist – aber das ist immer noch zu langsam, zumindest ist die Speichernutzung nicht effizient.
Wie wird das Gewicht üblicherweise bestimmt? Bloom Filter. Einfach ausgedrückt handelt es sich immer noch um eine Hash-Methode, aber ihre Besonderheit besteht darin, dass sie festen Speicher verwenden kann (der nicht mit der Anzahl der URLs wächst), um mit O(1)-Effizienz zu bestimmen, ob die URL bereits im Satz vorhanden ist. Leider gibt es kein kostenloses Mittagessen. Das einzige Problem besteht darin, dass BF zu 100 % sicher sein kann, dass die URL nicht angezeigt wurde. Wenn diese URL jedoch im Set enthalten ist, wird Folgendes angezeigt: Diese URL hätte bereits angezeigt werden sollen, aber ich habe eine Unsicherheit von 2 %. Beachten Sie, dass die Unsicherheit hier sehr gering werden kann, wenn der von Ihnen zugewiesene Speicher groß genug ist. Ein einfaches Tutorial: Bloom-Filter nach Beispiel
Beachten Sie diese Funktion. Wenn die URL angezeigt wurde, kann sie mit geringer Wahrscheinlichkeit wiederholt angezeigt werden (es spielt keine Rolle, Sie werden beim Lesen nicht erschöpft sein). es mehr). Aber wenn es nicht angeschaut wurde, wird es auf jeden Fall angeschaut (das ist sehr wichtig, sonst verpassen wir einige Webseiten!). [WICHTIG: Es gibt ein Problem mit diesem Absatz, bitte überspringen Sie ihn vorerst]
Okay, jetzt sind wir kurz vor dem schnellsten Weg, mit der Gewichtsbeurteilung umzugehen. Ein weiterer Engpass: Sie haben nur eine Maschine. Egal wie groß Ihre Bandbreite ist, solange die Geschwindigkeit, mit der Ihr Computer Webseiten herunterlädt, der Engpass ist, können Sie diese Geschwindigkeit nur erhöhen. Wenn eine Maschine nicht ausreicht – nutzen Sie mehrere! Wir gehen natürlich davon aus, dass jede Maschine die maximale Effizienz erreicht hat – unter Verwendung von Multithreading (für Python Multiprozess).
3) Cluster-Crawling
Beim Crawlen von Douban habe ich insgesamt mehr als 100 Maschinen genutzt, um einen Monat lang rund um die Uhr zu laufen. Stellen Sie sich vor, wenn Sie nur eine Maschine verwenden, müssen Sie diese 100 Monate lang betreiben ...
Angenommen, Sie haben jetzt 100 Maschinen zur Verfügung, wie kann man Python verwenden, um einen verteilten Crawling-Algorithmus zu implementieren?
Wir nennen 99 dieser 100 Maschinen mit kleinerer Rechenleistung Slaves, und die andere größere Maschine heißt Master. Schauen wir uns dann die URL_Warteschlange im obigen Code an und stellen Sie fest, ob wir diese Warteschlange auf diese Master-Maschine stellen können. Alle Slaves können über das Netzwerk mit dem Master kommunizieren. Immer wenn ein Slave den Download einer Webseite abschließt, fordert er vom Master eine neue Webseite zum Crawlen an. Jedes Mal, wenn der Slave eine neue Webseite erfasst, sendet er alle Links auf dieser Webseite an die Warteschlange des Masters. Ebenso wird der Bloom-Filter auch auf dem Master platziert, allerdings sendet der Master nun nur noch nicht besuchte URLs an den Slave. Der Bloom-Filter wird im Speicher des Masters abgelegt und die besuchte URL wird in Redis abgelegt, das auf dem Master ausgeführt wird, wodurch sichergestellt wird, dass alle Vorgänge O(1) sind. (Zumindest beträgt die Amortisation O(1). Zur Zugriffseffizienz von Redis siehe: LINSERT – Redis)
Überlegen Sie, wie Sie es in Python implementieren:
Installieren Sie Scrapy auf jedem Slave, dann wird jede Maschine zu einem Slave mit Crawling-Funktionen, und Redis und rq werden auf dem Master installiert, um als verteilte Warteschlange verwendet zu werden.
Der Code wird dann geschrieben als
#slave.py current_url = request_from_master() to_send = [] for next_url in extract_urls(current_url): to_send.append(next_url) store(current_url); send_to_master(to_send) #master.py distributed_queue = DistributedQueue() bf = BloomFilter() initial_pages = "www.renmingribao.com" while(True): if request == 'GET': if distributed_queue.size()>0: send(distributed_queue.get()) else: break elif request == 'POST': bf.put(request.url)
Okay, wie Sie sich vorstellen können, hat tatsächlich schon jemand geschrieben, was Sie brauchen: Darkrho/Scrapy-Redis · GitHub
4) Ausblick und Nachbearbeitung
Obwohl oben viele „einfache“ Methoden verwendet werden, ist es nicht einfach, einen Crawler im kommerziellen Maßstab tatsächlich zu implementieren. Der obige Code kann ohne große Probleme zum Crawlen einer gesamten Website verwendet werden.
Aber wenn Sie diese Folgeverarbeitung benötigen, wie z. B.
Effektive Speicherung (wie die Datenbank angeordnet sein sollte)
Effektive Beurteilung (hier bezieht sich auf Web Seite Urteil) Im Ernst, wir wollen nicht sowohl People’s Daily als auch Damin Daily durchforsten, die es kopiert haben)
Bei der effektiven Informationsextraktion (z. B. wie alle Adressen auf der Webseite extrahiert werden, „Zhonghua Road, Fenjin Road, Chaoyang District“) müssen Suchmaschinen normalerweise nicht alle Informationen speichern, z. B. warum sollte ich speichern Bilder... .
Zeitnahe Updates (vorhersagen, wie oft diese Seite aktualisiert wird)