Heim  >  Artikel  >  Backend-Entwicklung  >  Was sind die Crawler-Frameworks für Python?

Was sind die Crawler-Frameworks für Python?

爱喝马黛茶的安东尼
爱喝马黛茶的安东尼Original
2019-06-12 15:38:358308Durchsuche

Was sind die Crawler-Frameworks für Python?

Was sind die Crawler-Frameworks für Python? Lassen Sie mich Ihnen die zehn häufigsten Frameworks für Python-Crawler vorstellen:

1. Das Scrapy-Framework ist ein relativ ausgereiftes Python set Das Crawler-Framework ist ein schnelles, mit Python entwickeltes Informations-Crawling-Framework auf hoher Ebene, mit dem Webseiten effizient gecrawlt und strukturierte Daten extrahiert werden können.

Scrapy verfügt über ein breites Anwendungsspektrum, darunter Crawler-Entwicklung, Data Mining, Datenüberwachung, automatisierte Tests usw.

2. PySpider

ist ein leistungsstarkes Webcrawler-Framework, das von Chinesen in Python geschrieben wurde. Die Hauptfunktionen sind wie folgt:

1. Leistungsstarke WebUI, einschließlich: Skripteditor, Aufgabenmonitor, Projektmanager und Ergebnisanzeige
2 , Redis, SQLite, Elasticsearch; PostgreSQL mit SQLAlchemy usw.; Verwendung von RabbitMQ, Beanstalk, Redis und Kombu als Nachrichtenwarteschlangen, geplante Aufgaben usw. ;

5. Unterstützen Sie verteilte Crawler



3. Crawley

Hochgeschwindigkeits-Crawling des Inhalts der entsprechenden Website, der relationale und nicht relationale Datenbanken unterstützt, und die Daten können als JSON, XML usw. exportiert werden.

Verwandte Empfehlungen: „

Python-Video-Tutorial


4 >Visuelles Crawlen Holen Sie sich Webinhalte

Zeitung

Extrahieren Sie Nachrichten, Artikel und Inhaltsanalysen

6. goose

In Java geschriebenes Artikelextraktionstool


7. Beautiful Soup

ist berühmt und integriert einige gängige Crawler-Anforderungen. Nachteile: JS kann nicht geladen werden.


Beautiful Soup ist eine Python-Bibliothek, die Daten aus HTML- oder XML-Dateien extrahieren kann. Sie kann die üblichen Methoden der Dokumentnavigation, Suche und Änderung von Dokumenten über Ihren bevorzugten Konverter implementieren Stunden- oder sogar tagelange Arbeit. Ich benutze das sehr häufig. Das Abrufen von HTML-Elementen erfolgt vollständig durch bs4.

8. Mechanisierung

Vorteile: JS kann geladen werden. Nachteile: Es mangelt stark an Dokumentation. Offizielle Beispiele und mit Menschenfleisch erprobte Methoden zeigen jedoch, dass es immer noch kaum verwendbar ist.

9. Selen

Dies ist ein Treiber, der den Browser aufruft. Über diese Bibliothek können Sie den Browser direkt aufrufen, um bestimmte Vorgänge auszuführen, z. B. die Eingabe eines Bestätigungscodes.


10. Cola

Ein verteiltes Crawler-Framework. Das Gesamtdesign des Projekts ist etwas schlecht und die Kopplung zwischen den Modulen ist hoch.


Das obige ist der detaillierte Inhalt vonWas sind die Crawler-Frameworks für Python?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn