Heim >Backend-Entwicklung >Python-Tutorial >Was sind die Python-Crawler-Frameworks?

Was sind die Python-Crawler-Frameworks?

(*-*)浩Original: 2019-06-12 14:38:164009Durchsuche

Heute möchte ich Ihnen einige effizientere Python-Crawler-Frameworks empfehlen. Teilen Sie es mit allen.

1. Scrapy

Scrapy ist ein Anwendungsframework, das zum Crawlen von Website-Daten und zum Extrahieren von Strukturdaten geschrieben wurde. Es kann in einer Reihe von Programmen verwendet werden, darunter Data Mining, Informationsverarbeitung oder Speicherung historischer Daten. Mit diesem Framework können Sie problemlos Daten wie Amazon-Produktinformationen durchsuchen. (Empfohlenes Lernen: Python-Video-Tutorial)

Projektadresse: https://scrapy.org/

2.PySpider

pyspider ist ein leistungsstarkes Web-Crawler-System, das in Python implementiert ist. Es kann Skripte schreiben, Funktionen planen und Crawling-Ergebnisse in Echtzeit anzeigen. Das Backend verwendet häufig verwendete Datenbanken, um Crawling-Ergebnisse zu speichern Aufgabenprioritäten regelmäßig festlegen.

Projektadresse: https://github.com/binux/pyspider

3. Crawley

Crawley kann den Inhalt der entsprechenden Website crawlen mit hoher Geschwindigkeit, unterstützt relationale und nicht relationale Datenbanken und Daten können in JSON, XML usw. exportiert werden.

Projektadresse: http://project.crawley-cloud.com/

4. Zeitung

Zeitung kann zum Extrahieren von Nachrichten und verwendet werden Artikel und Inhaltsanalyse. Verwenden Sie Multithreading, unterstützen Sie mehr als 10 Sprachen usw.

Projektadresse: https://github.com/codelucas/newspaper

5.Beautiful Soup

Beautiful Soup ist ein Werkzeug, das sein kann Von HTML oder einer Python-Bibliothek zum Extrahieren von Daten aus XML-Dateien heruntergeladen. Sie ermöglicht die übliche Dokumentennavigation, Suche und Änderungsmethoden über Ihren bevorzugten Konverter und erspart Ihnen Stunden oder sogar Tage Arbeit.

Projektadresse: https://www.crummy.com/software/BeautifulSoup/bs4/doc/

6.Grab

Grab ist ein Python-Framework zum Erstellen von Web-Scrapern. Mit Grab können Sie Web-Scraper unterschiedlicher Komplexität erstellen, von einfachen 5-Zeilen-Skripten bis hin zu komplexen asynchronen Website-Scrapern, die Millionen von Webseiten verarbeiten. Grab bietet eine API zum Durchführen von Netzwerkanfragen und zum Verarbeiten empfangener Inhalte, beispielsweise für die Interaktion mit dem DOM-Baum eines HTML-Dokuments.

Projektadresse: http://docs.grablib.org/en/latest/#grab-spider-user-manual

7.Cola

Cola ist ein verteiltes Crawler-Framework. Für Benutzer müssen sie nur einige spezifische Funktionen schreiben, ohne auf die Details des verteilten Betriebs zu achten. Aufgaben werden automatisch auf mehrere Maschinen verteilt und der gesamte Prozess ist für den Benutzer transparent.

Projektadresse: https://github.com/chineking/cola

Weitere technische Artikel zum Thema Python finden Sie in der Spalte Python-Tutorial !

Das obige ist der detaillierte Inhalt vonWas sind die Python-Crawler-Frameworks?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Python 分布式 json html scrapy beautifulsoup xml 线程多线程 dom 异步 github 数据库 http https

Stellungnahme：

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Vorheriger Artikel：Wo ist Leerlauf in Python?Nächster Artikel：Wo ist Leerlauf in Python?

In Verbindung stehende Artikel

Mehr sehen