Heim  >  Artikel  >  Backend-Entwicklung  >  Was ist schneller, Python-Crawler oder Octopus?

Was ist schneller, Python-Crawler oder Octopus?

(*-*)浩
(*-*)浩Original
2019-06-15 15:10:068904Durchsuche

Octopus hat einige Vorteile, wie z. B. niedrige Lernkosten, visuelle Prozesse und den schnellen Aufbau eines Sammelsystems. Kann Excel-Dateien direkt exportieren und in die Datenbank exportieren. Um die Sammlungskosten zu senken, stellt die Cloud-Sammlung 10 Knoten bereit, was ebenfalls viel Ärger ersparen kann.

Was ist schneller, Python-Crawler oder Octopus?

Octopus Collector bietet auch einen Cloud-Sammeldienst, der in kurzer Zeit abgeschlossen werden kann Arbeitslast sammeln. (Empfohlenes Lernen: Python-Video-Tutorial)

Das Schlimme ist, dass es nur Fallstricke gibt, obwohl es sehr einfach erscheint und es einen narrensichereren Smart-Modus gibt Wer es oft benutzt hat, wird es verstehen.

Zuallererst dreht sich bei den darin enthaltenen Schleifen alles um die Positionierung von xpath-Elementen. Wenn Sie die einfache Klickpositionierung verwenden, ist diese sehr starr und es kann leicht zu Fehlern kommen, wenn Sie Seiten in großen Mengen sammeln. Darüber hinaus gibt es zu viele Neulinge, die dieses Tool aufgrund seiner Bequemlichkeit verwenden. Sie kennen die Seitenstruktur nicht und verstehen XPath nicht. Es kann leicht zu Problemen wie einer unvollständigen Sammlung kommen und unendliches Umblättern.

Aber das Ajax-Laden, das Simulieren von Mobiltelefonseiten, das Filtern von Anzeigen, das Scrollen zum Ende der Seite und andere Funktionen von Octopus Collector sind erstaunliche Tools und können mit nur einer Prüfung durchgeführt werden. Das Schreiben von Code ist sehr mühsam und die Implementierung dieser Funktionen ist mühsam.

Octopus ist schließlich nur ein Werkzeug, und sein Freiheitsgrad wird die Programmierung definitiv besiegen. Der Vorteil ist Komfort, Geschwindigkeit und niedrige Kosten.

Octopus hat ein schwaches Urteilsvermögen und kann keine komplexen Urteile fällen oder komplexe Logik ausführen. Außerdem kann nur die Unternehmensversion von Octopus das Problem mit dem Bestätigungscode lösen, und die allgemeine Version kann nicht auf die Codierungsplattform zugreifen.

Ein weiterer Punkt ist, dass es keine OCR-Funktion gibt. Die von 58.com und Ganji.com gesammelten Telefonnummern liegen alle im Bildformat vor und können mit einer Open-Source-Bilderkennungsbibliothek gelöst werden es zur Anerkennung.

Die Datenerfassungsanforderungen bestimmen, welches Tool letztendlich verwendet wird. Wenn ich große Mengen an Daten erfassen muss, müssen Crawler unvermeidlich sein, da der Code einen höheren Freiheitsgrad aufweist. Ich denke, das Ziel von Octopus besteht nicht darin, Python zu ersetzen, sondern das Ziel eines Sammlers zu erreichen, den jeder nutzen kann.

Ein weiterer Punkt ist, dass Python leicht zu erlernen, einfach bereitzustellen, Open Source und kostenlos ist. Selbst wenn Sie nur Scrapy lernen, können Sie einige Probleme lösen. Das Problem besteht jedoch darin, dass einige Funktionen, die durch einfache Auswahl in einigen Tools erreicht werden können, von Ihnen selbst geschrieben oder aus dem Code anderer Leute kopiert werden müssen. Zeit, Crawler-Autor, Sie werden es bald lösen können. Ich möchte einfach vom Anfang zum Aufgeben übergehen...

Weitere technische Artikel zum Thema Python finden Sie im Python-Tutorial Spalte zum Lernen!

Das obige ist der detaillierte Inhalt vonWas ist schneller, Python-Crawler oder Octopus?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn