Heim > Artikel > Backend-Entwicklung > java – PHP oder Python für die Datenerfassung und -analyse, welche sind die ausgereifteren Frameworks?
Ich muss jetzt automatisch Daten aus der Artikelliste einer Website und dem tatsächlichen Inhalt in der Liste sammeln. Die ID jedes Artikels kann in der Liste abgerufen werden, und jeder Artikel wird über eine einheitliche Schnittstelle gesammelt (der Parameter bringt diesen Artikel). Der entsprechende JSON kann über die ID abgerufen werden. Es enthält einige Daten, die gesammelt und dann analysiert werden müssen.
Gibt es ein ausgereiftes Framework oder Rad, das meine Anforderungen erfüllen kann? (Es erfordert Multithreading und kann rund um die Uhr stabil laufen, da die Anzahl der Sammlungen riesig ist)
Außerdem möchte ich fragen, wie die gesammelten Inhalte (Millionen bis Dutzende Millionen) gespeichert werden sollen. Die Daten enthalten einige numerische Daten, die einer statistischen Analyse bedürfen. Kann ich MySQL verwenden? Oder gibt es andere ausgereiftere und einfachere Räder, die verwendet werden können?
Ich muss jetzt automatisch Daten aus der Artikelliste einer Website und dem tatsächlichen Inhalt in der Liste sammeln. Die ID jedes Artikels kann in der Liste abgerufen werden, und jeder Artikel wird über eine einheitliche Schnittstelle gesammelt (der Parameter bringt diesen Artikel). Der entsprechende JSON kann über die ID abgerufen werden. Es enthält einige Daten, die gesammelt und dann analysiert werden müssen.
Gibt es ein ausgereiftes Framework oder Rad, das meine Anforderungen erfüllen kann? (Es erfordert Multithreading und kann rund um die Uhr stabil laufen, da die Anzahl der Sammlungen riesig ist)
Außerdem möchte ich fragen, wie die gesammelten Inhalte (Millionen bis Dutzende Millionen) gespeichert werden sollen. Die Daten enthalten einige numerische Daten, die einer statistischen Analyse bedürfen. Kann ich MySQL verwenden? Oder gibt es andere ausgereiftere und einfachere Räder, die verwendet werden können?
Wenn es sich um eine Datenanalyse handelt.
map-reduce führt eine Protokollanalyse durch
Dpark kann PV- und UV-Analysen lösen
Spark ist auch gut.
Nachdem Sie den Datenbericht erstellt haben, können Sie Pandas zur Analyse und Anzeige verwenden. .
Wenn es sich um eine Datenerfassung handelt. Es gibt viele Werkzeuge.
Warum glaube ich, dass Sie eine Suchmaschine erstellen möchten? . . Die Menge ist relativ groß. Verteilte Inhalte werden empfohlen.
Es ist nicht praktikabel, MYSQL zu verwenden. . .
Junger Mann, ist das nicht das, was Sie von einem Reptil erwarten?
Crawler-Framework: Scrapy
Datenbankauswahl: Die Verwendung von MySQL zur Indizierung auf Ihrem Niveau kann definitiv noch weitere 500 Jahre dauern
Sie können auch MongoDB ausprobieren
Sie haben weder die Sprache noch die Umgebung erwähnt. Für Multithreading werden derzeit im Allgemeinen NodeJS und Python verwendet. Beide können MySQL und dergleichen zum Speichern von Daten verwenden. Millionen oder mehrere zehn Millionen sind kein Problem.
Haben Sie jemals mit Python Selenium PhantomJs gespielt?
Das ist Scrapy in der Python-Sprache oder das ist