Heim  >  Artikel  >  Backend-Entwicklung  >  Wie kann ich die Website schneller und effektiver crawlen?

Wie kann ich die Website schneller und effektiver crawlen?

WBOY
WBOYOriginal
2016-08-31 08:41:071350Durchsuche

Hallo zusammen, ich bin eigentlich ein Laie, ich habe Westward Journey, QQ Fantasy und später Rocky gespielt und ein wenig Button Wizard (eine Programmiersprache ähnlich VB) gelernt, um mir beim Spielen zu helfen Spiele. Das ist meine Programmiergrundlage.

Wenn ich die Websites anderer Leute crawle, speichere ich zunächst die URL, die gecrawlt werden muss, in einer TXT- oder Excel-Datei.

Verwenden Sie den Tastenassistenten, um den Browser zu öffnen und die manuelle Eingabe (Tastenkombinationen oder Mausklicks) der TXT- oder Excel-URL zu simulieren.

Simulieren Sie dann die manuelle Auswahl und verwenden Sie dann die Zeichenfolgenverarbeitungsfunktionen mid, right, left, len, instr, um die erforderlichen Zeichenfolgen zu extrahieren.

Dann in Excel oder TXT speichern.

Das kostet tatsächlich viel Geld, beansprucht viel CPU und nimmt auch viel Netzwerkgeschwindigkeit in Anspruch. Weil viele unnötige Bilder geladen werden müssen, z. B. Bilder, Flash-Dateien, MPG-Dateien usw.
Und es kann häufig ein Excel-Fehler oder ein Skriptfehler sein.

Bitte sagen Sie mir, wie haben Sie das gemacht?

Ich kenne derzeit PHP, MySQL, JavaScript, jQuery, Ajax und andere Programmiersprachen. Ich verstehe auch die Daten von JSON, XML und HTML.

Ich hoffe, Sie können es mit dem kombinieren, was ich weiß. Natürlich dient es hauptsächlich der Bequemlichkeit, aber Sie können es mir auch sagen.

Außerdem werde ich mir für die Browser-Debugging-Informationen, also das f12-Panel, die js-Ausgabe ansehen.

Solange Sie Ideen haben, können Sie gerne antworten, und im Grunde hilft mir jede Antwort!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn