Heim >Web-Frontend >js-Tutorial >Wie kann ich dynamische Website-Inhalte mit Node.js und PhantomJS scrapen?

Wie kann ich dynamische Website-Inhalte mit Node.js und PhantomJS scrapen?

Mary-Kate Olsen
Mary-Kate OlsenOriginal
2024-12-13 07:50:10589Durchsuche

How Can I Scrape Dynamic Website Content Using Node.js and PhantomJS?

Scraping dynamischer Inhalte mit Node.js

Beim Scraping von Websites ist es nicht ungewöhnlich, auf dynamische Inhalte zu stoßen, die möglicherweise nicht sofort sichtbar sind, wenn die Seite lädt. Um effektiv Daten aus diesen Seiten zu extrahieren, müssen Sie verstehen, wie solche Inhalte erstellt werden.

Beispiel mit Cheerio

Bedenken Sie den folgenden Codeausschnitt:

var request = require('request');
var cheerio = require('cheerio');
var url = "http://www.bdtong.co.kr/index.php?c_category=C02";

request(url, function (err, res, html) {
    var $ = cheerio.load(html);
    $('.listMain > li').each(function () {
        console.log($(this).find('a').attr('href'));
    });
});

Dieser Code versucht, eine Website mit Cheerio zu crawlen, gibt jedoch leere Ergebnisse zurück, da die Elemente, die Sie extrahieren möchten (

    ) werden dynamisch erstellt, nachdem die Seite geladen wurde.

    Lösung: Verwendung von PhantomJS

    Um dynamische Inhalte zu scrapen, benötigen Sie eine Lösung, die JavaScript ausführen und einen Browser simulieren kann. Hier kommt PhantomJS ins Spiel. PhantomJS ist eine Headless-Browser-Engine, mit der Sie JavaScript-Befehle ausführen und Webseiten rendern können.

    So können Sie Ihren Code mit PhantomJS ändern:

    var phantom = require('phantom');
    
    phantom.create(function (ph) {
      ph.createPage(function (page) {
        var url = "http://www.bdtong.co.kr/index.php?c_category=C02";
        page.open(url, function() {
          page.includeJs("http://ajax.googleapis.com/ajax/libs/jquery/1.6.1/jquery.min.js", function() {
            page.evaluate(function() {
              $('.listMain > li').each(function () {
                console.log($(this).find('a').attr('href'));
              });
            }, function(){
              ph.exit()
            });
          });
        });
      });
    });

    Durch die Einbindung von PhantomJS können Sie jetzt JavaScript auf der Seite ausführen und das DOM manipulieren, um den benötigten dynamischen Inhalt zu extrahieren.

    Das obige ist der detaillierte Inhalt vonWie kann ich dynamische Website-Inhalte mit Node.js und PhantomJS scrapen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn