>웹 프론트엔드 >JS 튜토리얼 >Node.js를 사용하여 동적 웹 페이지 콘텐츠를 어떻게 긁을 수 있나요?

Node.js를 사용하여 동적 웹 페이지 콘텐츠를 어떻게 긁을 수 있나요?

Mary-Kate Olsen
Mary-Kate Olsen원래의
2024-12-18 05:04:14520검색

How Can I Scrape Dynamic Web Page Content Using Node.js?

Node.js를 사용하여 동적 콘텐츠가 포함된 페이지 스크래핑

웹 스크래퍼의 경우 동적 콘텐츠가 문제를 일으킬 수 있습니다. 그러한 예 중 하나는 초기 페이지 로드 후 페이지 요소가 생성되는 경우입니다. 이러한 시나리오에서는 표준 스크래핑 방법으로는 충분하지 않을 수 있습니다.

Node.js에서 Cherio를 사용할 때 이 문제를 고려하십시오. 다음 코드는 페이지에서 요소를 스크래핑하려고 시도하지만 Cherio 로드가 발생할 때 동적 요소가 존재하지 않습니다.

var request = require('request');
var cheerio = require('cheerio');
var url = "http://www.bdtong.co.kr/index.php?c_category=C02";

request(url, function (err, res, html) {
    var $ = cheerio.load(html);
    $('.listMain > li').each(function () {
        console.log($(this).find('a').attr('href'));
    });
});

이 코드는 요소가 아직 페이지의 요소에 존재하지 않기 때문에 빈 응답을 반환하는 경우가 많습니다. Cherio가 로드될 때의 HTML. 그렇다면 Node.js를 사용하여 이러한 요소를 어떻게 검색할 수 있습니까?

해결책: PhantomJS 활용

동적 콘텐츠를 처리하기 위해 헤드리스 웹 브라우저인 PhantomJS를 사용할 수 있습니다. JavaScript를 실행할 수 있습니다. PhantomJS를 사용하면 페이지와 상호 작용하는 브라우저를 시뮬레이션하고 요소가 사용 가능해지면 검색할 수 있습니다. 다음은 PhantomJS를 사용하는 예입니다.

var phantom = require('phantom');

phantom.create(function (ph) {
  ph.createPage(function (page) {
    var url = "http://www.bdtong.co.kr/index.php?c_category=C02";
    page.open(url, function() {
      page.includeJs("http://ajax.googleapis.com/ajax/libs/jquery/1.6.1/jquery.min.js", function() {
        page.evaluate(function() {
          $('.listMain > li').each(function () {
            console.log($(this).find('a').attr('href'));
          });
        }, function(){
          ph.exit()
        });
      });
    });
  });
});

이 코드에서는 먼저 PhantomJS를 사용하여 jQuery를 페이지에 포함시켜 요소와 동적으로 상호 작용할 수 있도록 합니다. 그런 다음 요소의 href 속성을 콘솔에 기록하는 JavaScript 코드를 평가합니다.

위 내용은 Node.js를 사용하여 동적 웹 페이지 콘텐츠를 어떻게 긁을 수 있나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.