>웹 프론트엔드 >JS 튜토리얼 >Node.js와 PhantomJS를 사용하여 동적 웹사이트 콘텐츠를 어떻게 스크랩할 수 있나요?

Node.js와 PhantomJS를 사용하여 동적 웹사이트 콘텐츠를 어떻게 스크랩할 수 있나요?

Mary-Kate Olsen
Mary-Kate Olsen원래의
2024-12-13 07:50:10592검색

How Can I Scrape Dynamic Website Content Using Node.js and PhantomJS?

Node.js를 사용하여 동적 콘텐츠 스크래핑

웹사이트를 스크래핑할 때 웹사이트를 스크래핑할 때 즉시 표시되지 않는 동적 콘텐츠를 접하는 것은 드문 일이 아닙니다. 페이지가 로드됩니다. 이러한 페이지에서 데이터를 효과적으로 추출하려면 해당 콘텐츠가 어떻게 생성되는지 이해해야 합니다.

Cheerio의 예

다음 코드 조각을 고려하세요.

var request = require('request');
var cheerio = require('cheerio');
var url = "http://www.bdtong.co.kr/index.php?c_category=C02";

request(url, function (err, res, html) {
    var $ = cheerio.load(html);
    $('.listMain > li').each(function () {
        console.log($(this).find('a').attr('href'));
    });
});

이 코드는 Cheerio를 사용하여 웹사이트를 스크래핑하려고 시도하지만 추출하려는 요소가 없기 때문에 빈 결과를 반환합니다. (

    )은 페이지 로드 후 동적으로 생성됩니다.

    해결책: PhantomJS 사용

    동적 콘텐츠를 스크랩하려면 JavaScript를 실행하고 브라우저를 시뮬레이션합니다. PhantomJS가 등장하는 곳입니다. PhantomJS는 JavaScript 명령을 실행하고 웹 페이지를 렌더링할 수 있는 헤드리스 브라우저 엔진입니다.

    PhantomJS로 코드를 수정하는 방법은 다음과 같습니다.

    var phantom = require('phantom');
    
    phantom.create(function (ph) {
      ph.createPage(function (page) {
        var url = "http://www.bdtong.co.kr/index.php?c_category=C02";
        page.open(url, function() {
          page.includeJs("http://ajax.googleapis.com/ajax/libs/jquery/1.6.1/jquery.min.js", function() {
            page.evaluate(function() {
              $('.listMain > li').each(function () {
                console.log($(this).find('a').attr('href'));
              });
            }, function(){
              ph.exit()
            });
          });
        });
      });
    });

    PhantomJS를 포함하면 이제 페이지에서 JavaScript를 실행하고 DOM을 조작하여 필요한 동적 콘텐츠를 추출할 수 있습니다.

    위 내용은 Node.js와 PhantomJS를 사용하여 동적 웹사이트 콘텐츠를 어떻게 스크랩할 수 있나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.