찾다
웹 프론트엔드JS 튜토리얼Puppeteer로 웹 스크랩하는 방법: 초보자에게 친숙한 가이드

How to Web Scrape with Puppeteer: A Beginner-Friendly Guide

웹 스크래핑은 웹사이트에서 데이터를 수집하는 매우 강력한 도구입니다. Google의 Node.js용 헤드리스 브라우저 라이브러리인 Puppeteer를 사용하면 사람의 탐색 동작을 모방하면서 페이지 탐색, 버튼 클릭, 정보 추출 프로세스를 자동화할 수 있습니다. 이 가이드는 Puppeteer를 사용한 웹 스크래핑의 필수 사항을 간단하고 명확하며 실행 가능한 방법으로 안내합니다.

인형극이란 무엇입니까?

Puppeteer는 Google Chrome(또는 Chromium)의 헤드리스 버전을 제어할 수 있는 Node.js 라이브러리입니다. 헤드리스 브라우저는 그래픽 사용자 인터페이스(GUI) 없이 실행되므로 스크래핑과 같은 자동화 작업에 더 빠르고 완벽합니다. 그러나 Puppeteer는 시각적으로 무슨 일이 일어나고 있는지 확인해야 하는 경우 전체 브라우저 모드에서 실행할 수도 있습니다.

웹 스크래핑을 위해 Puppeteer를 선택하는 이유는 무엇입니까?

유연성: Puppeteer는 동적 웹사이트와 단일 페이지 애플리케이션(SPA)을 쉽게 처리합니다.
JavaScript 지원: 최신 웹 앱을 스크래핑하는 데 필수적인 페이지에서 JavaScript를 실행합니다.
자동화 능력: 양식 작성, 버튼 클릭, 스크린샷 찍기 등의 작업을 수행할 수 있습니다.

Puppeteer와 함께 프록시 사용

웹사이트를 스크랩할 때 IP 금지를 피하고 지리적으로 제한된 콘텐츠에 액세스하려면 프록시가 필수적입니다. 프록시는 스크레이퍼와 대상 웹사이트 사이의 중개자 역할을 하여 실제 IP 주소를 마스킹합니다. Puppeteer의 경우 프록시를 실행 인수로 전달하여 쉽게 통합할 수 있습니다.

자바스크립트
코드 복사
const 브라우저 = puppeteer.launch({
를 기다립니다. 인수: ['--proxy-server=your-proxy-server:port']
});
프록시는 스크래핑 노력을 확장하는 데 특히 유용합니다. 순환 프록시는 각 요청이 다른 IP에서 오는지 확인하여 탐지 가능성을 줄입니다. 신뢰성으로 유명한 주거용 프록시는 봇 방어를 우회하는 데 탁월한 반면, 데이터 센터 프록시는 더 빠르고 저렴합니다. 귀하의 스크래핑 요구 사항에 맞는 유형을 선택하고 항상 성능을 테스트하여 신뢰성을 보장하세요.

인형극 설정

스크래핑을 시작하기 전에 Puppeteer를 설정해야 합니다. 단계별 프로세스를 살펴보겠습니다.
1단계: Node.js 및 Puppeteer 설치
Node.js 설치: 공식 홈페이지에서 Node.js를 다운로드하여 설치하세요.
Puppeteer 설정: 터미널을 열고 다음 명령을 실행하십시오.
배쉬
코드 복사
npm 설치 인형극

이렇게 하면 제어하는 ​​브라우저인 Puppeteer와 Chromium이 설치됩니다.
2단계: 첫 인형극 스크립트 작성
새로운 JavaScript 파일인 scraper.js를 만듭니다. 여기에는 스크래핑 논리가 저장됩니다. 웹페이지를 열고 제목을 추출하는 간단한 스크립트를 작성해 보겠습니다.
자바스크립트
코드 복사
const puppeteer = require('puppeteer');

(비동기 () => {
const 브라우저 = puppeteer.launch()를 기다립니다;
const 페이지 = browser.newPage()를 기다립니다;

// 웹사이트로 이동
page.goto('https://example.com')을 기다립니다.

//제목 추출
const title = 페이지를 기다립니다.제목();
console.log(페이지 제목: ${title});

browser.close()를 기다립니다.
})();

다음을 사용하여 스크립트를 실행하세요.
배쉬
코드 복사
노드 scraper.js

첫 번째 Puppeteer 스크레이퍼를 작성하셨습니다!

스크래핑을 위한 핵심 인형사 기능

이제 기본 사항을 익혔으므로 스크래핑에 사용할 몇 가지 주요 Puppeteer 기능을 살펴보겠습니다.

  1. 페이지 탐색
    page.goto(url) 메소드를 사용하면 모든 URL을 열 수 있습니다. 필요한 경우 시간 초과 설정과 같은 옵션을 추가하세요.
    자바스크립트
    코드 복사
    wait page.goto('https://example.com', { timeout: 60000 });

  2. 요소 선택
    CSS 선택기를 사용하여 페이지의 요소를 찾아보세요. Puppeteer는 다음과 같은 방법을 제공합니다.
    첫 번째 일치를 위한 page.$(selector)
    모든 일치 항목에 대한 page.$$(selector)
    예:
    자바스크립트
    코드 복사
    const 요소 = 페이지를 기다립니다.$('h1');
    const text = 페이지를 기다립니다.evaluate(el => el.textContent, element);
    console.log(제목: ${text});

  3. 요소와의 상호작용
    클릭, 입력 등의 사용자 상호 작용을 시뮬레이션합니다.
    자바스크립트
    코드 복사
    페이지를 기다립니다.click('#submit-button');
    wait page.type('#search-box', 'Puppeteer scraping');

  4. 요소를 기다리는 중
    웹페이지는 다양한 속도로 로드됩니다. Puppeteer를 사용하면 진행하기 전에 요소를 기다릴 수 있습니다.
    자바스크립트
    코드 복사
    페이지를 기다립니다.waitForSelector('#dynamic-content');

  5. 스크린샷 찍기
    시각적인 디버깅이나 데이터를 이미지로 저장하는 것은 쉽습니다.
    자바스크립트
    코드 복사
    wait page.screenshot({ 경로: 'screenshot.png', fullPage: true });

동적 콘텐츠 처리

오늘날 많은 웹사이트에서는 JavaScript를 사용하여 콘텐츠를 동적으로 로드합니다. Puppeteer는 JavaScript를 실행하여 페이지 소스에 표시되지 않을 수 있는 콘텐츠를 스크랩할 수 있다는 점에서 빛을 발합니다.
예: 동적 데이터 추출
자바스크립트
코드 복사
page.goto('https://news.ycombinator.com')을 기다립니다;
페이지를 기다립니다.waitForSelector('.storylink');

const headlines = 페이지를 기다립니다.$$eval('.storylink',links =>links.map(link=>link.textContent));
console.log('Headlines:', headlines);

CAPTCHA 및 봇 탐지 처리

일부 웹사이트에는 봇을 차단하는 조치가 마련되어 있습니다. Puppeteer는 간단한 확인을 우회하는 데 도움을 줄 수 있습니다.
스텔스 모드 사용: puppeteer-extra 플러그인 설치:
배쉬
코드 복사
npm install puppeteer-extra puppeteer-extra-plugin-stealth
스크립트에 추가하세요:
자바스크립트
코드 복사
const puppeteer = require('puppeteer-extra');
const StealthPlugin = require('puppeteer-extra-plugin-stealth');
puppeteer.use(StealthPlugin());

인간 행동 모방: 마우스 움직임, 타이핑 속도 등의 동작을 무작위로 지정하여 더욱 인간적으로 보이도록 합니다.
사용자 에이전트 교체: 요청이 있을 때마다 브라우저의 사용자 에이전트를 변경하세요.
자바스크립트
코드 복사
wait page.setUserAgent('Mozilla/5.0 (Windows NT 10.0; Win64; x64)');

스크랩된 데이터 저장

데이터를 추출한 후에는 저장하고 싶을 것입니다. 다음은 몇 가지 일반적인 형식입니다.
JSON:
자바스크립트
코드 복사
const fs = require('fs');
const data = { 이름: 'Puppeteer', 유형: 'library' };
fs.writeFileSync('data.json', JSON.stringify(data, null, 2));

CSV: csv-writer와 같은 라이브러리 사용:
배쉬
코드 복사
npm csv-writer 설치
자바스크립트
코드 복사
const createCsvWriter = require('csv-writer').createObjectCsvWriter;

const csvWriter = createCsvWriter({
경로: 'data.csv',
헤더: [
{ id: '이름', title: '이름' },
{ id: '유형', 제목: '유형' }
]
});

const records = [{ 이름: 'Puppeteer', 유형: 'library' }];
csvWriter.writeRecords(records).then(() => console.log('CSV 파일이 작성되었습니다.'));
윤리적인 웹 스크래핑 관행
웹사이트를 스크랩하기 전에 다음 윤리적 지침을 염두에 두십시오.
서비스 약관을 확인하세요. 웹사이트에서 스크래핑을 허용하는지 항상 확인하세요.
비율 제한 준수: 짧은 시간에 너무 많은 요청을 보내지 마십시오. setTimeout 또는 Puppeteer의 page.waitForTimeout()을 사용하여 요청 간격을 확보하세요.
자바스크립트
코드 복사
페이지를 기다립니다.waitForTimeout(2000); // 2초간 대기

민감한 데이터 방지: 개인 정보나 사적인 정보를 절대 스크랩하지 마세요.

일반적인 문제 해결

페이지가 제대로 로드되지 않습니다. 시간 제한을 더 길게 추가하거나 전체 브라우저 모드를 활성화해 보세요.
자바스크립트
코드 복사
const 브라우저 = puppeteer.launch({ headless: false });

를 기다립니다.

선택기가 작동하지 않음: 브라우저 개발자 도구(Ctrl Shift C)를 사용하여 웹사이트를 검사하여 선택기를 확인하세요.
CAPTCHA에 의해 차단됨: 스텔스 플러그인을 사용하여 인간의 행동을 모방합니다.

자주 묻는 질문(FAQ)

  1. Puppeteer는 무료인가요? 예, Puppeteer는 오픈 소스이며 무료로 사용할 수 있습니다.
  2. Puppeteer는 JavaScript가 많은 웹사이트를 스크랩할 수 있나요? 전적으로! Puppeteer는 JavaScript를 실행하므로 동적 사이트를 스크랩하는 데 적합합니다.
  3. 웹 스크래핑은 합법인가요? 상황에 따라 다릅니다. 스크랩하기 전에 항상 웹사이트의 서비스 약관을 확인하세요.
  4. Puppeteer는 CAPTCHA를 우회할 수 있나요? Puppeteer는 기본적인 보안 문자 문제를 처리할 수 있지만 고급 보안 문제에는 타사 도구가 필요할 수 있습니다.

위 내용은 Puppeteer로 웹 스크랩하는 방법: 초보자에게 친숙한 가이드의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
JavaScript로 문자열 문자를 교체하십시오JavaScript로 문자열 문자를 교체하십시오Mar 11, 2025 am 12:07 AM

JavaScript 문자열 교체 방법 및 FAQ에 대한 자세한 설명 이 기사는 JavaScript에서 문자열 문자를 대체하는 두 가지 방법 인 내부 JavaScript 코드와 웹 페이지의 내부 HTML을 탐색합니다. JavaScript 코드 내부의 문자열을 교체하십시오 가장 직접적인 방법은 대체 () 메소드를 사용하는 것입니다. str = str.replace ( "find", "replace"); 이 메소드는 첫 번째 일치 만 대체합니다. 모든 경기를 교체하려면 정규 표현식을 사용하고 전역 플래그 g를 추가하십시오. str = str.replace (/fi

사용자 정의 Google 검색 API 설정 자습서사용자 정의 Google 검색 API 설정 자습서Mar 04, 2025 am 01:06 AM

이 튜토리얼은 사용자 정의 Google 검색 API를 블로그 또는 웹 사이트에 통합하는 방법을 보여 주며 표준 WordPress 테마 검색 기능보다보다 세련된 검색 경험을 제공합니다. 놀랍게도 쉽습니다! 검색을 Y로 제한 할 수 있습니다

자신의 Ajax 웹 응용 프로그램을 구축하십시오자신의 Ajax 웹 응용 프로그램을 구축하십시오Mar 09, 2025 am 12:11 AM

그래서 여기 당신은 Ajax라는이 일에 대해 배울 준비가되어 있습니다. 그러나 정확히 무엇입니까? Ajax라는 용어는 역동적이고 대화식 웹 컨텐츠를 만드는 데 사용되는 느슨한 기술 그룹을 나타냅니다. 원래 Jesse J에 의해 만들어진 Ajax라는 용어

예제 색상 JSON 파일예제 색상 JSON 파일Mar 03, 2025 am 12:35 AM

이 기사 시리즈는 2017 년 중반에 최신 정보와 새로운 예제로 다시 작성되었습니다. 이 JSON 예에서는 JSON 형식을 사용하여 파일에 간단한 값을 저장하는 방법을 살펴 봅니다. 키 값 쌍 표기법을 사용하여 모든 종류를 저장할 수 있습니다.

8 멋진 jQuery 페이지 레이아웃 플러그인8 멋진 jQuery 페이지 레이아웃 플러그인Mar 06, 2025 am 12:48 AM

손쉬운 웹 페이지 레이아웃에 대한 jQuery 활용 : 8 에센셜 플러그인 jQuery는 웹 페이지 레이아웃을 크게 단순화합니다. 이 기사는 프로세스를 간소화하는 8 개의 강력한 JQuery 플러그인을 강조합니다. 특히 수동 웹 사이트 생성에 유용합니다.

' this ' 자바 스크립트로?' this ' 자바 스크립트로?Mar 04, 2025 am 01:15 AM

핵심 포인트 JavaScript에서는 일반적으로 메소드를 "소유"하는 객체를 말하지만 함수가 호출되는 방식에 따라 다릅니다. 현재 객체가 없으면 글로벌 객체를 나타냅니다. 웹 브라우저에서는 창으로 표시됩니다. 함수를 호출 할 때 이것은 전역 객체를 유지하지만 객체 생성자 또는 그 메소드를 호출 할 때는 객체의 인스턴스를 나타냅니다. call (), apply () 및 bind ()와 같은 메소드를 사용 하여이 컨텍스트를 변경할 수 있습니다. 이 방법은 주어진이 값과 매개 변수를 사용하여 함수를 호출합니다. JavaScript는 훌륭한 프로그래밍 언어입니다. 몇 년 전,이 문장은있었습니다

소스 뷰어와의 jQuery 지식을 향상시킵니다소스 뷰어와의 jQuery 지식을 향상시킵니다Mar 05, 2025 am 12:54 AM

JQuery는 훌륭한 JavaScript 프레임 워크입니다. 그러나 어떤 도서관과 마찬가지로, 때로는 진행 상황을 발견하기 위해 후드 아래로 들어가야합니다. 아마도 버그를 추적하거나 jQuery가 특정 UI를 달성하는 방법에 대해 궁금한 점이 있기 때문일 것입니다.

모바일 개발을위한 10 개의 모바일 치트 시트모바일 개발을위한 10 개의 모바일 치트 시트Mar 05, 2025 am 12:43 AM

이 게시물은 Android, BlackBerry 및 iPhone 앱 개발을위한 유용한 치트 시트, 참조 안내서, 빠른 레시피 및 코드 스 니펫을 컴파일합니다. 개발자가 없어서는 안됩니다! 터치 제스처 참조 안내서 (PDF) Desig를위한 귀중한 자원

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

MinGW - Windows용 미니멀리스트 GNU

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.

DVWA

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

안전한 시험 브라우저

안전한 시험 브라우저

안전한 시험 브라우저는 온라인 시험을 안전하게 치르기 위한 보안 브라우저 환경입니다. 이 소프트웨어는 모든 컴퓨터를 안전한 워크스테이션으로 바꿔줍니다. 이는 모든 유틸리티에 대한 액세스를 제어하고 학생들이 승인되지 않은 리소스를 사용하는 것을 방지합니다.

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

mPDF

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.