eBay, Amazon, Flipkart와 같은 주요 매장에서 실시간으로 제품 데이터를 쉽게 가져올 수 있는 전자상거래 플랫폼을 구축한다고 상상해 보세요. 물론, Shopify 및 유사한 서비스가 있지만 솔직하게 말하면 프로젝트에 대해서만 구독을 구매하는 것이 약간 번거로울 수 있습니다. 그래서 저는 이러한 사이트를 긁어내고 제품을 우리 데이터베이스에 직접 저장해 보는 것은 어떨까요? 이는 전자상거래 프로젝트에 필요한 제품을 얻는 효율적이고 비용 효율적인 방법이 될 것입니다.
웹 스크래핑이란 무엇입니까?
웹 스크래핑에는 웹페이지의 HTML을 구문 분석하여 웹사이트에서 데이터를 추출하여 콘텐츠를 읽고 수집하는 작업이 포함됩니다. 여기에는 브라우저를 자동화하거나 사이트에 HTTP 요청을 보낸 다음 HTML 구조를 분석하여 텍스트, 링크 또는 이미지와 같은 특정 정보를 검색하는 작업이 포함되는 경우가 많습니다. Puppeteer는 웹사이트를 스크랩하는 데 사용되는 라이브러리 중 하나입니다.
?퍼핏티어란 무엇인가요?
Puppeteer는 Node.js 라이브러리입니다. 헤드리스 Chrome 또는 Chromium 브라우저를 제어하기 위한 고급 API를 제공합니다. 헤드리스 Chrome은 UI 없이 모든 것을 실행하는 Chrome 버전입니다(백그라운드에서 실행하기에 적합).
Puppeteer를 사용하여 다음과 같은 다양한 작업을 자동화할 수 있습니다.
- 웹 스크래핑: 웹사이트에서 콘텐츠를 추출하려면 페이지의 HTML 및 JavaScript와 상호작용해야 합니다. 일반적으로 CSS 선택기를 타겟팅하여 콘텐츠를 검색합니다.
- PDF 생성: 프로그래밍 방식으로 웹 페이지를 PDF로 변환하는 것은 스크린샷을 찍은 다음 스크린샷을 PDF로 변환하는 대신 웹 페이지에서 PDF를 직접 생성하려는 경우에 이상적입니다. (추신: 이미 이에 대한 해결 방법이 있다면 사과드립니다.)
- 자동화된 테스트: 버튼 클릭, 양식 작성, 스크린샷 찍기와 같은 사용자 작업을 시뮬레이션하여 웹페이지에서 테스트를 실행합니다. 이렇게 하면 모든 것이 제자리에 있는지 확인하기 위해 긴 양식을 수동으로 작성해야 하는 지루한 프로세스가 필요하지 않습니다.
?인형극을 시작하는 방법은 무엇입니까?
먼저 라이브러리를 설치해야 합니다. 계속해서 이 작업을 수행하세요.
npm 사용:
npm i puppeteer # Downloads compatible Chrome during installation. npm i puppeteer-core # Alternatively, install as a library, without downloading Chrome.
실 사용:
yarn add puppeteer // Downloads compatible Chrome during installation. yarn add puppeteer-core // Alternatively, install as a library, without downloading Chrome.
pnpm 사용:
pnpm add puppeteer # Downloads compatible Chrome during installation. pnpm add puppeteer-core # Alternatively, install as a library, without downloading Chrome.
? 인형극의 사용을 보여주는 예
다음은 웹사이트를 스크래핑하는 방법의 예입니다. (추신: 저는 이 코드를 사용하여 전자상거래 프로젝트를 위해 Myntra 웹사이트에서 제품을 검색했습니다.)
const puppeteer = require("puppeteer"); const CategorySchema = require("./models/Category"); // Define the scrape function as a named async function const scrape = async () => { // Launch a new browser instance const browser = await puppeteer.launch({ headless: false }); // Open a new page const page = await browser.newPage(); // Navigate to the target URL and wait until the DOM is fully loaded await page.goto('https://www.myntra.com/mens-sport-wear?rawQuery=mens%20sport%20wear', { waitUntil: 'domcontentloaded' }); // Wait for additional time to ensure all content is loaded await new Promise((resolve) => setTimeout(resolve, 25000)); // Extract product details from the page const items = await page.evaluate(() => { // Select all product elements const elements = document.querySelectorAll('.product-base'); const elementsArray = Array.from(elements); // Map each element to an object with the desired properties const results = elementsArray.map((element) => { const image = element.querySelector(".product-imageSliderContainer img")?.getAttribute("src"); return { image: image ?? null, brand: element.querySelector(".product-brand")?.textContent, title: element.querySelector(".product-product")?.textContent, discountPrice: element.querySelector(".product-price .product-discountedPrice")?.textContent, actualPrice: element.querySelector(".product-price .product-strike")?.textContent, discountPercentage: element.querySelector(".product-price .product-discountPercentage")?.textContent?.split(' ')[0]?.slice(1, -1), total: 20, // Placeholder value, adjust as needed available: 10, // Placeholder value, adjust as needed ratings: Math.round((Math.random() * 5) * 10) / 10 // Random rating for demonstration }; }); return results; // Return the list of product details }); // Close the browser await browser.close(); // Prepare the data for saving const data = { category: "mens-sport-wear", subcategory: "Mens", list: items }; // Create a new Category document and save it to the database // Since we want to store product information in our e-commerce store, we use a schema and save it to the database. // If you don't need to save the data, you can omit this step. const category = new CategorySchema(data); console.log(category); await category.save(); // Return the scraped items return items; }; // Export the scrape function as the default export module.exports = scrape;
?설명:
- 이 코드에서는 Puppeteer를 사용하여 웹사이트에서 제품 데이터를 스크랩합니다. 세부 정보를 추출한 후 스키마(CategorySchema)를 생성하여 이 데이터를 데이터베이스에 구성하고 저장합니다. 이 단계는 스크랩한 제품을 전자상거래 상점에 통합하려는 경우 특히 유용합니다. 데이터베이스에 데이터를 저장할 필요가 없다면 스키마 관련 코드를 생략해도 됩니다.
- 스크래핑하기 전에 페이지의 HTML 구조를 이해하고 어떤 CSS 선택기에 추출하려는 콘텐츠가 포함되어 있는지 식별하는 것이 중요합니다.
- 저의 경우 Myntra 웹사이트에서 확인된 관련 CSS 선택기를 사용하여 제가 타겟팅한 콘텐츠를 추출했습니다.
위 내용은 손쉬운 웹 스크래핑: Puppeteer를 사용하여 모든 HTML 페이지 구문 분석의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

JavaScript 문자열 교체 방법 및 FAQ에 대한 자세한 설명 이 기사는 JavaScript에서 문자열 문자를 대체하는 두 가지 방법 인 내부 JavaScript 코드와 웹 페이지의 내부 HTML을 탐색합니다. JavaScript 코드 내부의 문자열을 교체하십시오 가장 직접적인 방법은 대체 () 메소드를 사용하는 것입니다. str = str.replace ( "find", "replace"); 이 메소드는 첫 번째 일치 만 대체합니다. 모든 경기를 교체하려면 정규 표현식을 사용하고 전역 플래그 g를 추가하십시오. str = str.replace (/fi

그래서 여기 당신은 Ajax라는이 일에 대해 배울 준비가되어 있습니다. 그러나 정확히 무엇입니까? Ajax라는 용어는 역동적이고 대화식 웹 컨텐츠를 만드는 데 사용되는 느슨한 기술 그룹을 나타냅니다. 원래 Jesse J에 의해 만들어진 Ajax라는 용어

10 재미있는 jQuery 게임 플러그인 웹 사이트를보다 매력적으로 만들고 사용자 끈적함을 향상시킵니다! Flash는 여전히 캐주얼 웹 게임을 개발하기위한 최고의 소프트웨어이지만 JQuery는 놀라운 효과를 만들 수 있으며 Pure Action Flash 게임과 비교할 수는 없지만 경우에 따라 브라우저에서 예기치 않은 재미를 가질 수 있습니다. jQuery tic 발가락 게임 게임 프로그래밍의 "Hello World"에는 이제 jQuery 버전이 있습니다. 소스 코드 jQuery Crazy Word Composition 게임 이것은 반은 반은 게임이며, 단어의 맥락을 알지 못해 이상한 결과를 얻을 수 있습니다. 소스 코드 jQuery 광산 청소 게임

기사는 JavaScript 라이브러리 작성, 게시 및 유지 관리, 계획, 개발, 테스트, 문서 및 홍보 전략에 중점을 둡니다.

이 튜토리얼은 jQuery를 사용하여 매혹적인 시차 배경 효과를 만드는 방법을 보여줍니다. 우리는 멋진 시각적 깊이를 만드는 계층화 된 이미지가있는 헤더 배너를 만들 것입니다. 업데이트 된 플러그인은 jQuery 1.6.4 이상에서 작동합니다. 다운로드

이 기사는 브라우저에서 JavaScript 성능을 최적화하기위한 전략에 대해 설명하고 실행 시간을 줄이고 페이지로드 속도에 미치는 영향을 최소화하는 데 중점을 둡니다.

Matter.js는 JavaScript로 작성된 2D 강성 신체 물리 엔진입니다. 이 라이브러리를 사용하면 브라우저에서 2D 물리학을 쉽게 시뮬레이션 할 수 있습니다. 그것은 단단한 몸체를 생성하고 질량, 면적 또는 밀도와 같은 물리적 특성을 할당하는 능력과 같은 많은 기능을 제공합니다. 중력 마찰과 같은 다양한 유형의 충돌 및 힘을 시뮬레이션 할 수도 있습니다. Matter.js는 모든 주류 브라우저를 지원합니다. 또한, 터치를 감지하고 반응이 좋기 때문에 모바일 장치에 적합합니다. 이러한 모든 기능을 사용하면 엔진 사용 방법을 배울 수있는 시간이 필요합니다. 이는 물리 기반 2D 게임 또는 시뮬레이션을 쉽게 만들 수 있습니다. 이 튜토리얼에서는 설치 및 사용을 포함한이 라이브러리의 기본 사항을 다루고

이 기사에서는 jQuery 및 Ajax를 사용하여 5 초마다 DIV의 컨텐츠를 자동으로 새로 고치는 방법을 보여줍니다. 이 예제는 RSS 피드의 최신 블로그 게시물을 마지막 새로 고침 타임 스탬프와 함께 가져오고 표시합니다. 로딩 이미지는 선택 사항입니다


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

에디트플러스 중국어 크랙 버전
작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

ZendStudio 13.5.1 맥
강력한 PHP 통합 개발 환경

VSCode Windows 64비트 다운로드
Microsoft에서 출시한 강력한 무료 IDE 편집기

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

Dreamweaver Mac版
시각적 웹 개발 도구
