suchen
HeimWeb-Frontendjs-TutorialWeb Scraping leicht gemacht: Analysieren Sie jede HTML-Seite mit Puppeteer

Web Scraping Made Easy: Parse Any HTML Page with Puppeteer

Stellen Sie sich den Aufbau einer E-Commerce-Plattform vor, auf der wir problemlos Produktdaten in Echtzeit von großen Geschäften wie eBay, Amazon und Flipkart abrufen können. Sicher, es gibt Shopify und ähnliche Dienste, aber seien wir ehrlich: Es kann sich etwas umständlich anfühlen, ein Abonnement nur für ein Projekt zu kaufen. Also dachte ich, warum nicht diese Seiten durchsuchen und die Produkte direkt in unserer Datenbank speichern? Dies wäre eine effiziente und kostengünstige Möglichkeit, Produkte für unsere E-Commerce-Projekte zu erhalten.

Was ist Web Scraping?

Beim Web Scraping werden Daten von Websites extrahiert, indem der HTML-Code von Webseiten analysiert wird, um Inhalte zu lesen und zu sammeln. Dabei geht es oft darum, einen Browser zu automatisieren oder HTTP-Anfragen an die Website zu senden und dann die HTML-Struktur zu analysieren, um bestimmte Informationen wie Text, Links oder Bilder abzurufen. Puppeteer ist eine Bibliothek, die zum Scrapen der Websites verwendet wird.

?Was ist Puppenspieler?

Puppeteer ist eine Node.js-Bibliothek. Sie bietet eine High-Level-API zur Steuerung kopfloser Chrome- oder Chromium-Browser. Headless Chrome ist eine Version von Chrome, die alles ohne Benutzeroberfläche ausführt (ideal für die Ausführung von Dingen im Hintergrund).

Mit dem Puppenspieler können wir verschiedene Aufgaben automatisieren, wie zum Beispiel:

  • Web Scraping: Das Extrahieren von Inhalten aus Websites erfordert die Interaktion mit dem HTML und JavaScript der Seite. Normalerweise rufen wir den Inhalt ab, indem wir auf die CSS-Selektoren abzielen.
  • PDF-Generierung: Das programmgesteuerte Konvertieren von Webseiten in PDFs ist ideal, wenn Sie direkt ein PDF aus einer Webseite generieren möchten, anstatt einen Screenshot zu erstellen und den Screenshot dann in ein PDF umzuwandeln. (P.S. Entschuldigung, wenn Sie hierfür bereits Problemumgehungen haben).
  • Automatisierte Tests: Durchführen von Tests auf Webseiten durch Simulieren von Benutzeraktionen wie Klicken auf Schaltflächen, Ausfüllen von Formularen und Erstellen von Screenshots. Dadurch entfällt der mühsame Prozess, lange Formulare manuell durchzugehen, um sicherzustellen, dass alles an seinem Platz ist.

?Wie fange ich mit dem Puppenspieler an?

Zuerst müssen wir die Bibliothek installieren, machen Sie weiter.
Mit npm:

npm i puppeteer # Downloads compatible Chrome during installation.
npm i puppeteer-core # Alternatively, install as a library, without downloading Chrome.

Verwendung von Garn:

yarn add puppeteer // Downloads compatible Chrome during installation.
yarn add puppeteer-core // Alternatively, install as a library, without downloading Chrome.

Verwenden von pnpm:

pnpm add puppeteer # Downloads compatible Chrome during installation.
pnpm add puppeteer-core # Alternatively, install as a library, without downloading Chrome.

? Beispiel zur Demonstration des Einsatzes des Puppenspielers

Hier ist ein Beispiel für das Scrapen einer Website. (P.S.: Ich habe diesen Code verwendet, um für mein E-Commerce-Projekt Produkte von der Myntra-Website abzurufen.)

const puppeteer = require("puppeteer");
const CategorySchema = require("./models/Category");

// Define the scrape function as a named async function
const scrape = async () => {
    // Launch a new browser instance
    const browser = await puppeteer.launch({ headless: false });

    // Open a new page
    const page = await browser.newPage();

    // Navigate to the target URL and wait until the DOM is fully loaded
    await page.goto('https://www.myntra.com/mens-sport-wear?rawQuery=mens%20sport%20wear', { waitUntil: 'domcontentloaded' });

    // Wait for additional time to ensure all content is loaded
    await new Promise((resolve) => setTimeout(resolve, 25000));

    // Extract product details from the page
    const items = await page.evaluate(() => {
        // Select all product elements
        const elements = document.querySelectorAll('.product-base');
        const elementsArray = Array.from(elements);

        // Map each element to an object with the desired properties
        const results = elementsArray.map((element) => {
            const image = element.querySelector(".product-imageSliderContainer img")?.getAttribute("src");
            return {
                image: image ?? null,
                brand: element.querySelector(".product-brand")?.textContent,
                title: element.querySelector(".product-product")?.textContent,
                discountPrice: element.querySelector(".product-price .product-discountedPrice")?.textContent,
                actualPrice: element.querySelector(".product-price .product-strike")?.textContent,
                discountPercentage: element.querySelector(".product-price .product-discountPercentage")?.textContent?.split(' ')[0]?.slice(1, -1),
                total: 20, // Placeholder value, adjust as needed
                available: 10, // Placeholder value, adjust as needed
                ratings: Math.round((Math.random() * 5) * 10) / 10 // Random rating for demonstration
            };
        });

        return results; // Return the list of product details
    });

    // Close the browser
    await browser.close();

    // Prepare the data for saving
    const data = {
        category: "mens-sport-wear",
        subcategory: "Mens",
        list: items
    };

    // Create a new Category document and save it to the database
    // Since we want to store product information in our e-commerce store, we use a schema and save it to the database.
    // If you don't need to save the data, you can omit this step.
    const category = new CategorySchema(data);
    console.log(category);
    await category.save();

    // Return the scraped items
    return items;
};

// Export the scrape function as the default export
module.exports = scrape;

?Erklärung:

  • In diesem Code verwenden wir Puppeteer, um Produktdaten von einer Website zu extrahieren. Nachdem wir die Details extrahiert haben, erstellen wir ein Schema (CategorySchema), um diese Daten zu strukturieren und in unserer Datenbank zu speichern. Dieser Schritt ist besonders nützlich, wenn wir die gescrollten Produkte in unseren E-Commerce-Shop integrieren möchten. Wenn das Speichern der Daten in einer Datenbank nicht erforderlich ist, können Sie den schemabezogenen Code weglassen.
  • Vor dem Scraping ist es wichtig, die HTML-Struktur der Seite zu verstehen und zu ermitteln, welche CSS-Selektoren den Inhalt enthalten, den Sie extrahieren möchten.
  • In meinem Fall habe ich die relevanten CSS-Selektoren verwendet, die auf der Myntra-Website identifiziert wurden, um den Inhalt zu extrahieren, auf den ich abzielte.

Das obige ist der detaillierte Inhalt vonWeb Scraping leicht gemacht: Analysieren Sie jede HTML-Seite mit Puppeteer. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
JavaScript -Frameworks: Stromversorgung moderner WebentwicklungJavaScript -Frameworks: Stromversorgung moderner WebentwicklungMay 02, 2025 am 12:04 AM

Die Kraft des JavaScript -Frameworks liegt in der Vereinfachung der Entwicklung, der Verbesserung der Benutzererfahrung und der Anwendungsleistung. Betrachten Sie bei der Auswahl eines Frameworks: 1. Projektgröße und Komplexität, 2. Teamerfahrung, 3. Ökosystem und Community -Unterstützung.

Die Beziehung zwischen JavaScript, C und BrowsernDie Beziehung zwischen JavaScript, C und BrowsernMay 01, 2025 am 12:06 AM

Einführung Ich weiß, dass Sie es vielleicht seltsam finden. Was genau muss JavaScript, C und Browser tun? Sie scheinen nicht miteinander verbunden zu sein, aber tatsächlich spielen sie eine sehr wichtige Rolle in der modernen Webentwicklung. Heute werden wir die enge Verbindung zwischen diesen drei diskutieren. In diesem Artikel erfahren Sie, wie JavaScript im Browser ausgeführt wird, die Rolle von C in der Browser -Engine und wie sie zusammenarbeiten, um das Rendern und die Interaktion von Webseiten voranzutreiben. Wir alle kennen die Beziehung zwischen JavaScript und Browser. JavaScript ist die Kernsprache der Front-End-Entwicklung. Es läuft direkt im Browser und macht Webseiten lebhaft und interessant. Haben Sie sich jemals gefragt, warum Javascr

Node.js Streams mit TypeScriptNode.js Streams mit TypeScriptApr 30, 2025 am 08:22 AM

Node.js zeichnet sich bei effizienten E/A aus, vor allem bei Streams. Streams verarbeiten Daten inkrementell und vermeiden Speicherüberladung-ideal für große Dateien, Netzwerkaufgaben und Echtzeitanwendungen. Die Kombination von Streams mit der TypeScript -Sicherheit erzeugt eine POWE

Python vs. JavaScript: Leistung und EffizienzüberlegungenPython vs. JavaScript: Leistung und EffizienzüberlegungenApr 30, 2025 am 12:08 AM

Die Unterschiede in der Leistung und der Effizienz zwischen Python und JavaScript spiegeln sich hauptsächlich in: 1 wider: 1) Als interpretierter Sprache läuft Python langsam, weist jedoch eine hohe Entwicklungseffizienz auf und ist für eine schnelle Prototypentwicklung geeignet. 2) JavaScript ist auf einen einzelnen Thread im Browser beschränkt, aber Multi-Threading- und Asynchronen-E/A können verwendet werden, um die Leistung in Node.js zu verbessern, und beide haben Vorteile in tatsächlichen Projekten.

Die Ursprünge von JavaScript: Erforschung seiner ImplementierungsspracheDie Ursprünge von JavaScript: Erforschung seiner ImplementierungsspracheApr 29, 2025 am 12:51 AM

JavaScript stammt aus dem Jahr 1995 und wurde von Brandon Ike erstellt und realisierte die Sprache in C. 1.C-Sprache bietet Programmierfunktionen auf hoher Leistung und Systemebene für JavaScript. 2. Die Speicherverwaltung und die Leistungsoptimierung von JavaScript basieren auf C -Sprache. 3. Die plattformübergreifende Funktion der C-Sprache hilft JavaScript, auf verschiedenen Betriebssystemen effizient zu laufen.

Hinter den Kulissen: Welche Sprache macht JavaScript?Hinter den Kulissen: Welche Sprache macht JavaScript?Apr 28, 2025 am 12:01 AM

JavaScript wird in Browsern und Node.js -Umgebungen ausgeführt und stützt sich auf die JavaScript -Engine, um Code zu analysieren und auszuführen. 1) abstrakter Syntaxbaum (AST) in der Parsenstufe erzeugen; 2) AST in die Kompilierungsphase in Bytecode oder Maschinencode umwandeln; 3) Führen Sie den kompilierten Code in der Ausführungsstufe aus.

Die Zukunft von Python und JavaScript: Trends und VorhersagenDie Zukunft von Python und JavaScript: Trends und VorhersagenApr 27, 2025 am 12:21 AM

Zu den zukünftigen Trends von Python und JavaScript gehören: 1. Python wird seine Position in den Bereichen wissenschaftlicher Computer und KI konsolidieren. JavaScript wird die Entwicklung der Web-Technologie fördern. Beide werden die Anwendungsszenarien in ihren jeweiligen Bereichen weiter erweitern und mehr Durchbrüche in der Leistung erzielen.

Python vs. JavaScript: Entwicklungsumgebungen und ToolsPython vs. JavaScript: Entwicklungsumgebungen und ToolsApr 26, 2025 am 12:09 AM

Sowohl Python als auch JavaScripts Entscheidungen in Entwicklungsumgebungen sind wichtig. 1) Die Entwicklungsumgebung von Python umfasst Pycharm, Jupyternotebook und Anaconda, die für Datenwissenschaft und schnelles Prototyping geeignet sind. 2) Die Entwicklungsumgebung von JavaScript umfasst Node.JS, VSCODE und WebPack, die für die Entwicklung von Front-End- und Back-End-Entwicklung geeignet sind. Durch die Auswahl der richtigen Tools nach den Projektbedürfnissen kann die Entwicklung der Entwicklung und die Erfolgsquote der Projekte verbessert werden.

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heiße Werkzeuge

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

VSCode Windows 64-Bit-Download

VSCode Windows 64-Bit-Download

Ein kostenloser und leistungsstarker IDE-Editor von Microsoft

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

Dreamweaver Mac

Dreamweaver Mac

Visuelle Webentwicklungstools

SublimeText3 Linux neue Version

SublimeText3 Linux neue Version

SublimeText3 Linux neueste Version