recherche
Maisoninterface Webjs tutorielComment faire du Web Scrape avec Puppeteer : un guide convivial pour les débutants

How to Web Scrape with Puppeteer: A Beginner-Friendly Guide

Le Web scraping est un outil incroyablement puissant pour collecter des données à partir de sites Web. Avec Puppeteer, la bibliothèque de navigateur sans tête de Google pour Node.js, vous pouvez automatiser le processus de navigation dans les pages, de clic sur les boutons et d'extraction d'informations, tout en imitant le comportement de navigation humain. Ce guide vous guidera à travers les bases du web scraping avec Puppeteer d'une manière simple, claire et exploitable.

Qu'est-ce que le Marionnettiste ?

Puppeteer est une bibliothèque Node.js qui vous permet de contrôler une version sans tête de Google Chrome (ou Chromium). Un navigateur sans tête fonctionne sans interface utilisateur graphique (GUI), ce qui le rend plus rapide et parfait pour les tâches d'automatisation telles que le scraping. Cependant, Puppeteer peut également fonctionner en mode navigateur complet si vous avez besoin de voir ce qui se passe visuellement.

Pourquoi choisir Puppeteer pour le Web Scraping ?

Flexibilité : Puppeteer gère facilement les sites Web dynamiques et les applications monopage (SPA).
Prise en charge de JavaScript : il exécute JavaScript sur les pages, ce qui est essentiel pour supprimer les applications Web modernes.
Puissance d'automatisation : vous pouvez effectuer des tâches telles que remplir des formulaires, cliquer sur des boutons et même prendre des captures d'écran.

Utiliser des proxys avec Puppeteer

Lors du scraping de sites Web, les proxys sont essentiels pour éviter les interdictions IP et accéder au contenu géo-restreint. Les proxys agissent comme intermédiaires entre votre scraper et le site Web cible, masquant votre véritable adresse IP. Pour Puppeteer, vous pouvez facilement intégrer des proxys en les passant comme arguments de lancement :

javascript
Copier le code
const navigateur = wait puppeteer.launch({
args : ['--proxy-server=votre-proxy-server:port']
});
Les proxys sont particulièrement utiles pour intensifier vos efforts de scraping. Les proxys rotatifs garantissent que chaque requête provient d'une adresse IP différente, réduisant ainsi les chances de détection. Les proxys résidentiels, connus pour leur authenticité, sont excellents pour contourner les défenses contre les robots, tandis que les proxys des centres de données sont plus rapides et plus abordables. Choisissez le type qui correspond à vos besoins de grattage et testez toujours les performances pour garantir la fiabilité.

Mise en place du marionnettiste

Avant de commencer à gratter, vous devrez configurer Puppeteer. Passons au processus étape par étape :
Étape 1 : Installez Node.js et Puppeteer
Installez Node.js : Téléchargez et installez Node.js depuis le site officiel.
Configurer Puppeteer : ouvrez votre terminal et exécutez la commande suivante :
bash
Copier le code
npm installer le marionnettiste

Cela installera Puppeteer et Chromium, le navigateur qu'il contrôle.
Étape 2 : Écrivez votre premier scénario de marionnettiste
Créez un nouveau fichier JavaScript, scraper.js. Cela hébergera votre logique de scraping. Écrivons un script simple pour ouvrir une page Web et extraire son titre :
javascript
Copier le code
const marionnettiste = require('marionnettiste');

(async() => {
const navigateur = wait puppeteer.launch();
const page = attendre navigateur.newPage();

// Naviguer vers un site Web
attendre page.goto('https://example.com');

// Extraire le titre
const title = attendre page.title();
console.log(Titre de la page : ${title});

attendre navigateur.close();
})();

Exécutez le script en utilisant :
bash
Copier le code
nœud scraper.js

Vous venez d'écrire votre premier grattoir Marionnettiste !

Fonctionnalités de base du marionnettiste pour le grattage

Maintenant que vous maîtrisez les bases, explorons quelques fonctionnalités clés de Puppeteer que vous utiliserez pour le scraping.

  1. Navigation vers les pages
    La méthode page.goto(url) vous permet d'ouvrir n'importe quelle URL. Ajoutez des options telles que les paramètres de délai d'expiration si nécessaire :
    javascript
    Copier le code
    wait page.goto('https://example.com', { timeout: 60000 });

  2. Sélection des éléments
    Utilisez des sélecteurs CSS pour identifier les éléments sur une page. Puppeteer propose des méthodes telles que :
    page.$(sélecteur) pour le premier match
    page.$$(sélecteur) pour tous les matchs
    Exemple :
    javascript
    Copier le code
    élément const = page d'attente.$('h1');
    const text = wait page.evaluate(el => el.textContent, element);
    console.log(Titre : ${text});

  3. Interagir avec les éléments
    Simulez les interactions des utilisateurs, telles que les clics et la saisie :
    javascript
    Copier le code
    attendre page.click('#submit-button');
    wait page.type('#search-box', 'Puppeteer scraping');

  4. En attente des éléments
    Les pages Web se chargent à différentes vitesses. Puppeteer vous permet d'attendre des éléments avant de continuer :
    javascript
    Copier le code
    wait page.waitForSelector('#dynamic-content');

  5. Prendre des captures d'écran
    Le débogage visuel ou l'enregistrement de données sous forme d'images est facile :
    javascript
    Copier le code
    wait page.screenshot({ chemin : 'screenshot.png', fullPage : true });

Gestion du contenu dynamique

De nombreux sites Web utilisent aujourd'hui JavaScript pour charger du contenu de manière dynamique. Puppeteer brille ici car il exécute JavaScript, vous permettant de récupérer le contenu qui pourrait ne pas être visible dans la source de la page.
Exemple : Extraction de données dynamiques
javascript
Copier le code
attendre page.goto('https://news.ycombinator.com');
attendre page.waitForSelector('.storylink');

const headlines = wait page.$$eval('.storylink', links => links.map(link => link.textContent));
console.log('Titres :', titres);

Gérer le CAPTCHA et la détection de robots

Certains sites Web ont mis en place des mesures pour bloquer les robots. Le Marionnettiste peut aider à contourner des contrôles simples :
Utiliser le mode furtif : installez le plugin puppeteer-extra :
bash
Copier le code
npm install marionnettiste-extra marionnettiste-extra-plugin-stealth
Ajoutez-le à votre script :
javascript
Copier le code
const marionnettiste = require('puppeteer-extra');
const StealthPlugin = require('puppeteer-extra-plugin-stealth');
puppeteer.use(StealthPlugin());

Imitez le comportement humain : randomisez les actions telles que les mouvements de la souris et les vitesses de frappe pour paraître plus humain.
Rotation des agents utilisateurs : modifiez l'agent utilisateur de votre navigateur à chaque demande :
javascript
Copier le code
wait page.setUserAgent('Mozilla/5.0 (Windows NT 10.0; Win64; x64)');

Sauvegarde des données récupérées

Après avoir extrait les données, vous souhaiterez probablement les enregistrer. Voici quelques formats courants :
JSON :
javascript
Copier le code
const fs = require('fs');
const data = { nom : 'Marionnette', type : 'bibliothèque' };
fs.writeFileSync('data.json', JSON.stringify(data, null, 2));

CSV : utilisez une bibliothèque comme csv-writer :
bash
Copier le code
npm installer csv-writer
javascript
Copier le code
const createCsvWriter = require('csv-writer').createObjectCsvWriter;

const csvWriter = createCsvWriter({
chemin : 'data.csv',
en-tête : [
{ identifiant : 'nom', titre : 'Nom' },
{ id : 'type', titre : 'Type' }
]
});

const records = [{ nom : 'Marionnette', type : 'bibliothèque' }];
csvWriter.writeRecords(records).then(() => console.log('Fichier CSV écrit.'));
Pratiques éthiques de Web Scraping
Avant de supprimer un site Web, gardez ces directives éthiques à l'esprit :
Vérifiez les conditions d'utilisation : assurez-vous toujours que le site Web autorise le scraping.
Respectez les limites de débit : évitez d’envoyer trop de demandes en peu de temps. Utilisez setTimeout ou page.waitForTimeout() de Puppeteer pour espacer les requêtes :
javascript
Copier le code
attendre page.waitForTimeout(2000); // Attend 2 secondes

Évitez les données sensibles : ne récupérez jamais d'informations personnelles ou privées.

Dépannage des problèmes courants

La page ne se charge pas correctement : essayez d'ajouter un délai d'attente plus long ou d'activer le mode navigateur complet :
javascript
Copier le code
const navigateur = wait puppeteer.launch({ headless: false });

Les sélecteurs ne fonctionnent pas : inspectez le site Web avec les outils de développement du navigateur (Ctrl Maj C) pour confirmer les sélecteurs.
Bloqué par CAPTCHA : utilisez le plugin furtif et imitez le comportement humain.

Foire aux questions (FAQ)

  1. Le marionnettiste est-il gratuit ? Oui, Puppeteer est open source et gratuit.
  2. Puppeteer peut-il gratter des sites Web contenant beaucoup de JavaScript ? Absolument! Puppeteer exécute JavaScript, ce qui le rend parfait pour scraper des sites dynamiques.
  3. Le Web Scraping est-il légal ? Ça dépend. Vérifiez toujours les conditions d’utilisation du site Web avant de gratter.
  4. Le marionnettiste peut-il contourner le CAPTCHA ? Puppeteer peut gérer les défis CAPTCHA de base, mais les défis avancés peuvent nécessiter des outils tiers.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Moteurs JavaScript: comparaison des implémentationsMoteurs JavaScript: comparaison des implémentationsApr 13, 2025 am 12:05 AM

Différents moteurs JavaScript ont des effets différents lors de l'analyse et de l'exécution du code JavaScript, car les principes d'implémentation et les stratégies d'optimisation de chaque moteur diffèrent. 1. Analyse lexicale: convertir le code source en unité lexicale. 2. Analyse de la grammaire: générer un arbre de syntaxe abstrait. 3. Optimisation et compilation: générer du code machine via le compilateur JIT. 4. Exécuter: Exécutez le code machine. Le moteur V8 optimise grâce à une compilation instantanée et à une classe cachée, SpiderMonkey utilise un système d'inférence de type, résultant en différentes performances de performances sur le même code.

Au-delà du navigateur: Javascript dans le monde réelAu-delà du navigateur: Javascript dans le monde réelApr 12, 2025 am 12:06 AM

Les applications de JavaScript dans le monde réel incluent la programmation côté serveur, le développement des applications mobiles et le contrôle de l'Internet des objets: 1. La programmation côté serveur est réalisée via Node.js, adaptée au traitement de demande élevé simultané. 2. Le développement d'applications mobiles est effectué par le reactnatif et prend en charge le déploiement multiplateforme. 3. Utilisé pour le contrôle des périphériques IoT via la bibliothèque Johnny-Five, adapté à l'interaction matérielle.

Construire une application SaaS multi-locataire avec next.js (intégration backend)Construire une application SaaS multi-locataire avec next.js (intégration backend)Apr 11, 2025 am 08:23 AM

J'ai construit une application SAAS multi-locataire fonctionnelle (une application EdTech) avec votre outil technologique quotidien et vous pouvez faire de même. Premièrement, qu'est-ce qu'une application SaaS multi-locataire? Les applications saas multi-locataires vous permettent de servir plusieurs clients à partir d'un chant

Comment construire une application SaaS multi-locataire avec Next.js (Frontend Integration)Comment construire une application SaaS multi-locataire avec Next.js (Frontend Integration)Apr 11, 2025 am 08:22 AM

Cet article démontre l'intégration frontale avec un backend sécurisé par permis, construisant une application fonctionnelle EdTech SaaS en utilisant Next.js. Le frontend récupère les autorisations des utilisateurs pour contrôler la visibilité de l'interface utilisateur et garantit que les demandes d'API adhèrent à la base de rôles

JavaScript: Explorer la polyvalence d'un langage WebJavaScript: Explorer la polyvalence d'un langage WebApr 11, 2025 am 12:01 AM

JavaScript est le langage central du développement Web moderne et est largement utilisé pour sa diversité et sa flexibilité. 1) Développement frontal: construire des pages Web dynamiques et des applications à une seule page via les opérations DOM et les cadres modernes (tels que React, Vue.js, Angular). 2) Développement côté serveur: Node.js utilise un modèle d'E / S non bloquant pour gérer une concurrence élevée et des applications en temps réel. 3) Développement des applications mobiles et de bureau: le développement de la plate-forme multiplateuse est réalisé par réact noral et électron pour améliorer l'efficacité du développement.

L'évolution de JavaScript: tendances actuelles et perspectives d'avenirL'évolution de JavaScript: tendances actuelles et perspectives d'avenirApr 10, 2025 am 09:33 AM

Les dernières tendances de JavaScript incluent la montée en puissance de TypeScript, la popularité des frameworks et bibliothèques modernes et l'application de WebAssembly. Les prospects futurs couvrent des systèmes de type plus puissants, le développement du JavaScript côté serveur, l'expansion de l'intelligence artificielle et de l'apprentissage automatique, et le potentiel de l'informatique IoT et Edge.

Démystifier javascript: ce qu'il fait et pourquoi c'est importantDémystifier javascript: ce qu'il fait et pourquoi c'est importantApr 09, 2025 am 12:07 AM

JavaScript est la pierre angulaire du développement Web moderne, et ses principales fonctions incluent la programmation axée sur les événements, la génération de contenu dynamique et la programmation asynchrone. 1) La programmation axée sur les événements permet aux pages Web de changer dynamiquement en fonction des opérations utilisateur. 2) La génération de contenu dynamique permet d'ajuster le contenu de la page en fonction des conditions. 3) La programmation asynchrone garantit que l'interface utilisateur n'est pas bloquée. JavaScript est largement utilisé dans l'interaction Web, les applications à une page et le développement côté serveur, améliorant considérablement la flexibilité de l'expérience utilisateur et du développement multiplateforme.

Python ou JavaScript est-il meilleur?Python ou JavaScript est-il meilleur?Apr 06, 2025 am 12:14 AM

Python est plus adapté à la science des données et à l'apprentissage automatique, tandis que JavaScript est plus adapté au développement frontal et complet. 1. Python est connu pour sa syntaxe concise et son écosystème de bibliothèque riche, et convient à l'analyse des données et au développement Web. 2. JavaScript est le cœur du développement frontal. Node.js prend en charge la programmation côté serveur et convient au développement complet.

See all articles

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
3 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
3 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
3 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Comment déverrouiller tout dans Myrise
4 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌

Outils chauds

MantisBT

MantisBT

Mantis est un outil Web de suivi des défauts facile à déployer, conçu pour faciliter le suivi des défauts des produits. Cela nécessite PHP, MySQL et un serveur Web. Découvrez nos services de démonstration et d'hébergement.

MinGW - GNU minimaliste pour Windows

MinGW - GNU minimaliste pour Windows

Ce projet est en cours de migration vers osdn.net/projects/mingw, vous pouvez continuer à nous suivre là-bas. MinGW : un port Windows natif de GNU Compiler Collection (GCC), des bibliothèques d'importation et des fichiers d'en-tête librement distribuables pour la création d'applications Windows natives ; inclut des extensions du runtime MSVC pour prendre en charge la fonctionnalité C99. Tous les logiciels MinGW peuvent fonctionner sur les plates-formes Windows 64 bits.

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

Puissant environnement de développement intégré PHP

Version crackée d'EditPlus en chinois

Version crackée d'EditPlus en chinois

Petite taille, coloration syntaxique, ne prend pas en charge la fonction d'invite de code

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP