recherche
Maisondéveloppement back-endTutoriel PythonComment récupérer les données de Goodreads à l'aide de Python et BeautifulSoup

Le

Web scraping est un outil puissant pour collecter des données à partir de sites Web. Que vous collectiez des avis sur des produits, suiviez les prix ou, dans notre cas, scrappiez des livres Goodreads, le web scraping offre des opportunités infinies pour les applications basées sur les données.

Dans cet article de blog, nous explorerons les principes fondamentaux du web scraping, la puissance de la bibliothèque Python BeautifulSoup et décomposerons un script Python conçu pour récupérer les données des Goodreads Choice Awards. Enfin, nous verrons comment stocker ces données dans un fichier CSV pour une analyse ou des applications plus approfondies.


Qu'est-ce que Goodreads ?

Goodreads est la plus grande plateforme au monde de recommandations de lecteurs et de livres. Il permet aux utilisateurs d'accéder aux critiques de livres, aux détails des auteurs et aux classements populaires. Chaque année, Goodreads organise les Goodreads Choice Awards, où les lecteurs votent pour leurs livres préférés dans divers genres comme la fiction, la fantasy, la romance, etc. Cela fait de Goodreads une cible idéale pour le web scraping afin de recueillir des informations sur les livres et les auteurs tendances.


Qu’est-ce que le Web Scraping ?

Le Web scraping consiste à extraire des données de sites Web de manière automatisée. Il vous permet de collecter et de structurer des informations pour des tâches telles que :

  • Analyser les tendances et les modèles.
  • Regrouper du contenu comme des critiques ou des articles.
  • Alimenter des modèles ou des bases de données d'apprentissage automatique.

Configuration de votre environnement

Avant de plonger dans le script, vous devez installer les bibliothèques nécessaires.

  1. Installer Python

    Assurez-vous que Python est installé sur votre système.

  2. Installer les bibliothèques requises

    Installez les bibliothèques requises à l'aide de pip :

    pip install beautifulsoup4
    pip install requests
    

    requête : permet d'envoyer des requêtes HTTP vers une URL et de récupérer le contenu de la page Web.

    BeautifulSoup : simplifie l'analyse HTML et l'extraction de données.

Une fois ces installations terminées, vous êtes prêt à scrapper !


Introduction à BeautifulSoup

BeautifulSoup est une bibliothèque Python pour analyser les documents HTML et XML. Il permet aux développeurs de parcourir les structures de pages, d'extraire du contenu et de transformer le HTML brut en un format structuré.

Méthodes clés dans BeautifulSoup

Voici quelques méthodes essentielles que nous utiliserons dans notre script :

  • BeautifulSoup(html, 'html.parser') : initialise l'analyseur et vous permet de travailler avec le contenu HTML.
  • soup.select(selector) : recherche des éléments à l'aide de sélecteurs CSS, tels que des classes ou des balises.
  • soup.find(class_='class_name') : localise la première occurrence d'un élément avec une classe spécifiée.
  • soup.find_parent(class_='class_name') : recherche la balise parent de l'élément actuel.
  • soup.get('attribute') : Récupère la valeur d'un attribut d'un élément, comme href ou src.

Pour une liste complète des méthodes, consultez la documentation BeautifulSoup.


Configuration du script

Commençons par importer les bibliothèques nécessaires et définir des en-têtes personnalisés pour imiter un navigateur. Cela permet d'éviter d'être bloqué par le site Web.

pip install beautifulsoup4
pip install requests

Grattage de catégories et de livres

Nous commençons par définir les URL de la page Goodreads’ Choice Awards et de l’application principale. Nous enverrons une demande à start_url et obtiendrons le contenu de la page Web.

from bs4 import BeautifulSoup as bs
import requests
import re
import csv

HEADERS = {
    "User-Agent": "Mozilla/5.0 (X11; Linux x86_64)...",
    "Accept-Language": "en-US, en;q=0.5",
}

Chaque catégorie contient un genre et un lien vers sa page respective. En utilisant soup.select, nous extrayons toutes les catégories répertoriées sous la classe .category.

How to Scrape Data From Goodreads Using Python and BeautifulSoup

Ensuite, parcourez chaque catégorie pour obtenir le nom du genre et l'URL de sa page.

app_url = "https://www.goodreads.com"
start_url = "https://www.goodreads.com/choiceawards/best-books-2024"

res = requests.get(start_url, headers=HEADERS)
soup = bs(res.text, 'html.parser')

categories = soup.select('.category')

Ici, nous extrayons le nom de la catégorie (genre) et l'URL de la page de catégorie pour un traitement ultérieur.

Nous enverrons une autre demande à chaque URL de catégorie et localiserons tous les livres de cette catégorie.

for index, category in enumerate(categories):
    genre = category.select('h4.category__copy')[0].text.strip()
    url = category.select('a')[0].get('href')
    category_url = f"{app_url}{url}"

category_books contiendra la liste de tous les livres de la catégorie respective.

Extraction des données du livre

Une fois que nous aurons la liste des livres, nous allons parcourir chaque livre et extraire les données.

Extraire les votes

res = requests.get(category_url, headers=HEADERS)
soup = bs(res.text, 'html.parser')

category_books = soup.select('.resultShown a.pollAnswer__bookLink')

Si on voit dans le DOM, le décompte des votes est présent dans l'élément parent de l'élément catégorie. Nous devons donc utiliser la méthode find_parent pour localiser l'élément et extraire le décompte des votes.

How to Scrape Data From Goodreads Using Python and BeautifulSoup

Extraire le titre du livre, l'auteur et l'URL de l'image

for book_index, book in enumerate(category_books):
    parent_tag = book.find_parent(class_='resultShown')
    votes = parent_tag.find(class_='result').text.strip()
    book_votes = clean_string(votes).split(" ")[0].replace(",", "")

L'URL de chaque livre, l'URL de l'image de couverture, le titre et l'auteur sont extraits.

La fonction clean_string garantit que le titre est soigneusement formaté. Vous pouvez le définir en haut du script

book_url = book.get('href')
book_url_formatted = f"{app_url}{book_url}"
book_img = book.find('img')
book_img_url = book_img.get('src')
book_img_alt = book_img.get('alt')
book_title = clean_string(book_img_alt)
print(book_title)
book_name = book_title.split('by')[0].strip()
book_author = book_title.split('by')[1].strip()

Extraire plus de détails sur le livre

Pour obtenir plus de détails sur le livre comme la note, les critiques, etc., nous enverrons une autre demande à book_url_formatted.

def clean_string(string):
    cleaned = re.sub(r'\s+', ' ', string).strip()
    return cleaned

Ici, get_ratings_reviews renvoie le texte des notes et des avis bien formaté.

How to Scrape Data From Goodreads Using Python and BeautifulSoup

Vous pouvez définir cette fonction en haut du script.

pip install beautifulsoup4
pip install requests

En accédant à la page de détails de chaque livre, des informations supplémentaires telles que des notes, des critiques et des descriptions détaillées sont extraites. Ici, nous vérifions également si l'élément de description du livre existe, sinon nous mettons une description par défaut pour que le script n'échoue pas.

from bs4 import BeautifulSoup as bs
import requests
import re
import csv

HEADERS = {
    "User-Agent": "Mozilla/5.0 (X11; Linux x86_64)...",
    "Accept-Language": "en-US, en;q=0.5",
}

Ici, nous avons également rassemblé les détails de l'auteur, les informations de publication et d'autres métadonnées.

Créer un dictionnaire de livres

Stockons toutes les données que nous avons extraites pour un livre dans un dictionnaire.

app_url = "https://www.goodreads.com"
start_url = "https://www.goodreads.com/choiceawards/best-books-2024"

res = requests.get(start_url, headers=HEADERS)
soup = bs(res.text, 'html.parser')

categories = soup.select('.category')

Nous utiliserons ce dictionnaire pour ajouter les données dans un fichier csv.


Stockage des données dans un fichier CSV

Nous utiliserons le module csv qui fait partie de la bibliothèque standard de Python. Vous n'avez donc pas besoin de l'installer séparément.

Nous devons d’abord vérifier s’il s’agit de la première entrée. Cette vérification est obligatoire pour ajouter l'en-tête dans le fichier csv en première ligne.

for index, category in enumerate(categories):
    genre = category.select('h4.category__copy')[0].text.strip()
    url = category.select('a')[0].get('href')
    category_url = f"{app_url}{url}"

Nous utilisons mode="w" qui créera un nouveau fichier csv avec l'entrée d'en-tête.

Maintenant, pour toutes les entrées suivantes, nous ajouterons les données au fichier CSV :

res = requests.get(category_url, headers=HEADERS)
soup = bs(res.text, 'html.parser')

category_books = soup.select('.resultShown a.pollAnswer__bookLink')

mode="a" ajoutera les données au fichier CSV.

Maintenant, asseyez-vous, détendez-vous et savourez une tasse de café ☕️ pendant que le script s'exécute.

Une fois cela fait, les données finales ressembleront à ceci :

How to Scrape Data From Goodreads Using Python and BeautifulSoup

Vous pouvez trouver le code source complet dans ce référentiel github.


Résumé

Nous avons appris à récupérer les données Goodreads à l'aide de Python et BeautifulSoup. De la configuration de base au stockage des données dans un fichier CSV, nous avons exploré tous les aspects du processus de scraping. Les données récupérées peuvent être utilisées pour :

  • Visualisation des données (par exemple, genres ou auteurs les plus populaires).
  • Modèles d'apprentissage automatique pour prédire la popularité des livres.
  • Créer des systèmes de recommandation de livres personnels.

Le Web scraping ouvre des possibilités d'analyse et d'applications créatives de données. Avec des bibliothèques comme BeautifulSoup, même les tâches de scraping complexes deviennent gérables. N'oubliez pas de suivre des pratiques éthiques et de respecter les conditions d'utilisation du site Web lors du scraping !

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Le but principal de Python: flexibilité et facilité d'utilisationLe but principal de Python: flexibilité et facilité d'utilisationApr 17, 2025 am 12:14 AM

La flexibilité de Python se reflète dans les systèmes de prise en charge et de type dynamique multi-paradigmes, tandis que la facilité d'utilisation provient d'une syntaxe simple et d'une bibliothèque standard riche. 1. Flexibilité: prend en charge la programmation orientée objet, fonctionnelle et procédurale, et les systèmes de type dynamique améliorent l'efficacité de développement. 2. Facilité d'utilisation: La grammaire est proche du langage naturel, la bibliothèque standard couvre un large éventail de fonctions et simplifie le processus de développement.

Python: la puissance de la programmation polyvalentePython: la puissance de la programmation polyvalenteApr 17, 2025 am 12:09 AM

Python est très favorisé pour sa simplicité et son pouvoir, adaptés à tous les besoins des débutants aux développeurs avancés. Sa polyvalence se reflète dans: 1) Facile à apprendre et à utiliser, syntaxe simple; 2) Bibliothèques et cadres riches, tels que Numpy, Pandas, etc.; 3) Support multiplateforme, qui peut être exécuté sur une variété de systèmes d'exploitation; 4) Convient aux tâches de script et d'automatisation pour améliorer l'efficacité du travail.

Apprendre le python en 2 heures par jour: un guide pratiqueApprendre le python en 2 heures par jour: un guide pratiqueApr 17, 2025 am 12:05 AM

Oui, apprenez Python en deux heures par jour. 1. Élaborer un plan d'étude raisonnable, 2. Sélectionnez les bonnes ressources d'apprentissage, 3. Consolider les connaissances apprises par la pratique. Ces étapes peuvent vous aider à maîtriser Python en peu de temps.

Python vs C: avant et inconvénients pour les développeursPython vs C: avant et inconvénients pour les développeursApr 17, 2025 am 12:04 AM

Python convient au développement rapide et au traitement des données, tandis que C convient à des performances élevées et à un contrôle sous-jacent. 1) Python est facile à utiliser, avec syntaxe concise, et convient à la science des données et au développement Web. 2) C a des performances élevées et un contrôle précis, et est souvent utilisé dans les jeux et la programmation système.

Python: engagement du temps et rythme d'apprentissagePython: engagement du temps et rythme d'apprentissageApr 17, 2025 am 12:03 AM

Le temps nécessaire pour apprendre le python varie d'une personne à l'autre, principalement influencé par l'expérience de programmation précédente, la motivation d'apprentissage, les ressources et les méthodes d'apprentissage et le rythme d'apprentissage. Fixez des objectifs d'apprentissage réalistes et apprenez mieux à travers des projets pratiques.

Python: automatisation, script et gestion des tâchesPython: automatisation, script et gestion des tâchesApr 16, 2025 am 12:14 AM

Python excelle dans l'automatisation, les scripts et la gestion des tâches. 1) Automatisation: La sauvegarde du fichier est réalisée via des bibliothèques standard telles que le système d'exploitation et la fermeture. 2) Écriture de script: utilisez la bibliothèque PSUTIL pour surveiller les ressources système. 3) Gestion des tâches: utilisez la bibliothèque de planification pour planifier les tâches. La facilité d'utilisation de Python et la prise en charge de la bibliothèque riche en font l'outil préféré dans ces domaines.

Python et temps: tirer le meilleur parti de votre temps d'étudePython et temps: tirer le meilleur parti de votre temps d'étudeApr 14, 2025 am 12:02 AM

Pour maximiser l'efficacité de l'apprentissage de Python dans un temps limité, vous pouvez utiliser les modules DateTime, Time et Schedule de Python. 1. Le module DateTime est utilisé pour enregistrer et planifier le temps d'apprentissage. 2. Le module de temps aide à définir l'étude et le temps de repos. 3. Le module de planification organise automatiquement des tâches d'apprentissage hebdomadaires.

Python: jeux, GUIS, et plusPython: jeux, GUIS, et plusApr 13, 2025 am 12:14 AM

Python excelle dans les jeux et le développement de l'interface graphique. 1) Le développement de jeux utilise Pygame, fournissant des fonctions de dessin, audio et d'autres fonctions, qui conviennent à la création de jeux 2D. 2) Le développement de l'interface graphique peut choisir Tkinter ou Pyqt. Tkinter est simple et facile à utiliser, PYQT a des fonctions riches et convient au développement professionnel.

See all articles

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
1 Il y a quelques moisBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
1 Il y a quelques moisBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
1 Il y a quelques moisBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Commandes de chat et comment les utiliser
1 Il y a quelques moisBy尊渡假赌尊渡假赌尊渡假赌

Outils chauds

SublimeText3 version anglaise

SublimeText3 version anglaise

Recommandé : version Win, prend en charge les invites de code !

mPDF

mPDF

mPDF est une bibliothèque PHP qui peut générer des fichiers PDF à partir de HTML encodé en UTF-8. L'auteur original, Ian Back, a écrit mPDF pour générer des fichiers PDF « à la volée » depuis son site Web et gérer différentes langues. Il est plus lent et produit des fichiers plus volumineux lors de l'utilisation de polices Unicode que les scripts originaux comme HTML2FPDF, mais prend en charge les styles CSS, etc. et présente de nombreuses améliorations. Prend en charge presque toutes les langues, y compris RTL (arabe et hébreu) ​​et CJK (chinois, japonais et coréen). Prend en charge les éléments imbriqués au niveau du bloc (tels que P, DIV),

MinGW - GNU minimaliste pour Windows

MinGW - GNU minimaliste pour Windows

Ce projet est en cours de migration vers osdn.net/projects/mingw, vous pouvez continuer à nous suivre là-bas. MinGW : un port Windows natif de GNU Compiler Collection (GCC), des bibliothèques d'importation et des fichiers d'en-tête librement distribuables pour la création d'applications Windows natives ; inclut des extensions du runtime MSVC pour prendre en charge la fonctionnalité C99. Tous les logiciels MinGW peuvent fonctionner sur les plates-formes Windows 64 bits.

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)