搜索
首页后端开发Python教程如何使用 Python 和 BeautifulSoup 从 Goodreads 中抓取数据

网络抓取是从网站收集数据的强大工具。无论您是收集产品评论、跟踪价格,还是在我们的例子中抓取 Goodreads 书籍,网络抓取都为数据驱动应用程序提供了无限的机会。

在这篇博文中,我们将探讨网页抓取的基础知识、Python BeautifulSoup 库的强大功能,并分解旨在抓取 Goodreads Choice Awards 数据的 Python 脚本。最后,我们将讨论如何将这些数据存储在 CSV 文件中以供进一步分析或应用。


Goodreads 是什么?

Goodreads 是全球最大的读者和图书推荐平台。它为用户提供了书评、作者详细信息和热门排名的访问权限。每年,Goodreads 都会举办 Goodreads 选择奖,读者投票选出他们最喜欢的各种类型的书籍,如小说、奇幻、浪漫等。这使得 Goodreads 成为网络抓取的理想目标,以收集有关热门书籍和作者的见解。


什么是网页抓取?

网络抓取涉及以自动方式从网站提取数据。它允许您收集和构建任务的信息,例如:

  • 分析趋势和模式。
  • 聚合评论或文章等内容。
  • 提供机器学习模型或数据库。

设置您的环境

在深入了解脚本之前,您需要安装必要的库。

  1. 安装Python

    确保您的系统上安装了 Python。

  2. 安装所需的库

    使用 pip 安装所需的库:

    pip install beautifulsoup4
    pip install requests
    

    请求:允许我们向 URL 发送 HTTP 请求并检索网页内容。

    BeautifulSoup:简化 HTML 解析和数据提取。

这些安装完成后,您就可以开始抓取了!


美丽汤简介

BeautifulSoup 是一个用于解析 HTML 和 XML 文档的 Python 库。它使开发人员能够导航页面结构、提取内容并将原始 HTML 转换为结构化格式。

BeautifulSoup 中的关键方法

以下是我们将在脚本中使用的一些基本方法:

  • BeautifulSoup(html, 'html.parser'):初始化解析器并允许您处理 HTML 内容。
  • soup.select(selector):使用 CSS 选择器查找元素,例如类或标签。
  • soup.find(class_='class_name'):定位具有指定类的元素的第一次出现。
  • soup.find_parent(class_='class_name'):查找当前元素的父标签。
  • soup.get('attribute'):从元素中检索属性的值,例如 href 或 src。

有关方法的完整列表,请查看 BeautifulSoup 文档。


设置脚本

让我们首先导入必要的库并定义自定义标头来模拟浏览器。这有助于避免被网站屏蔽。

pip install beautifulsoup4
pip install requests

抓取类别和书籍

我们首先定义 Goodreads 选择奖页面和主应用程序的 URL。我们将向 start_url 发送请求并获取网页内容。

from bs4 import BeautifulSoup as bs
import requests
import re
import csv

HEADERS = {
    "User-Agent": "Mozilla/5.0 (X11; Linux x86_64)...",
    "Accept-Language": "en-US, en;q=0.5",
}

每个类别都包含一个流派和指向其各自页面的链接。使用 soup.select,我们提取 .category 类下列出的所有类别。

How to Scrape Data From Goodreads Using Python and BeautifulSoup

接下来,迭代每个类别以获取流派名称及其页面 URL。

app_url = "https://www.goodreads.com"
start_url = "https://www.goodreads.com/choiceawards/best-books-2024"

res = requests.get(start_url, headers=HEADERS)
soup = bs(res.text, 'html.parser')

categories = soup.select('.category')

在这里,我们提取类别名称(流派)和类别页面 URL 以进行进一步处理。

我们将向每个category_url发送另一个请求并找到该类别下的所有书籍。

for index, category in enumerate(categories):
    genre = category.select('h4.category__copy')[0].text.strip()
    url = category.select('a')[0].get('href')
    category_url = f"{app_url}{url}"

category_books 将包含相应类别下所有书籍的列表。

提取图书数据

一旦我们有了书籍列表,我们将迭代每本书并提取数据。

提取投票

res = requests.get(category_url, headers=HEADERS)
soup = bs(res.text, 'html.parser')

category_books = soup.select('.resultShown a.pollAnswer__bookLink')

如果我们在 DOM 中看到,投票计数存在于类别元素的父元素中。所以我们需要使用find_parent方法来定位元素并提取投票数。

How to Scrape Data From Goodreads Using Python and BeautifulSoup

提取书名、作者和图片 URL

for book_index, book in enumerate(category_books):
    parent_tag = book.find_parent(class_='resultShown')
    votes = parent_tag.find(class_='result').text.strip()
    book_votes = clean_string(votes).split(" ")[0].replace(",", "")

提取每本书的 URL、封面图片 URL、标题和作者。

clean_string 函数确保标题格式整齐。您可以在脚本顶部定义它

book_url = book.get('href')
book_url_formatted = f"{app_url}{book_url}"
book_img = book.find('img')
book_img_url = book_img.get('src')
book_img_alt = book_img.get('alt')
book_title = clean_string(book_img_alt)
print(book_title)
book_name = book_title.split('by')[0].strip()
book_author = book_title.split('by')[1].strip()

提取更多书籍详细信息

要获取有关该书的更多详细信息,例如评分、评论等,我们将向 book_url_formatted 发送另一个请求。

def clean_string(string):
    cleaned = re.sub(r'\s+', ' ', string).strip()
    return cleaned

此处 get_ ratings_reviews 返回格式正确的评分和评论文本。

How to Scrape Data From Goodreads Using Python and BeautifulSoup

您可以在脚本顶部定义此函数。

pip install beautifulsoup4
pip install requests

通过导航到每本书的详细信息页面,可以提取评级、评论和详细描述等附加信息。在这里,我们还检查书籍描述元素是否存在,否则放置默认描述,以便脚本不会失败。

from bs4 import BeautifulSoup as bs
import requests
import re
import csv

HEADERS = {
    "User-Agent": "Mozilla/5.0 (X11; Linux x86_64)...",
    "Accept-Language": "en-US, en;q=0.5",
}

在这里,我们还收集了作者详细信息、出版信息和其他元数据。

创建图书词典

让我们将为一本书提取的所有数据存储在字典中。

app_url = "https://www.goodreads.com"
start_url = "https://www.goodreads.com/choiceawards/best-books-2024"

res = requests.get(start_url, headers=HEADERS)
soup = bs(res.text, 'html.parser')

categories = soup.select('.category')

我们将使用此字典将数据添加到 csv 文件中。


将数据存储在 CSV 文件中

我们将使用 csv 模块,它是 Python 标准库的一部分。所以不需要单独安装。

首先我们需要检查这是否是第一个条目。需要进行此检查才能将标题添加到 csv 文件的第一行中。

for index, category in enumerate(categories):
    genre = category.select('h4.category__copy')[0].text.strip()
    url = category.select('a')[0].get('href')
    category_url = f"{app_url}{url}"

我们使用 mode="w" 它将创建一个带有标题条目的新 csv 文件。

现在,对于所有后续条目,我们会将数据附加到 CSV 文件中:

res = requests.get(category_url, headers=HEADERS)
soup = bs(res.text, 'html.parser')

category_books = soup.select('.resultShown a.pollAnswer__bookLink')

mode="a" 会将数据附加到 CSV 文件。

现在,坐下来,放松一下,在脚本运行时享用一杯咖啡☕️。

完成后,最终数据将如下所示:

How to Scrape Data From Goodreads Using Python and BeautifulSoup

您可以在此 github 存储库中找到完整的源代码。


概括

我们已经学习了如何使用 Python 和 BeautifulSoup 抓取 Goodreads 数据。从基本设置到将数据存储在 CSV 文件中,我们探索了抓取过程的各个方面。抓取的数据可用于:

  • 数据可视化(例如,最受欢迎的流派或作者)。
  • 预测书籍受欢迎程度的机器学习模型。
  • 构建个人图书推荐系统。

网络抓取为创意数据分析和应用开辟了可能性。有了 BeautifulSoup 这样的库,即使是复杂的抓取任务也变得易于管理。请记住在抓取时遵循道德规范并尊重网站的服务条款!

以上是如何使用 Python 和 BeautifulSoup 从 Goodreads 中抓取数据的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
Python是否列表动态阵列或引擎盖下的链接列表?Python是否列表动态阵列或引擎盖下的链接列表?May 07, 2025 am 12:16 AM

pythonlistsareimplementedasdynamicarrays,notlinkedlists.1)他们areStoredIncoNtiguulMemoryBlocks,mayrequireRealLealLocationWhenAppendingItems,EmpactingPerformance.2)LinkesedlistSwoldOfferefeRefeRefeRefeRefficeInsertions/DeletionsButslowerIndexeDexedAccess,Lestpypytypypytypypytypy

如何从python列表中删除元素?如何从python列表中删除元素?May 07, 2025 am 12:15 AM

pythonoffersFourmainMethodStoreMoveElement Fromalist:1)删除(值)emovesthefirstoccurrenceofavalue,2)pop(index)emovesanderturnsanelementataSpecifiedIndex,3)delstatementremoveselemsbybybyselementbybyindexorslicebybyindexorslice,and 4)

试图运行脚本时,应该检查是否会遇到'权限拒绝”错误?试图运行脚本时,应该检查是否会遇到'权限拒绝”错误?May 07, 2025 am 12:12 AM

toresolvea“ dermissionded”错误Whenrunningascript,跟随台词:1)CheckAndAdjustTheScript'Spermissions ofchmod xmyscript.shtomakeitexecutable.2)nesureThEseRethEserethescriptistriptocriptibationalocatiforecationAdirectorywherewhereyOuhaveWritePerMissionsyOuhaveWritePermissionsyYouHaveWritePermissions,susteSyAsyOURHomeRecretectory。

与Python的图像处理中如何使用阵列?与Python的图像处理中如何使用阵列?May 07, 2025 am 12:04 AM

ArraysarecrucialinPythonimageprocessingastheyenableefficientmanipulationandanalysisofimagedata.1)ImagesareconvertedtoNumPyarrays,withgrayscaleimagesas2Darraysandcolorimagesas3Darrays.2)Arraysallowforvectorizedoperations,enablingfastadjustmentslikebri

对于哪些类型的操作,阵列比列表要快得多?对于哪些类型的操作,阵列比列表要快得多?May 07, 2025 am 12:01 AM

ArraySaresificatificallyfasterthanlistsForoperationsBenefiting fromDirectMemoryAcccccccCesandFixed-Sizestructures.1)conscessingElements:arraysprovideconstant-timeaccessduetocontoconcotigunmorystorage.2)iteration:araysleveragececacelocality.3)

说明列表和数组之间元素操作的性能差异。说明列表和数组之间元素操作的性能差异。May 06, 2025 am 12:15 AM

ArraySareBetterForlement-WiseOperationsDuetofasterAccessCessCessCessCessCessAndOptimizedImplementations.1)ArrayshaveContiguucuulmemoryfordirectAccesscess.2)列出sareflexible butslible dueTopotentEnallymideNamicizing.3)forlarargedAtaTasetsetsetsetsetsetsetsetsetsetsetlib

如何有效地对整个Numpy阵列进行数学操作?如何有效地对整个Numpy阵列进行数学操作?May 06, 2025 am 12:15 AM

在NumPy中进行整个数组的数学运算可以通过向量化操作高效实现。 1)使用简单运算符如加法(arr 2)可对数组进行运算。 2)NumPy使用C语言底层库,提升了运算速度。 3)可以进行乘法、除法、指数等复杂运算。 4)需注意广播操作,确保数组形状兼容。 5)使用NumPy函数如np.sum()能显着提高性能。

您如何将元素插入python数组中?您如何将元素插入python数组中?May 06, 2025 am 12:14 AM

在Python中,向列表插入元素有两种主要方法:1)使用insert(index,value)方法,可以在指定索引处插入元素,但在大列表开头插入效率低;2)使用append(value)方法,在列表末尾添加元素,效率高。对于大列表,建议使用append()或考虑使用deque或NumPy数组来优化性能。

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

安全考试浏览器

安全考试浏览器

Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SecLists

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。