爬取网站上的图片，并自动下载到本地-php教程-PHP中文网

首页

后端开发

php教程

爬取网站上的图片，并自动下载到本地

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 13, 2023 pm 01:28 PM

自动化爬虫图片下载

在互联网时代，人们已经习惯于从图库、社交平台等各种网站上下载图片。如果只需要下载少量图片，手动操作并不繁琐。但是，如果需要下载大量图片，手动操作将变得非常费时费力，这时就需要使用自动化技术来实现图片的自动下载。

本文将介绍如何使用 Python 爬虫技术，从网站上自动下载图片到本地。这个过程分为两步：第一步，使用 Python 的 requests 库或者 selenium 库抓取网站上的图片链接；第二步，根据获取到的链接，通过 Python 的 urllib 或者 requests 库将图片下载到本地。

第一步：获取图片链接

使用 requests 库爬取链接

先来看看使用 requests 库爬取图片链接的方法。示例代码如下：

import requests
from bs4 import BeautifulSoup

url = 'http://example.com'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')

img_tags = soup.find_all('img')

urls = [img['src'] for img in img_tags]

这里以 Example 网站为例，首先使用 requests 库爬取网页内容，并使用 BeautifulSoup 库解析 HTML。然后，我们使用 soup.find_all('img') 方法来获取 HTML 中所有的 img 标签，并使用列表解析式将每个标签中的 src 属性的值提取出来。

使用 selenium 库爬取链接

另一种获取图片链接的方式是使用 selenium 库，示例代码如下：

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from time import sleep

url = 'http://example.com'

options = Options()
options.add_argument('--headless')

service = Service('/path/to/chromedriver')
driver = webdriver.Chrome(service=service, options=options)
driver.get(url)

sleep(2)

img_tags = driver.find_elements_by_tag_name('img')

urls = [img.get_attribute('src') for img in img_tags]

这里我们使用了 ChromeDriver，使用时需要先将自己电脑上的 ChromeDriver 的路径填入到示例代码中的 'path/to/chromedriver' 处。第二行代码启用无头浏览器，避免在 Chrome 浏览器窗口中进行操作，提高运行速度。然后我们使用 selenium 库中的 webdriver 模块建立了一个 Chrome 浏览器的实例，通过设置 driver.get(url) 来打开 Example 网站。然后使用 driver.find_elements_by_tag_name('img') 获取到所有的 img 标签，进而获取每个标签中的 src 属性的值。

第二步：下载图片

下载图片的方式有多种，这里我们使用 Python 自带的 urllib 库或者 requests 库来下载。示例代码如下：

import urllib.request

for url in urls:
    filename = url.split('/')[-1]
    urllib.request.urlretrieve(url, filename)

这里使用 urllib.request 库将图片从网络上下载到本地，使用 url.split('/')[-1] 来获取图片的文件名，并将其赋值给变量 filename，最后使用 urllib.request.urlretrieve(url, filename) 将图片下载到本地。需要注意的是，如果 url 中包含中文，还需要对 url 进行编码处理。

这里再简单介绍一下使用 requests 库下载图片的方法，示例代码如下：

import requests

for url in urls:
    filename = url.split('/')[-1]
    response = requests.get(url)
    with open(filename, 'wb') as f:
        f.write(response.content)

这里使用 requests 库获取图片二进制文件，将其写入文件。需要注意的是，由于二进制文件写入模式为 'wb'，需要使用 with open(filename, 'wb') as f: 的方式来打开文件并写入，确保每个文件都被正确关闭。

总结

综上所述，通过 Python 爬虫技术，我们能够非常容易地爬取网站上的图片，并将其自动下载到本地。这种自动化技术能够帮助我们提高工作效率，对于需要处理大量图片的工作非常有帮助。同时，需要提醒的是，爬取网站上的图片需要遵守相关法律法规，并尊重网站的版权。如果没有得到网站官方的授权或者许可，不要未经允许擅自爬取网站上的图片。

以上是爬取网站上的图片，并自动下载到本地的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

PHP的当前状态：查看网络开发趋势Apr 13, 2025 am 12:20 AM

PHP在现代Web开发中仍然重要，尤其在内容管理和电子商务平台。1)PHP拥有丰富的生态系统和强大框架支持，如Laravel和Symfony。2)性能优化可通过OPcache和Nginx实现。3)PHP8.0引入JIT编译器，提升性能。4)云原生应用通过Docker和Kubernetes部署，提高灵活性和可扩展性。

PHP与其他语言：比较Apr 13, 2025 am 12:19 AM

PHP适合web开发，特别是在快速开发和处理动态内容方面表现出色，但不擅长数据科学和企业级应用。与Python相比，PHP在web开发中更具优势，但在数据科学领域不如Python；与Java相比，PHP在企业级应用中表现较差，但在web开发中更灵活；与JavaScript相比，PHP在后端开发中更简洁，但在前端开发中不如JavaScript。

PHP与Python：核心功能Apr 13, 2025 am 12:16 AM

PHP和Python各有优势，适合不同场景。1.PHP适用于web开发，提供内置web服务器和丰富函数库。2.Python适合数据科学和机器学习，语法简洁且有强大标准库。选择时应根据项目需求决定。

PHP：网络开发的关键语言Apr 13, 2025 am 12:08 AM

PHP是一种广泛应用于服务器端的脚本语言，特别适合web开发。1.PHP可以嵌入HTML，处理HTTP请求和响应，支持多种数据库。2.PHP用于生成动态网页内容，处理表单数据，访问数据库等，具有强大的社区支持和开源资源。3.PHP是解释型语言，执行过程包括词法分析、语法分析、编译和执行。4.PHP可以与MySQL结合用于用户注册系统等高级应用。5.调试PHP时，可使用error_reporting()和var_dump()等函数。6.优化PHP代码可通过缓存机制、优化数据库查询和使用内置函数。7