집 >백엔드 개발 >PHP 튜토리얼 >웹사이트에서 이미지를 크롤링하고 자동으로 로컬로 다운로드

웹사이트에서 이미지를 크롤링하고 자동으로 로컬로 다운로드

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB원래의: 2023-06-13 13:28:503522검색

인터넷 시대에 사람들은 갤러리, 소셜 플랫폼 등 다양한 웹사이트에서 사진을 다운로드하는 데 익숙해졌습니다. 소수의 이미지만 다운로드하면 되는 경우에는 수동 조작이 번거롭지 않습니다. 그러나 많은 수의 사진을 다운로드해야 하는 경우 수동 작업은 매우 시간이 많이 걸리고 힘들게 됩니다. 이때 사진 자동 다운로드를 실현하려면 자동화 기술을 사용해야 합니다.

이 기사에서는 Python 크롤러 기술을 사용하여 웹사이트에서 로컬 컴퓨터로 이미지를 자동으로 다운로드하는 방법을 소개합니다. 이 프로세스는 두 단계로 나뉩니다. 첫 번째 단계는 Python의 요청 라이브러리 또는 셀레늄 라이브러리를 사용하여 웹 사이트의 이미지 링크를 가져오는 것입니다. 두 번째 단계는 얻은 결과에 따라 Python의 urllib 또는 요청 라이브러리를 통해 이미지를 로컬에 다운로드하는 것입니다. 연결.

1단계: 이미지 링크 가져오기

요청 라이브러리를 사용하여 링크 크롤링

먼저 요청 라이브러리를 사용하여 이미지 링크를 크롤링하는 방법을 살펴보겠습니다. 샘플 코드는 다음과 같습니다.

import requests
from bs4 import BeautifulSoup

url = 'http://example.com'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')

img_tags = soup.find_all('img')

urls = [img['src'] for img in img_tags]

예제 웹사이트를 예로 들면, 먼저 요청 라이브러리를 사용하여 웹 콘텐츠를 크롤링하고 BeautifulSoup 라이브러리를 사용하여 HTML을 구문 분석합니다. 그런 다음 soup.find_all('img') 메서드를 사용하여 HTML의 모든 img 태그를 가져오고 목록 이해를 사용하여 각 태그의 src 속성 값을 추출합니다. soup.find_all('img') 方法来获取 HTML 中所有的 img 标签，并使用列表解析式将每个标签中的 src 属性的值提取出来。

使用 selenium 库爬取链接

另一种获取图片链接的方式是使用 selenium 库，示例代码如下：

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from time import sleep

url = 'http://example.com'

options = Options()
options.add_argument('--headless')

service = Service('/path/to/chromedriver')
driver = webdriver.Chrome(service=service, options=options)
driver.get(url)

sleep(2)

img_tags = driver.find_elements_by_tag_name('img')

urls = [img.get_attribute('src') for img in img_tags]

这里我们使用了 ChromeDriver，使用时需要先将自己电脑上的 ChromeDriver 的路径填入到示例代码中的 'path/to/chromedriver' 处。第二行代码启用无头浏览器，避免在 Chrome 浏览器窗口中进行操作，提高运行速度。然后我们使用 selenium 库中的 webdriver 模块建立了一个 Chrome 浏览器的实例，通过设置 driver.get(url) 来打开 Example 网站。然后使用 driver.find_elements_by_tag_name('img') 获取到所有的 img 标签，进而获取每个标签中的 src 属性的值。

第二步：下载图片

下载图片的方式有多种，这里我们使用 Python 自带的 urllib 库或者 requests 库来下载。示例代码如下：

import urllib.request

for url in urls:
    filename = url.split('/')[-1]
    urllib.request.urlretrieve(url, filename)

这里使用 urllib.request 库将图片从网络上下载到本地，使用 url.split('/')[-1] 来获取图片的文件名，并将其赋值给变量 filename，最后使用 urllib.request.urlretrieve(url, filename) 将图片下载到本地。需要注意的是，如果 url 中包含中文，还需要对 url 进行编码处理。

这里再简单介绍一下使用 requests 库下载图片的方法，示例代码如下：

import requests

for url in urls:
    filename = url.split('/')[-1]
    response = requests.get(url)
    with open(filename, 'wb') as f:
        f.write(response.content)

这里使用 requests 库获取图片二进制文件，将其写入文件。需要注意的是，由于二进制文件写入模式为 'wb'，需要使用 with open(filename, 'wb') as f:

이미지 링크를 얻는 또 다른 방법은 셀레늄 라이브러리를 사용하는 것입니다. 샘플 코드는 다음과 같습니다.

'path/to/chromedriver'

driver.get(url)

driver.find_elements_by_tag_name('img')

url.split('/')[-1]

urllib.request.urlretrieve(url, filename)

'wb'

with open(filename, 'wb') as f:

위 내용은 웹사이트에서 이미지를 크롤링하고 자동으로 로컬로 다운로드의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명：

이전 기사：PHP 크롤러: 웹 페이지에서 주요 정보를 추출하는 방법다음 기사：PHP 크롤러: 웹 페이지에서 주요 정보를 추출하는 방법