Maison >développement back-end >tutoriel php >Explorez les images du site Web et téléchargez-les automatiquement localement

Explorez les images du site Web et téléchargez-les automatiquement localement

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBoriginal: 2023-06-13 13:28:503556parcourir

À l'ère d'Internet, les gens se sont habitués à télécharger des photos à partir de divers sites Web tels que des galeries et des plateformes sociales. Si vous n'avez besoin de télécharger qu'un petit nombre d'images, l'opération manuelle n'est pas fastidieuse. Cependant, si un grand nombre d'images doivent être téléchargées, l'opération manuelle deviendra très longue et laborieuse. À l'heure actuelle, la technologie d'automatisation doit être utilisée pour réaliser le téléchargement automatique des images.

Cet article explique comment utiliser la technologie de robot d'exploration Python pour télécharger automatiquement des images du site Web vers l'ordinateur local. Ce processus est divisé en deux étapes : la première étape consiste à utiliser la bibliothèque de requêtes de Python ou la bibliothèque Selenium pour récupérer les liens d'images sur le site Web ; la deuxième étape consiste à télécharger les images au niveau local via l'urllib ou la bibliothèque de requêtes de Python en fonction des résultats obtenus. links.

Première étape : obtenir le lien de l'image

Utilisez la bibliothèque de requêtes pour explorer le lien

Voyons d'abord comment utiliser la bibliothèque de requêtes pour explorer le lien de l'image. L'exemple de code est le suivant :

import requests
from bs4 import BeautifulSoup

url = 'http://example.com'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')

img_tags = soup.find_all('img')

urls = [img['src'] for img in img_tags]

En prenant l'exemple de site Web Exemple, utilisez d'abord la bibliothèque de requêtes pour explorer le contenu Web et utilisez la bibliothèque BeautifulSoup pour analyser le HTML. Ensuite, nous utilisons la méthode soup.find_all('img') pour obtenir toutes les balises img en HTML, et utilisons les compréhensions de liste pour extraire la valeur de l'attribut src dans chaque balise. soup.find_all('img') 方法来获取 HTML 中所有的 img 标签，并使用列表解析式将每个标签中的 src 属性的值提取出来。

使用 selenium 库爬取链接

另一种获取图片链接的方式是使用 selenium 库，示例代码如下：

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from time import sleep

url = 'http://example.com'

options = Options()
options.add_argument('--headless')

service = Service('/path/to/chromedriver')
driver = webdriver.Chrome(service=service, options=options)
driver.get(url)

sleep(2)

img_tags = driver.find_elements_by_tag_name('img')

urls = [img.get_attribute('src') for img in img_tags]

这里我们使用了 ChromeDriver，使用时需要先将自己电脑上的 ChromeDriver 的路径填入到示例代码中的 'path/to/chromedriver' 处。第二行代码启用无头浏览器，避免在 Chrome 浏览器窗口中进行操作，提高运行速度。然后我们使用 selenium 库中的 webdriver 模块建立了一个 Chrome 浏览器的实例，通过设置 driver.get(url) 来打开 Example 网站。然后使用 driver.find_elements_by_tag_name('img') 获取到所有的 img 标签，进而获取每个标签中的 src 属性的值。

第二步：下载图片

下载图片的方式有多种，这里我们使用 Python 自带的 urllib 库或者 requests 库来下载。示例代码如下：

import urllib.request

for url in urls:
    filename = url.split('/')[-1]
    urllib.request.urlretrieve(url, filename)

这里使用 urllib.request 库将图片从网络上下载到本地，使用 url.split('/')[-1] 来获取图片的文件名，并将其赋值给变量 filename，最后使用 urllib.request.urlretrieve(url, filename) 将图片下载到本地。需要注意的是，如果 url 中包含中文，还需要对 url 进行编码处理。

这里再简单介绍一下使用 requests 库下载图片的方法，示例代码如下：

import requests

for url in urls:
    filename = url.split('/')[-1]
    response = requests.get(url)
    with open(filename, 'wb') as f:
        f.write(response.content)

这里使用 requests 库获取图片二进制文件，将其写入文件。需要注意的是，由于二进制文件写入模式为 'wb'，需要使用 with open(filename, 'wb') as f:

Une autre façon d'obtenir des liens d'images consiste à utiliser la bibliothèque Selenium. L'exemple de code est le suivant :

'path/to/chromedriver'

driver.get(url)

driver.find_elements_by_tag_name('img')

url.split('/')[-1]

urllib.request.urlretrieve(url, filename)

'wb'

with open(filename, 'wb') as f:

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：Crawler PHP : un moyen d'extraire des informations clés des pages WebArticle suivant：Crawler PHP : un moyen d'extraire des informations clés des pages Web

Articles Liés

Voir plus