집 >백엔드 개발 >파이썬 튜토리얼 >간단한 웹 페이지 이미지 캡처의 Python 구현에 대한 자세한 예

간단한 웹 페이지 이미지 캡처의 Python 구현에 대한 자세한 예

小云云원래의: 2017-12-18 10:52:094214검색

이 글은 Python에서 간단한 웹 페이지 이미지 캡처의 전체 코드 예제를 주로 소개합니다. 이는 특정 참조 값이 있으며 필요한 친구가 참조할 수 있습니다.

파이썬을 사용하여 네트워크 이미지를 캡처하는 단계는 다음과 같습니다.
1. 주어진 URL에 따라 웹페이지 소스 코드를 얻습니다.
2. 정규식을 사용하여 소스 코드에서 이미지 주소를 필터링합니다. 필터링된 이미지 주소 네트워크 사진

다음은 특정 Baidu Tieba 웹페이지에서 사진을 가져오는 비교적 간단한 구현입니다.

# -*- coding: utf-8 -*- 
# feimengjuan 
import re 
import urllib 
import urllib2 
#抓取网页图片  
#根据给定的网址来获取网页详细信息，得到的html就是网页的源代码 
def getHtml(url): 
  page = urllib.urlopen(url) 
  html = page.read() 
  return html 
 def getImg(html): 
  #利用正则表达式把源代码中的图片地址过滤出来 
  reg = r&#39;src="(.+?\.jpg)" pic_ext&#39; 
  imgre = re.compile(reg) 
  imglist = imgre.findall(html) #表示在整个网页中过滤出所有图片的地址，放在imglist中 
  x = 0 
  for imgurl in imglist: 
    urllib.urlretrieve(imgurl,&#39;%s.jpg&#39; %x) #打开imglist中保存的图片网址，并下载图片保存在本地 
    x = x + 1 
 html = getHtml("http://tieba.baidu.com/p/2460150866")#获取该网址网页详细信息，得到的html就是网页的源代码 
getImg(html)#从网页源代码中分析并下载保存图片

코드를 추가로 구성하고 사진을 저장하기 위해 로컬에 "사진" 폴더를 만들었습니다

# -*- coding: utf-8 -*- 
# feimengjuan 
import re 
import urllib 
import urllib2 
import os 
#抓取网页图片  
#根据给定的网址来获取网页详细信息，得到的html就是网页的源代码 
def getHtml(url): 
  page = urllib.urlopen(url) 
  html = page.read() 
  return html 
 
#创建保存图片的文件夹 
def mkdir(path): 
  path = path.strip() 
  # 判断路径是否存在 
  # 存在  True 
  # 不存在 Flase 
  isExists = os.path.exists(path) 
  if not isExists: 
    print u&#39;新建了名字叫做&#39;,path,u&#39;的文件夹&#39; 
    # 创建目录操作函数 
    os.makedirs(path) 
    return True 
  else: 
    # 如果目录存在则不创建，并提示目录已经存在 
    print u&#39;名为&#39;,path,u&#39;的文件夹已经创建成功&#39; 
    return False 
# 输入文件名，保存多张图片 
def saveImages(imglist,name): 
  number = 1 
  for imageURL in imglist: 
    splitPath = imageURL.split(&#39;.&#39;) 
    fTail = splitPath.pop() 
    if len(fTail) > 3: 
      fTail = &#39;jpg&#39; 
    fileName = name + "/" + str(number) + "." + fTail 
    # 对于每张图片地址，进行保存 
    try: 
      u = urllib2.urlopen(imageURL) 
      data = u.read() 
      f = open(fileName,&#39;wb+&#39;) 
      f.write(data) 
      print u&#39;正在保存的一张图片为&#39;,fileName 
      f.close() 
    except urllib2.URLError as e: 
      print (e.reason) 
    number += 1  
#获取网页中所有图片的地址 
def getAllImg(html): 
  #利用正则表达式把源代码中的图片地址过滤出来 
  reg = r&#39;src="(.+?\.jpg)" pic_ext&#39; 
  imgre = re.compile(reg) 
  imglist = imgre.findall(html) #表示在整个网页中过滤出所有图片的地址，放在imglist中 
  return imglist   
#创建本地保存文件夹，并下载保存图片 
if __name__ == &#39;__main__&#39;: 
  html = getHtml("http://tieba.baidu.com/p/2460150866")#获取该网址网页详细信息，得到的html就是网页的源代码 
  path = u&#39;图片&#39; 
  mkdir(path) #创建本地文件夹 
  imglist = getAllImg(html) #获取图片的地址列表 
  saveImages(imglist,path) # 保存图片

결과적으로 "Pictures" 폴더에 스크린샷 등 수십 장의 사진이 저장되었습니다.

간단한 웹 페이지 이미지 캡처의 Python 구현에 대한 자세한 예

관련 기사