Heim >php教程 >PHP源码 >爬取某图片网站多页图片的python爬虫

爬取某图片网站多页图片的python爬虫

PHP中文网Original: 2016-05-26 08:18:452853Durchsuche

1. [代码][Python]代码

# coding=utf-8
import requests
import re
from lxml import etree
import time
import sys
reload(sys)
sys.setdefaultencoding("utf-8")

#定义一个爬虫
class spider(object):
    def __init__(self):
        print u&#39;开始爬取内容。。。&#39;

#getsource用来获取网页源代码
    def getsource(self,url):
        html = requests.get(url)
        return html.text

#changepage用来生产不同页数的链接
    def changepage(self,url,total_page):
        now_page = int(re.search(&#39;index_(\d+)&#39;,url,re.S).group(1))   #可修改
        page_group = []
        for i in range(now_page,total_page+1):
            link = re.sub(&#39;index_\d+&#39;,&#39;index_%s&#39;%i,url,re.S)       #可修改
            page_group.append(link)
        return page_group

#getpic用来爬取一个网页图片
    def getpic(self,source):
        selector = etree.HTML(source)
        pic_url = selector.xpath(&#39;//ul[@class="ali"]/li/p/a/img/@src&#39;)   #可修改
        return pic_url

#savepic用来保存结果到pic文件夹中
    def savepic(self,pic_url):
        picname=re.findall(&#39;(\d+)&#39;,link,re.S)    #可修改
        picnamestr = &#39;&#39;.join(picname)
        i=0
        for each in pic_url:
            print &#39;now downloading:&#39; + each
            pic = requests.get(each)
            fp = open(&#39;pic\\&#39;+picnamestr +&#39;-&#39;+str(i)+ &#39;.jpg&#39;, &#39;wb&#39;)
            fp.write(pic.content)
            fp.close()
            i += 1

#ppic集合类的方法
    def ppic(self, link):
        print u&#39;正在处理页面：&#39; + link
        html = picspider.getsource(link)
        pic_url = picspider.getpic(html)
        picspider.savepic(pic_url)

time1=time.time()
if __name__ == &#39;__main__&#39;:
    url = &#39;http://www.ivsky.com/tupian/ziranfengguang/index_1.html&#39;   #可修改
    picspider = spider()
    all_links = picspider.changepage(url,3)     #可修改
    for link in all_links:
        picspider.ppic(link)
time2=time.time()
print u&#39;耗时:&#39;+str(time2-time1)

2. [文件] picspider.py ~ 2KB

# coding=utf-8
import requests
import re
from lxml import etree
import time
import sys
reload(sys)
sys.setdefaultencoding("utf-8")

#定义一个爬虫
class spider(object):
    def __init__(self):
        print u&#39;开始爬取内容。。。&#39;

#getsource用来获取网页源代码
    def getsource(self,url):
        html = requests.get(url)
        return html.text

#changepage用来生产不同页数的链接
    def changepage(self,url,total_page):
        now_page = int(re.search(&#39;index_(\d+)&#39;,url,re.S).group(1))   #可修改
        page_group = []
        for i in range(now_page,total_page+1):
            link = re.sub(&#39;index_\d+&#39;,&#39;index_%s&#39;%i,url,re.S)       #可修改
            page_group.append(link)
        return page_group

#getpic用来爬取一个网页图片
    def getpic(self,source):
        selector = etree.HTML(source)
        pic_url = selector.xpath(&#39;//ul[@class="ali"]/li/p/a/img/@src&#39;)   #可修改
        return pic_url

#savepic用来保存结果到pic文件夹中
    def savepic(self,pic_url):
        picname=re.findall(&#39;(\d+)&#39;,link,re.S)    #可修改
        picnamestr = &#39;&#39;.join(picname)
        i=0
        for each in pic_url:
            print &#39;now downloading:&#39; + each
            pic = requests.get(each)
            fp = open(&#39;pic\\&#39;+picnamestr +&#39;-&#39;+str(i)+ &#39;.jpg&#39;, &#39;wb&#39;)
            fp.write(pic.content)
            fp.close()
            i += 1

#ppic集合类的方法
    def ppic(self, link):
        print u&#39;正在处理页面：&#39; + link
        html = picspider.getsource(link)
        pic_url = picspider.getpic(html)
        picspider.savepic(pic_url)

time1=time.time()
if __name__ == &#39;__main__&#39;:
    url = &#39;http://www.ivsky.com/tupian/ziranfengguang/index_1.html&#39;   #可修改
    picspider = spider()
    all_links = picspider.changepage(url,3)     #可修改
    for link in all_links:
        picspider.ppic(link)
time2=time.time()
print u&#39;耗时:&#39;+str(time2-time1)

3. [图片] 1.png

爬取某图片网站多页图片的python爬虫

Stellungnahme：

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Vorheriger Artikel：ios jsonNächster Artikel：微信后台代码，获取用户昵称

In Verbindung stehende Artikel

Mehr sehen