爬取某图片网站多页图片的python爬虫-PHP源码-php.cn

Home

php教程

PHP源码

爬取某图片网站多页图片的python爬虫

PHP中文网

May 26, 2016 am 08:18 AM

1. [代码][Python]代码

# coding=utf-8
import requests
import re
from lxml import etree
import time
import sys
reload(sys)
sys.setdefaultencoding("utf-8")

#定义一个爬虫
class spider(object):
    def __init__(self):
        print u&#39;开始爬取内容。。。&#39;

#getsource用来获取网页源代码
    def getsource(self,url):
        html = requests.get(url)
        return html.text

#changepage用来生产不同页数的链接
    def changepage(self,url,total_page):
        now_page = int(re.search(&#39;index_(\d+)&#39;,url,re.S).group(1))   #可修改
        page_group = []
        for i in range(now_page,total_page+1):
            link = re.sub(&#39;index_\d+&#39;,&#39;index_%s&#39;%i,url,re.S)       #可修改
            page_group.append(link)
        return page_group

#getpic用来爬取一个网页图片
    def getpic(self,source):
        selector = etree.HTML(source)
        pic_url = selector.xpath(&#39;//ul[@class="ali"]/li/p/a/img/@src&#39;)   #可修改
        return pic_url

#savepic用来保存结果到pic文件夹中
    def savepic(self,pic_url):
        picname=re.findall(&#39;(\d+)&#39;,link,re.S)    #可修改
        picnamestr = &#39;&#39;.join(picname)
        i=0
        for each in pic_url:
            print &#39;now downloading:&#39; + each
            pic = requests.get(each)
            fp = open(&#39;pic\\&#39;+picnamestr +&#39;-&#39;+str(i)+ &#39;.jpg&#39;, &#39;wb&#39;)
            fp.write(pic.content)
            fp.close()
            i += 1

#ppic集合类的方法
    def ppic(self, link):
        print u&#39;正在处理页面：&#39; + link
        html = picspider.getsource(link)
        pic_url = picspider.getpic(html)
        picspider.savepic(pic_url)

time1=time.time()
if __name__ == &#39;__main__&#39;:
    url = &#39;http://www.ivsky.com/tupian/ziranfengguang/index_1.html&#39;   #可修改
    picspider = spider()
    all_links = picspider.changepage(url,3)     #可修改
    for link in all_links:
        picspider.ppic(link)
time2=time.time()
print u&#39;耗时:&#39;+str(time2-time1)

2. [文件] picspider.py ~ 2KB

# coding=utf-8
import requests
import re
from lxml import etree
import time
import sys
reload(sys)
sys.setdefaultencoding("utf-8")

#定义一个爬虫
class spider(object):
    def __init__(self):
        print u&#39;开始爬取内容。。。&#39;

#getsource用来获取网页源代码
    def getsource(self,url):
        html = requests.get(url)
        return html.text

#changepage用来生产不同页数的链接
    def changepage(self,url,total_page):
        now_page = int(re.search(&#39;index_(\d+)&#39;,url,re.S).group(1))   #可修改
        page_group = []
        for i in range(now_page,total_page+1):
            link = re.sub(&#39;index_\d+&#39;,&#39;index_%s&#39;%i,url,re.S)       #可修改
            page_group.append(link)
        return page_group

#getpic用来爬取一个网页图片
    def getpic(self,source):
        selector = etree.HTML(source)
        pic_url = selector.xpath(&#39;//ul[@class="ali"]/li/p/a/img/@src&#39;)   #可修改
        return pic_url

#savepic用来保存结果到pic文件夹中
    def savepic(self,pic_url):
        picname=re.findall(&#39;(\d+)&#39;,link,re.S)    #可修改
        picnamestr = &#39;&#39;.join(picname)
        i=0
        for each in pic_url:
            print &#39;now downloading:&#39; + each
            pic = requests.get(each)
            fp = open(&#39;pic\\&#39;+picnamestr +&#39;-&#39;+str(i)+ &#39;.jpg&#39;, &#39;wb&#39;)
            fp.write(pic.content)
            fp.close()
            i += 1

#ppic集合类的方法
    def ppic(self, link):
        print u&#39;正在处理页面：&#39; + link
        html = picspider.getsource(link)
        pic_url = picspider.getpic(html)
        picspider.savepic(pic_url)

time1=time.time()
if __name__ == &#39;__main__&#39;:
    url = &#39;http://www.ivsky.com/tupian/ziranfengguang/index_1.html&#39;   #可修改
    picspider = spider()
    all_links = picspider.changepage(url,3)     #可修改
    for link in all_links:
        picspider.ppic(link)
time2=time.time()
print u&#39;耗时:&#39;+str(time2-time1)

3. [图片] 1.png

爬取某图片网站多页图片的python爬虫

Statement

The content of this article is voluntarily contributed by netizens, and the copyright belongs to the original author. This site does not assume corresponding legal responsibility. If you find any content suspected of plagiarism or infringement, please contact admin@php.cn

Hot AI Tools

Undresser.AI Undress

AI-powered app for creating realistic nude photos

AI Clothes Remover

Online AI tool for removing clothes from photos.

Undress AI Tool

Undress images for free

Clothoff.io

AI clothes remover

AI Hentai Generator

Generate AI Hentai for free.

Hot Article

R.E.P.O. Energy Crystals Explained and What They Do (Yellow Crystal)

1 months agoBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Best Graphic Settings

1 months agoBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle Solution

3 weeks agoByDDD

What's New in Windows 11 KB5054979 & How to Fix Update Issues

2 weeks agoByDDD

Will R.E.P.O. Have Crossplay?

1 months agoBy尊渡假赌尊渡假赌尊渡假赌

Hot Tools

Atom editor mac version download

The most popular open source editor

MantisBT

Mantis is an easy-to-deploy web-based defect tracking tool designed to aid in product defect tracking. It requires PHP, MySQL and a web server. Check out our demo and hosting services.