首頁  >  文章  >  後端開發  >  厲害了,30行python程式碼爬取英雄聯盟全英雄皮膚

厲害了,30行python程式碼爬取英雄聯盟全英雄皮膚

coldplay.xixi
coldplay.xixi轉載
2020-11-27 16:51:2910199瀏覽

#python影片教學專欄精煉介紹如何爬取全英雄皮膚。

厲害了,30行python程式碼爬取英雄聯盟全英雄皮膚

免費推薦:python影片教學

距離上次寫爬蟲文章已經過了許久了,之前寫過一篇20行Python代碼爬取王者榮耀全英雄皮膚
,反響強烈,其中有很多同學希望我再寫一篇針對英雄聯盟官網的皮膚爬取,但苦於事情繁多,便一拖再拖,一直拖到了現在,那麼這篇文章我們就一起來學習如何爬取英雄聯盟全英雄皮膚。

爬取程式碼非常簡單,從上到下可能只需要寫30行左右就能完成,但重要的是分析過程,在此之前,我們先來了解一下本篇文章需要用到的模組。

requests模組介紹

首先是requests模組,這是一個模擬瀏覽器請求的模組,我們可以透過它來取得網頁上的信息,例如百度:

import requests

url = 'http://www.baidu.com'response = requests.get(url)print(response.text)

運行結果:
厲害了,30行python程式碼爬取英雄聯盟全英雄皮膚
透過get函數就能夠向指定參數的url發送請求,得到的response物件中封裝了許多回應的訊息,其中的text 即為回應內容,注意到獲取的內容裡有亂碼,這是編解碼不一致造成的,只需先獲取二進位數據,然後重新解碼即可:

import requests

url = 'http://www.baidu.com'response = requests.get(url)print(response.content.decode())

運行結果:
厲害了,30行python程式碼爬取英雄聯盟全英雄皮膚

json模組

json模組可以對json字串和Python資料類型進行相互轉換,例如將json轉換為Python物件:

import json

json_str = '{"name":"zhangsan","age":"20"}'rs = json.loads(json_str)print(type(rs))print(rs)

使用loads函數即可將json字串轉為字典類型,運行結果:

<class>
{'name': 'zhangsan', 'age': '20'}</class>

而若是想將Python資料轉為json字串,也非常簡單:

import json

str_dict = {'name': 'zhangsan', 'age': '20'}json_str = json.dumps(str_dict)print(type(json_str))print(json_str)

透過dumps函數即可將Python資料轉為json字串,運行結果:

<class>
{"name": "zhangsan", "age": "20"}</class>

準備工作

前面介紹了兩個模組,透過這兩個模組我們就能夠完成這個程式了。
在正式開始寫程式碼之前,我們首先需要分析資料來源,來到官網:https://lol.qq.com/main.shtml,往下拉找到英雄清單:
厲害了,30行python程式碼爬取英雄聯盟全英雄皮膚
#我們隨意點擊一個英雄進去查看:
厲害了,30行python程式碼爬取英雄聯盟全英雄皮膚
在皮膚圖片上右鍵點擊檢查:厲害了,30行python程式碼爬取英雄聯盟全英雄皮膚
# 這樣就找到了這個皮膚的url,我們再選擇第二個皮膚,看看它的url:
厲害了,30行python程式碼爬取英雄聯盟全英雄皮膚
我們將安妮所有皮膚的url全部拿出來看看:

https://game.gtimg.cn/images/lol/act/img/skin/big1000.jpg
https://game.gtimg.cn/images/lol/act/img/skin/big1001.jpg
https://game.gtimg.cn/images/lol/act/img/skin/big1002.jpg
https://game.gtimg.cn/images/lol/act/img/skin/big1003.jpg
https://game.gtimg.cn/images/lol/act/img/skin/big1004.jpg
https://game.gtimg.cn/images/lol/act/img/skin/big1005.jpg
https://game.gtimg.cn/images/lol/act/img/skin/big1006.jpg
https://game.gtimg.cn/images/lol/act/img/skin/big1007.jpg
https://game.gtimg.cn/images/lol/act/img/skin/big1008.jpg
https://game.gtimg.cn/images/lol/act/img/skin/big1009.jpg
https://game.gtimg.cn/images/lol/act/img/skin/big1010.jpg
https://game.gtimg.cn/images/lol/act/img/skin/big1011.jpg
https://game.gtimg.cn/images/lol/act/img/skin/big1012.jpg

從這些url中能發現什麼規律呢?其實法則非常明顯,url前面的內容都是一樣的,唯一不同的是big1000.jpg,而每個皮膚圖片就是在該url的基礎上加1。

那麼問題來了,它是如何區分這張圖片所屬的英雄的呢?我們觀察瀏覽器上方的位址:
厲害了,30行python程式碼爬取英雄聯盟全英雄皮膚
位址上有一個屬性值id為1,那麼我們可以猜測一下,皮膚圖片url中的big1000.jpg是不是由英雄id和皮膚id共同組成的呢?

要想證明我們的猜想,就必須再去看看其它英雄皮膚是不是也滿足這一條件:
厲害了,30行python程式碼爬取英雄聯盟全英雄皮膚
打開燼的詳情頁面,其id為202,由此,燼的皮膚圖片url最後部分應為:big ' 202 ' 皮膚編號.jpg#,所以其url應為:

https://game.gtimg.cn/images/lol/act/img/skin/big202000.jpg
https://game.gtimg.cn/images/lol/act/img/skin/big202001.jpg
https://game.gtimg.cn/images/lol/act/img/skin/big202002.jpg
https://game.gtimg.cn/images/lol/act/img/skin/big202003.jpg
https://game.gtimg.cn/images/lol/act/img/skin/big202004.jpg
https://game.gtimg.cn/images/lol/act/img/skin/big202005.jpg

事实是不是如此呢?检查一下便知:
厲害了,30行python程式碼爬取英雄聯盟全英雄皮膚
规律已经找到,但是我们还面临着诸多问题,比如每个英雄对应的id是多少呢?每个英雄又分别有多少个皮肤呢?

查询英雄id

先来解决第一个问题,每个英雄对应的id是多少?我们只能从官网首页中找找线索,在首页位置打开网络调试台:
厲害了,30行python程式碼爬取英雄聯盟全英雄皮膚
点击Network,并选中XHR,XHR是浏览器与服务器请求数据所依赖的对象,所以通过它便能筛选出一些服务器的响应数据。
此时我们刷新页面,在筛选出的内容发现了这么一个东西:
厲害了,30行python程式碼爬取英雄聯盟全英雄皮膚
hero_list,英雄列表?这里面会不会存储着所有英雄的信息呢?
厲害了,30行python程式碼爬取英雄聯盟全英雄皮膚
点击右侧的Response,得到了一串json字符串,我们将其解析一下:
厲害了,30行python程式碼爬取英雄聯盟全英雄皮膚
这些数据里果然存储的是英雄的信息,包括名字、id、介绍等等,那么接下来我们的任务就是将英雄名字和id单独提取出来,过滤掉其它信息。

忘了告诉你们了,这个文件的url在这里可以找到:
厲害了,30行python程式碼爬取英雄聯盟全英雄皮膚
接下来开始写代码:

import jsonimport requests# 定义一个列表,用于存放英雄名称和对应的idhero_id = []url = 'https://game.gtimg.cn/images/lol/act/img/js/heroList/hero_list.js?v=20'response = requests.get(url)text = response.text# 将json字符串转为列表hero_list = json.loads(text)['hero']# 遍历列表for hero in hero_list:
    # 定义一个字典
    hero_dict = {'name': hero['name'], 'id': hero['heroId']}
    # 将列表加入字典
    hero_id.append(hero_dict)print(hero_id)

首先通过requests模块请求该url,就能够获取到一个json字符串,然后使用json模块将该字符串转为Python中的列表,最后循环取出每个英雄的name和heroid属性,放入新定义的列表中,这个程序就完成了英雄id的提取。

查询皮肤个数

接下来解决第二个问题,如何知晓某个英雄究竟有多少个皮肤,按照刚才的思路,我们可以猜测一下,对于皮肤也应该会有一个文件存储着皮肤信息,在某个英雄的皮肤页面打开网络调试台,并选中XHR,刷新页面,找找线索:
厲害了,30行python程式碼爬取英雄聯盟全英雄皮膚
找来找去确实找不到有哪个文件是跟皮肤有关系的,但是这里发现了一个31.js文件,而当前英雄的id也为31,这真的是巧合吗?我们将右边的json字符串解析一下:
厲害了,30行python程式碼爬取英雄聯盟全英雄皮膚
该json数据中有一个skins属性,该属性值即为当前英雄的皮肤信息,既然找到了数据,那接下来就好办了,开始写代码:

import jsonimport requests

url = 'https://game.gtimg.cn/images/lol/act/img/js/hero/31.js'response = requests.get(url)text = response.text# 将json字符串转为列表skins_list = json.loads(text)['skins']skin_num = len(skins_list)

源程序实现

准备工作已经完成了我们所有的前置任务,接下来就是在此基础上编写代码了:

import requestsimport jsonimport osimport tracebackfrom tqdm import tqdmdef spider_lol():
    # 定义一个列表,用于存放英雄名称和对应的id
    hero_id = []
    skins = []
    url = 'https://game.gtimg.cn/images/lol/act/img/js/heroList/hero_list.js?v=20'
    response = requests.get(url)
    text = response.text    # 将json字符串转为列表
    hero_list = json.loads(text)['hero']
    # 遍历列表
    for hero in hero_list:
        # 定义一个字典
        hero_dict = {'name': hero['name'], 'id': hero['heroId']}
        # 将列表加入字典
        hero_id.append(hero_dict)
    # 得到每个英雄对应的id后,即可获得英雄对应皮肤的url
    # 英雄id + 001
    # 遍历列表
    for hero in hero_id:
        # 得到英雄名字
        hero_name = hero['name']
        # 得到英雄id
        hero_id = hero['id']
        # 创建文件夹
        os.mkdir('C:/Users/Administrator/Desktop/lol/' + hero_name)
        # 进入文件夹
        os.chdir('C:/Users/Administrator/Desktop/lol/' + hero_name)
        # 得到id后即可拼接存储该英雄信息的url
        hero_info_url = 'https://game.gtimg.cn/images/lol/act/img/js/hero/' + hero_id + '.js'
        # 通过访问该url获取英雄的皮肤数量
        text = requests.get(hero_info_url).text
        info_list = json.loads(text)
        # 得到皮肤名称
        skin_info_list = info_list['skins']
        skins.clear()
        for skin in skin_info_list:
            skins.append(skin['name'])
        # 获得皮肤数量
        skins_num = len(skin_info_list)
        # 获得皮肤数量后,即可拼接皮肤的url,如:安妮的皮肤url为:
        # https://game.gtimg.cn/images/lol/act/img/skin/big1000.jpg ~ https://game.gtimg.cn/images/lol/act/img/skin/big1012
        s = ''
        for i in tqdm(range(skins_num), '正在爬取' + hero_name + '的皮肤'):
            if len(str(i)) == 1:
                s = '00' + str(i)
            elif len(str(i)) == 2:
                s = '0' + str(i)
            elif len(str(i)) == 3:
                pass
            try:
                # 拼接皮肤url
                skin_url = 'https://game.gtimg.cn/images/lol/act/img/skin/big' + hero_id + '' + s + '.jpg'
                # 访问当前皮肤url
                im = requests.get(skin_url)
            except:
                # 某些英雄的炫彩皮肤没有url,所以直接终止当前url的爬取,进入下一个
                continue
            # 保存图片
            if im.status_code == 200:
                # 判断图片名称中是否带有'/'、'\'
                if '/' in skins[i] or '\\' in skins[i]:
                    skins[i] = skins[i].replace('/', '')
                    skins[i] = skins[i].replace('\\', '')
                with open(skins[i] + '.jpg', 'wb') as f:
                    f.write(im.content)def main():
    try:
        spider_lol()
    except Exception as  e:
        # 打印异常信息
        print(e)if __name__ == '__main__':
    main()

运行效果:
厲害了,30行python程式碼爬取英雄聯盟全英雄皮膚
运行之前记得在桌面上创建一个lol文件夹,如果想改动的话也可以修改程序:
厲害了,30行python程式碼爬取英雄聯盟全英雄皮膚
程序中还考虑到了一些其它情况,比如在爬取这个皮肤的时候会出现问题:
厲害了,30行python程式碼爬取英雄聯盟全英雄皮膚
因为图片路径是以皮肤名字命名的,然而这个皮肤的名字中竟然有个/,它是会影响到我们的图片保存操作的,所以在保存前将斜杠替换成空字符即可。

还有一个问题就是即使是第一个皮肤,其编号也应该为000而不是0,所以还需要对其进行一个转化,让其始终是三位数。

最后

本篇文章同样继承了上篇文章精简的特点,抛去注释的话总共30行代码左右,程序当然还有一些其它地方可以进一步优化,这就交给大家自由发挥了。

以上是厲害了,30行python程式碼爬取英雄聯盟全英雄皮膚的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:csdn.net。如有侵權,請聯絡admin@php.cn刪除