Maison >développement back-end >Tutoriel Python >Une brève introduction au framework d'exploration (talonspider) en Python
Cet article vous présente une brève introduction et la méthode d'utilisation du crawler frameworktalonspider développé à l'aide de python Les amis dans le besoin peuvent se référer à
. 1. Pourquoi écrire ceci ?
Pour certaines pages simples, il n'est pas nécessaire d'utiliser un framework relativement volumineux pour les explorer. Il serait gênant de les écrire à la main
J'ai donc écrit Talonspider pour cela. exigence :
•1. Extraction d'éléments à partir d'une seule page - cliquez ici pour une introduction détaillée
•2. Module Spider - cliquez ici pour une introduction détaillée
<.>2. Introduction && utilisation
2.1.itemCe module peut être utilisé indépendamment Pour certains sites Web avec des requêtes relativement simples (comme uniquement obtenir des requêtes), vous pouvez rapidement. écrivez ce que vous voulez en utilisant ce module seul, par exemple (utilisez python3 ci-dessous, voir le répertoire d'exemples pour python2) : 2.1.1 Cible unique d'une seule page Par exemple, pour obtenir. cette URL http://book.qidian.com/ Les informations sur le livre, la couverture et autres informations de info/1004608738 peuvent être écrites directement comme ceci :import time from talonspider import Item, TextField, AttrField from pprint import pprint class TestSpider(Item): title = TextField(css_select='.book-info>h1>em') author = TextField(css_select='a.writer') cover = AttrField(css_select='a#bookImg>img', attr='src') def tal_title(self, title): return title def tal_cover(self, cover): return 'http:' + cover if name == 'main': item_data = TestSpider.get_item(url='http://book.qidian.com/info/1004608738') pprint(item_data)Pour plus de détails, voir qidian_details_by_item.py2.1. 1. Plusieurs objectifs sur une seule page Par exemple, pour obtenir les 25 films affichés sur la page d'accueil de Douban 250 Movies, cette page a 25 objectifs Vous pouvez écrire directement comme ceci :
from talonspider import Item, TextField, AttrField from pprint import pprint # 定义继承自item的爬虫类 class DoubanSpider(Item): target_item = TextField(css_select='p.item') title = TextField(css_select='span.title') cover = AttrField(css_select='p.pic>a>img', attr='src') abstract = TextField(css_select='span.inq') def tal_title(self, title): if isinstance(title, str): return title else: return ''.join([i.text.strip().replace('\xa0', '') for i in title]) if name == 'main': items_data = DoubanSpider.get_items(url='movie.douban.com/top250') result = [] for item in items_data: result.append({ 'title': item.title, 'cover': item.cover, 'abstract': item.abstract, }) pprint(result)Pour plus de détails, voir douban_page_by_item.py2.2.spiderLorsque vous devez explorer des pages hiérarchiques, comme explorer tous les films Douban 250, la partie araignée est utile :
# !/usr/bin/env python from talonspider import Spider, Item, TextField, AttrField, Request from talonspider.utils import get_random_user_agent # 定义继承自item的爬虫类 class DoubanItem(Item): target_item = TextField(css_select='p.item') title = TextField(css_select='span.title') cover = AttrField(css_select='p.pic>a>img', attr='src') abstract = TextField(css_select='span.inq') def tal_title(self, title): if isinstance(title, str): return title else: return ''.join([i.text.strip().replace('\xa0', '') for i in title]) class DoubanSpider(Spider): # 定义起始url,必须 start_urls = ['https://movie.douban.com/top250'] # requests配置 request_config = { 'RETRIES': 3, 'DELAY': 0, 'TIMEOUT': 20 } # 解析函数 必须有 def parse(self, html): # 将html转化为etree etree = self.e_html(html) # 提取目标值生成新的url pages = [i.get('href') for i in etree.cssselect('.paginator>a')] pages.insert(0, '?start=0&filter=') headers = { "User-Agent": get_random_user_agent() } for page in pages: url = self.start_urls[0] + page yield Request(url, request_config=self.request_config, headers=headers, callback=self.parse_item) def parse_item(self, html): items_data = DoubanItem.get_items(html=html) # result = [] for item in items_data: # result.append({ # 'title': item.title, # 'cover': item.cover, # 'abstract': item.abstract, # }) # 保存 with open('douban250.txt', 'a+') as f: f.writelines(item.title + '\n') if name == 'main': DoubanSpider.start()Console :
/Users/howie/anaconda3/envs/work3/bin/python /Users/howie/Documents/programming/python/git/talonspider/examples/douban_page_by_spider.py 2017-06-07 23:17:30,346 - talonspider - INFO: talonspider started 2017-06-07 23:17:30,693 - talonspider_requests - INFO: GET a url: https://movie.douban.com/top250 2017-06-07 23:17:31,074 - talonspider_requests - INFO: GET a url: https://movie.douban.com/top250?start=25&filter= 2017-06-07 23:17:31,416 - talonspider_requests - INFO: GET a url: https://movie.douban.com/top250?start=50&filter= 2017-06-07 23:17:31,853 - talonspider_requests - INFO: GET a url: https://movie.douban.com/top250?start=75&filter= 2017-06-07 23:17:32,523 - talonspider_requests - INFO: GET a url: https://movie.douban.com/top250?start=100&filter= 2017-06-07 23:17:33,032 - talonspider_requests - INFO: GET a url: https://movie.douban.com/top250?start=125&filter= 2017-06-07 23:17:33,537 - talonspider_requests - INFO: GET a url: https://movie.douban.com/top250?start=150&filter= 2017-06-07 23:17:33,990 - talonspider_requests - INFO: GET a url: https://movie.douban.com/top250?start=175&filter= 2017-06-07 23:17:34,406 - talonspider_requests - INFO: GET a url: https://movie.douban.com/top250?start=200&filter= 2017-06-07 23:17:34,787 - talonspider_requests - INFO: GET a url: https://movie.douban.com/top250?start=225&filter= 2017-06-07 23:17:34,809 - talonspider - INFO: Time usage:0:00:04.462108 Process finished with exit code 0À ce moment, douban250.txt sera généré dans le répertoire actuel. Pour plus de détails, voir douban_page_by_spider.py. 3. Description Il s'agit d'un travail d'étude Il y a encore de nombreux points à améliorer. Les commentaires sont les bienvenus.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!