Maison >développement back-end >Tutoriel Python >Python crée des choses embarrassantes encyclopédiques

Python crée des choses embarrassantes encyclopédiques

高洛峰original: 2017-02-24 16:07:091387parcourir

Je me suis réveillé le matin sans rien faire, et de nulle part, une blague de l'Encyclopédie des choses embarrassantes est apparue. Puis j'ai pensé que puisque vous me l'aviez envoyée, j'écrirais un robot pour explorer votre site Web. , juste pour mettre en pratique mes compétences, et deuxièmement, c'est un peu amusant.

En fait, j'ai été exposé au contenu de la base de données au cours des deux derniers jours. Les données explorées peuvent être enregistrées dans la base de données pour une utilisation ultérieure. D'accord, ne disons pas de bêtises. Jetons un coup d'œil aux résultats des données analysées par le programme. Il y a 30 pages de contenu dans l'encyclopédie, mais une erreur de connexion s'est produite lorsque j'ai réduit le numéro de page à 20 pages, le programme peut s'exécuter. normalement, je ne connais pas la raison. Si quelqu'un qui est désireux de savoir peut me le dire, je lui en serai reconnaissant.

Le programme est très simple, téléchargez simplement le code source Python 制作糗事百科爬虫

S'il y a des parties que vous ne comprenez pas, vous peut se référer à mes trois meilleurs articles.

# coding=utf8

import re
import requests
from lxml import etree
from multiprocessing.dummy import Pool as ThreadPool
import sys

reload(sys)
sys.setdefaultencoding(&#39;utf-8&#39;)


def getnewpage(url, total):
 nowpage = int(re.search(&#39;(\d+)&#39;, url, re.S).group(1))
 urls = []

 for i in range(nowpage, total + 1):
  link = re.sub(&#39;(\d+)&#39;, &#39;%s&#39; % i, url, re.S)
  urls.append(link)

 return urls


def spider(url):
 html = requests.get(url)
 selector = etree.HTML(html.text)

 author = selector.xpath(&#39;//*[@id="content-left"]/p/p[1]/a[2]/@title&#39;)
 content = selector.xpath(&#39;//*[@id="content-left"]/p/p[2]/text()&#39;)
 vote = selector.xpath(&#39;//*[@id="content-left"]/p/p[3]/span/i/text()&#39;)

 length = len(author)
 for i in range(0, length):
  f.writelines(&#39;作者 : &#39; + author[i] + &#39;\n&#39;)
  f.writelines(&#39;内容 ：&#39; + str(content[i]).replace(&#39;\n&#39;,&#39;&#39;) + &#39;\n&#39;)
  f.writelines(&#39;支持 ： &#39; + vote[i] + &#39;\n\n&#39;)


if __name__ == &#39;__main__&#39;:

 f = open(&#39;info.txt&#39;, &#39;a&#39;)
 url = &#39;http://www.qiushibaike.com/text/page/1/&#39;
 urls = getnewpage(url, 20)

 pool = ThreadPool(4)
 pool.map(spider,urls)
 f.close()

Pour plus d'articles sur la création par Python de robots d'exploration d'encyclopédies embarrassants, veuillez faire attention au site Web PHP chinois !

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：La boucle incrémentielle Python supprime les données de la table MySQLArticle suivant：La boucle incrémentielle Python supprime les données de la table MySQL

Articles Liés

Voir plus