Maison >développement back-end >Tutoriel Python >python3 explore les articles WeChat

python3 explore les articles WeChat

巴扎黑original: 2017-07-21 13:46:321677parcourir

Prérequis :

python3.4

windows

Fonction : Rechercher des articles WeChat pertinents via l'interface de recherche WeChat de Sogou et importer des titres et des liens associés dans des tableaux Excel Moyen

Remarque : Le module xlsxwriter est requis et le temps d'écriture du programme est le 11/07/2017, afin d'éviter que le programme ne soit inutilisable ultérieurement, ce qui peut être lié à des modifications du site Web. simple, avec plus de 40 lignes de commentaires supprimées.

Sujet principal :

Idée : Ouvrir l'URL initiale --> Récupérer le titre et le lien régulièrement --> Modifier la boucle de la page dans la deuxième étape --> titre et lien dans Excel

La première étape du robot est de le faire manuellement (potins)

Entrez l'URL mentionnée ci-dessus, telle que la saisie : "reconnaissance d'image", recherche, l'URL deviendra "" marqué en rouge. Lorsque type=1, il recherche des comptes officiels. Quoi qu'il en soit, query='search keywords', les mots-clés ont été codés, et il y a aussi un paramètre caché page=1.

lorsque vous passez à la seconde Lorsque vous cliquez sur la page, vous pouvez voir "" +search+'&page='+str(page)

search est le mot-clé à utiliser recherché. Utilisez l'encodage quote() pour insérer

la page est utilisée pour la boucle

1 search = urllib.request.quote(search)

L'URL complète a été obtenue. Ensuite, visitez l'URL pour obtenir les données (Créez un objet d'ouverture et ajoutez un en-tête())

1 for page in range(1,pagenum+1):
2     url = 'http://weixin.sogou.com/weixin?type=2&query='+search+'&page='+str(page)

Obtenir. le contenu de la page et utiliser des expressions régulières pour obtenir des données pertinentes

1 import urllib.request
2     header = ('User-Agent','Mozilla/5.0')
3     opener = urllib.request.build_opener()
4     opener.addheaders = [header]
5     urllib.request.install_opener(opener)
6     data = urllib.request.urlopen(url).read().decode()

Il existe des éléments d'interférence (lien : 'amp;') et des éléments non pertinents (titre : '< ;...><....>') dans les données obtenues par régularisation, utilisez replace() pour résoudre

1 import re
2     finddata = re.compile('<a target="_blank" href="(.*?)".*?uigs="article_title_.*?">(.*?)</a>').findall(data)
3     #finddata = [('',''),('','')]

1 title = title.replace('<em><!--red_beg-->','')
2 title = title.replace('<!--red_end--></em>','')

Enregistrez le titre et le lien traités dans la liste

1 link = link.replace('amp;','')

Les titres et liens ainsi recherchés sont obtenus. Ensuite, importez Excel

Créez d'abord Excel

1 title_link.append(link)
2 title_link.append(title)

et ajoutez-y title_link Importez des données dans Excel

1 import xlsxwriter
2 workbook = xlsxwriter.Workbook(search+'.xlsx')

3 worksheet = workbook.add_worksheet('微信')

Complet code :

1 for i in range(0,len(title_link),2):
2     worksheet.write('A'+str(i+1),title_link[i+1])
3     worksheet.write('C'+str(i+1),title_link[i])
4 workbook.close()

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：opérations de liste du didacticiel d'introduction à PythonArticle suivant：opérations de liste du didacticiel d'introduction à Python

Articles Liés

Voir plus