Maison  >  Article  >  développement back-end  >  Pourquoi les robots d'exploration devraient-ils utiliser Python ?

Pourquoi les robots d'exploration devraient-ils utiliser Python ?

silencement
silencementoriginal
2019-06-24 15:52:292736parcourir

Pourquoi les robots d'exploration devraient-ils utiliser Python ?

Qu'est-ce qu'un robot d'exploration ?

Un robot d'exploration Web est un programme qui extrait automatiquement des pages Web. Il télécharge des pages Web du World Wide Web pour les moteurs de recherche et constitue un composant important des moteurs de recherche. Le robot d'exploration traditionnel part de l'URL d'une ou plusieurs pages Web initiales et obtient l'URL sur la page Web initiale. Pendant le processus d'exploration de la page Web, il extrait en permanence de nouvelles URL de la page actuelle et les met dans la file d'attente jusqu'à ce qu'elles soient certaines. les conditions d'arrêt du système sont remplies

A quoi servent les robots ?

Agit comme un collecteur Web de moteur de recherche universel. (google, baidu) est un moteur de recherche vertical. Recherche scientifique : le comportement humain en ligne, l'évolution de la communauté en ligne, la recherche sur la dynamique humaine, la sociologie économétrique, les réseaux complexes, l'exploration de données et d'autres domaines nécessitent une grande quantité de données. outil de collecte de données pertinentes. Espionnage, piratage, spam...

Crawler est la première et la plus simple étape pour les moteurs de recherche

Collecte de pages Web

Création d'index

Tri des requêtes

Quel langage doit-on utiliser pour écrire les robots ?

C, C++. Très efficace et rapide, adapté aux moteurs de recherche généraux pour explorer l'ensemble du Web. Inconvénients : le développement est lent et l'écriture est longue et puante, par exemple : code source de recherche Skynet.

Langage de script : Perl, Python, Java, Ruby. Un traitement de texte simple, facile à apprendre et de qualité peut faciliter l'extraction détaillée du contenu Web, mais l'efficacité n'est souvent pas élevée. Il convient à l'exploration ciblée d'un petit nombre de sites Web

C# ? (Cela semble être un langage que les gens dans la gestion de l'information préfèrent)

Pourquoi avez-vous finalement choisi Python ?

Multiplateforme, avec un bon support pour Linux et Windows.

Calcul scientifique, ajustement numérique : Numpy, Scipy

Visualisation : 2d : Matplotlib (les dessins sont très beaux), 3d : Mayavi2

Réseau complexe : Networkx

Statistiques : Interface avec le langage R : Rpy

Terminal interactif

Développement rapide de sites web

Un simple crawler Python

 1 import urllib
 2 import urllib.request
 3 
 4 def loadPage(url,filename):
 5     """
 6     作用:根据url发送请求,获取html数据;
 7     :param url:
 8     :return:
 9     """
10     request=urllib.request.Request(url)
11     html1= urllib.request.urlopen(request).read()
12     return  html1.decode('utf-8')
13 
14 def writePage(html,filename):
15     """
16     作用将html写入本地
17 
18     :param html: 服务器相应的文件内容
19     :return:
20     """
21     with open(filename,'w') as f:
22         f.write(html)
23     print('-'*30)
24 def tiebaSpider(url,beginPage,endPage):
25     """
26     作用贴吧爬虫调度器,负责处理每一个页面url;
27     :param url:
28     :param beginPage:
29     :param endPage:
30     :return:
31     """
32     for page in range(beginPage,endPage+1):
33         pn=(page - 1)*50
34         fullurl=url+"&pn="+str(pn)
35         print(fullurl)
36         filename='第'+str(page)+'页.html'
37         html= loadPage(url,filename)
38 
39         writePage(html,filename)
40 
41 
42 
43 if __name__=="__main__":
44     kw=input('请输入你要需要爬取的贴吧名:')
45     beginPage=int(input('请输入起始页'))
46     endPage=int(input('请输入结束页'))
47     url='https://tieba.baidu.com/f?'
48     kw1={'kw':kw}
49     key = urllib.parse.urlencode(kw1)
50     fullurl=url+key
51     tiebaSpider(fullurl,beginPage,endPage)

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn