Maison >développement back-end >Tutoriel Python >Pourquoi choisir Python comme robot d'exploration ?
Qu'est-ce qu'un robot d'exploration ?
Un robot d'exploration Web est un programme qui extrait automatiquement des pages Web. Il télécharge des pages Web du World Wide Web pour les moteurs de recherche et constitue un composant important des moteurs de recherche. Le robot d'exploration traditionnel part de l'URL d'une ou plusieurs pages Web initiales et obtient l'URL sur la page Web initiale. Pendant le processus d'exploration de la page Web, il extrait en permanence de nouvelles URL de la page actuelle et les met dans la file d'attente jusqu'à ce qu'elles soient certaines. les conditions d'arrêt du système sont remplies
A quoi servent les robots ?
Agit comme un collecteur Web de moteur de recherche universel. (google, baidu) est un moteur de recherche vertical. Recherche scientifique : le comportement humain en ligne, l'évolution de la communauté en ligne, la recherche sur la dynamique humaine, la sociologie économétrique, les réseaux complexes, l'exploration de données et d'autres domaines nécessitent une grande quantité de données. outil de collecte de données pertinentes. Espionnage, piratage, spam...
Crawler est la première et la plus simple étape pour les moteurs de recherche
Collecte de pages Web
Création d'index
Tri des requêtes
Quel langage doit-on utiliser pour écrire les robots ?
C, C++. Très efficace et rapide, adapté aux moteurs de recherche généraux pour explorer l'ensemble du Web. Inconvénients : le développement est lent et l'écriture est longue et puante, par exemple : code source de recherche Skynet.
Langage de script : Perl, Python, Java, Ruby. Un traitement de texte simple, facile à apprendre et de qualité peut faciliter l'extraction détaillée du contenu Web, mais l'efficacité n'est souvent pas élevée. Il convient à l'exploration ciblée d'un petit nombre de sites Web
C# ? (Cela semble être un langage que les gens dans la gestion de l'information préfèrent)
Pourquoi avez-vous finalement choisi Python ?
Multiplateforme, avec un bon support pour Linux et Windows.
Calcul scientifique, ajustement numérique : Numpy, Scipy
Visualisation : 2d : Matplotlib (les dessins sont très beaux), 3d : Mayavi2
Réseau complexe : Networkx
Statistiques : Interface avec le langage R : Rpy
Terminal interactif
Développement rapide de sites web
Un simple crawler Python
1 import urllib 2 import urllib.request 3 4 def loadPage(url,filename): 5 """ 6 作用:根据url发送请求,获取html数据; 7 :param url: 8 :return: 9 """ 10 request=urllib.request.Request(url) 11 html1= urllib.request.urlopen(request).read() 12 return html1.decode('utf-8') 13 14 def writePage(html,filename): 15 """ 16 作用将html写入本地 17 18 :param html: 服务器相应的文件内容 19 :return: 20 """ 21 with open(filename,'w') as f: 22 f.write(html) 23 print('-'*30) 24 def tiebaSpider(url,beginPage,endPage): 25 """ 26 作用贴吧爬虫调度器,负责处理每一个页面url; 27 :param url: 28 :param beginPage: 29 :param endPage: 30 :return: 31 """ 32 for page in range(beginPage,endPage+1): 33 pn=(page - 1)*50 34 fullurl=url+"&pn="+str(pn) 35 print(fullurl) 36 filename='第'+str(page)+'页.html' 37 html= loadPage(url,filename) 38 39 writePage(html,filename) 40 41 42 43 if __name__=="__main__": 44 kw=input('请输入你要需要爬取的贴吧名:') 45 beginPage=int(input('请输入起始页')) 46 endPage=int(input('请输入结束页')) 47 url='https://tieba.baidu.com/f?' 48 kw1={'kw':kw} 49 key = urllib.parse.urlencode(kw1) 50 fullurl=url+key 51 tiebaSpider(fullurl,beginPage,endPage)
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!