Maison >développement back-end >Tutoriel Python >Comment implémenter un robot d'exploration Web en python

Comment implémenter un robot d'exploration Web en python

coldplay.xixioriginal: 2020-10-21 15:09:0827863parcourir

Comment implémenter un robot d'exploration Web en python : 1. Utilisez la méthode get dans la bibliothèque de requêtes pour demander le contenu de la page Web de l'url ; 2. Les méthodes [find()] et [find_all()] ; peut parcourir le fichier html et extraire des informations spécifiques.

Comment implémenter un robot d'exploration Web en python :

Première étape : l'exploration

Utilisez la méthode get dans la bibliothèque de requêtes pour demander le contenu de la page Web de l'url

Écrivez le code

[root@localhost demo]# touch demo.py
[root@localhost demo]# vim demo.py

#web爬虫学习 -- 分析
#获取页面信息
 
#输入：url
#处理：request库函数获取页面信息，并将网页内容转换成为人能看懂的编码格式
#输出：爬取到的内容
 
import requests
 
def getHTMLText(url):
    try:
        r = requests.get( url, timeout=30 )
        r.raise_for_status()    #如果状态码不是200，产生异常
        r.encoding = &#39;utf-8&#39;    #字符编码格式改成 utf-8
        return r.text
    except:
        #异常处理
        return " error "
 
url = "http://www.baidu.com"
print( getHTMLText(url) )

[root@localhost demo]# python3 demo.py

Comment implémenter un robot dexploration Web en python

Étape 2 : Analyse

Utilisez la classe BeautifulSoup de la bibliothèque bs4 pour générer un objet. Les méthodes find() et find_all() peuvent parcourir ce fichier html et extraire les informations spécifiées.

Écrire du code

[root@localhost demo]# touch demo1.py
[root@localhost demo]# vim demo1.py
#web爬虫学习 -- 分析
#获取页面信息
 
#输入：url
#处理：request库获取页面信息，并从爬取到的内容中提取关键信息
#输出：打印输出提取到的关键信息
 
import requests
from bs4 import BeautifulSoup
import re
 
def getHTMLText(url):
    try:
        r = requests.get( url, timeout=30 )
        r.raise_for_status()    #如果状态码不是200，产生异常
        r.encoding = &#39;utf-8&#39;    #字符编码格式改成 utf-8
        return r.text
    except:
        #异常处理
        return " error "
 
def findHTMLText(text):
    soup = BeautifulSoup( text, "html.parser" )    #返回BeautifulSoup对象
    return soup.find_all(string=re.compile( &#39;百度&#39; )) #结合正则表达式，实现字符串片段匹配
 
url = "http://www.baidu.com"
text = getHTMLText(url)        #获取html文本内容
res = findHTMLText(text)    #匹配结果
 
print(res)        #打印输出

[root@localhost demo]# python3 demo1.py

Comment implémenter un robot dexploration Web en python

Recommandations d'apprentissage gratuites associées : tutoriel vidéo Python

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Python html beautifulsoup 对象

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：Comment inverser la chaîne spécifiée en pythonArticle suivant：Comment inverser la chaîne spécifiée en python

Articles Liés

Voir plus