Maison >développement back-end >Tutoriel Python >Utilisation pratique des robots en Python : Douban book crawler

Utilisation pratique des robots en Python : Douban book crawler

WBOY
WBOYoriginal
2023-06-11 13:33:072256parcourir

Python est l'un des langages de programmation les plus populaires aujourd'hui et a été largement utilisé dans différents domaines, tels que la science des données, l'intelligence artificielle, la sécurité des réseaux, etc. Parmi eux, Python fonctionne bien dans le domaine des robots d'exploration Web, et de nombreuses entreprises et particuliers utilisent Python pour la collecte et l'analyse de données. Cet article expliquera comment utiliser Python pour explorer les informations du livre Douban et aidera les lecteurs à avoir une compréhension préliminaire des méthodes et technologies de mise en œuvre des robots d'exploration Web Python.

Tout d'abord, pour le robot d'information sur les livres Douban, nous devons utiliser deux bibliothèques importantes en Python : urllib et beautifulsoup4. Parmi elles, la bibliothèque urllib est principalement utilisée pour les requêtes réseau et la lecture de données, tandis que la bibliothèque beautifulsoup4 peut être utilisée pour analyser des documents structurés tels que HTML et XML afin d'en extraire les informations requises. Avant d'utiliser ces bibliothèques, nous devons d'abord les installer. Utilisez la commande pip pour terminer l'installation. Une fois l'installation terminée, nous pouvons commencer notre combat proprement dit.

  1. Déterminez la cible d'exploration

Lorsque vous utilisez Python pour explorer, vous devez d'abord clarifier la cible d'exploration. Pour cet article, notre objectif est d'explorer des informations de base sur les livres Douban, telles que le titre du livre, l'auteur, l'éditeur, la date de publication, les notes, etc. De plus, nous devons également explorer plusieurs pages d’informations sur les livres.

  1. Analyser la structure HTML

Après avoir déterminé la cible d'exploration, nous devons analyser plus en détail la structure HTML de Douban Books pour déterminer l'emplacement et les caractéristiques des informations requises. Nous pouvons utiliser les outils de développement fournis avec les navigateurs tels que Chrome ou Firefox pour afficher le code source de la page. En observant la structure HTML, nous pouvons trouver les balises et les attributs qui doivent être explorés, puis écrire du code Python pour les implémenter.

  1. Écrire du code

Ensuite, nous écrivons le code du robot d'exploration de livres Douban en Python. Le cœur du code est :

  • Envoyer une requête réseau et obtenir la page HTML ;
  • Analyser le document HTML et extraire les informations requises ;
  • Données de stockage ;

Ce qui suit est le code complet :

import urllib.request
from bs4 import BeautifulSoup

url = 'https://book.douban.com/top250'
books = []

def get_html(url):
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.131 Safari/537.36'}
    req = urllib.request.Request(url, headers=headers)
    response = urllib.request.urlopen(req)
    html = response.read().decode('utf-8')
    return html

def parse_html(html):
    soup = BeautifulSoup(html,'html.parser')
    book_list_soup = soup.find('div', attrs={'class': 'article'})
    for book_soup in book_list_soup.find_all('table'):
        book_title_soup = book_soup.find('div', attrs={'class': 'pl2'})
        book_title_link = book_title_soup.find('a')
        book_title = book_title_link.get('title')
        book_url = book_title_link.get('href')
        book_info_soup = book_soup.find('p', attrs={'class': 'pl'})
        book_info = book_info_soup.string.strip()
        book_rating_num_soup = book_soup.find('span', attrs={'class': 'rating_nums'})
        book_rating_num = book_rating_num_soup.string.strip()
        book_rating_people_num_span_soup = book_soup.find('span', attrs={'class': 'pl'})
        book_rating_people_num = book_rating_people_num_span_soup.string.strip()[1:-4]
        book_author_and_publish_soup = book_soup.find('p',attrs={'class':'pl'}).next_sibling.string.strip()
        book_author_and_publish = book_author_and_publish_soup.split('/')
        book_author = book_author_and_publish[0]
        book_publish = book_author_and_publish[-3]
        book_year = book_author_and_publish[-2]
        books.append({
        'title': book_title,
        'url': book_url,
        'info': book_info,
        'author':book_author,
        'publish':book_publish,
        'year':book_year,
        'rating_num':book_rating_num,
        'rating_people_num':book_rating_people_num
        })

def save_data():
    with open('douban_top250.txt','w',encoding='utf-8') as f:
        for book in books:
            f.write('书名:{0}
'.format(book['title']))
            f.write('链接:{0}
'.format(book['url']))
            f.write('信息:{0}
'.format(book['info']))
            f.write('作者:{0}
'.format(book['author']))
            f.write('出版社:{0}
'.format(book['publish']))
            f.write('出版年份:{0}
'.format(book['year']))
            f.write('评分:{0}
'.format(book['rating_num']))
            f.write('评分人数:{0}

'.format(book['rating_people_num']))

if __name__ == '__main__':
    for i in range(10):
        start = i*25
        url = 'https://book.douban.com/top250?start={0}'.format(start)
        html = get_html(url)
        parse_html(html)
    save_data()

Analyse du code :

Tout d'abord, nous définissons une URL de site Web principal et une liste de livres vide (utilisée pour stocker les informations sur les livres). Ensuite, nous écrivons la fonction get_html pour envoyer une requête et obtenir la page HTML. Dans cette fonction, nous définissons les en-têtes de requête pour simuler l'envoi d'une requête par le navigateur afin d'éviter d'être bloqué par le site Web. Nous utilisons la méthode Request de la bibliothèque urllib pour encapsuler l'en-tête de la requête et l'URL dans un objet, puis utilisons la méthode urlopen de la bibliothèque urllib pour envoyer une requête réseau et obtenir la page, et enfin utilisons les méthodes de lecture et de décodage pour convertir le contenu de la page dans une chaîne au format utf-8.

Nous écrivons la fonction parse_html pour analyser les documents HTML et extraire les informations requises. Dans cette fonction, nous utilisons les méthodes find et find_all de la bibliothèque beautifulsoup4 pour trouver les balises et les attributs qui répondent aux exigences de la page HTML. Plus précisément, en observant la structure HTML des livres Douban, nous avons trouvé la balise table de chaque livre et le titre du livre, le lien, les informations, la note et autres informations correspondants, et avons écrit le code pour extraire ces données. Parmi elles, nous avons utilisé les méthodes strip et split pour traiter la chaîne afin de supprimer les caractères d'espacement en excès et de diviser la chaîne.

Enfin, nous avons écrit la fonction save_data pour stocker les informations extraites du livre dans un fichier local. Dans cette fonction, nous utilisons la fonction intégrée de Python open pour ouvrir un fichier texte, écrire le contenu du fichier en mode écriture et utiliser la méthode format pour formater les informations pertinentes de chaque livre dans une chaîne et l'écrire dans le fichier. Notez que nous devons ajouter encoding='utf-8' après le nom du fichier pour garantir que le contenu du fichier ne sera pas tronqué.

Dans le programme principal, nous utilisons une boucle for pour explorer les 250 premiers livres sur Douban Books. Pour ce faire, nous devons explorer 25 livres par page et explorer 10 pages au total. Dans chaque boucle, nous calculons l'URL requise en fonction du numéro de page actuel et appelons la fonction get_html pour obtenir la page HTML. Ensuite, nous transmettons la page à la fonction parse_html, qui analyse la page et extrait les informations requises. Enfin, nous appelons la fonction save_data pour enregistrer toutes les informations du livre dans un fichier local.

  1. Exécuter le code

Après avoir terminé l'écriture du code, nous pouvons entrer dans le répertoire où se trouve le code dans la ligne de commande (système Windows) ou le terminal (système MacOS ou Linux) et exécuter la commande nom du script du robot d'exploration python3. py pour exécuter le robot d'exploration Web Python. Pendant l'exécution du programme, nous pouvons observer les informations de sortie du programme pour déterminer si le programme est exécuté correctement. Une fois le programme exécuté, nous pouvons vérifier le fichier local douban_top250.txt pour confirmer si les données ont été enregistrées avec succès.

Résumé

Grâce à l'introduction de cet article, nous avons une compréhension préliminaire des méthodes et technologies de mise en œuvre des robots d'exploration Web Python. Plus précisément, nous avons utilisé les bibliothèques urllib et beautifulsoup4 en Python pour écrire un programme Python permettant d'explorer les informations de Douban Books en fonction de la structure HTML du site Web de Douban Books, et avons implémenté avec succès la collecte et le stockage de données. De plus, dans les applications pratiques, nous devons comprendre certaines précautions à prendre par les robots d'exploration, comme ne pas envoyer trop fréquemment de requêtes au même site Web pour éviter que l'adresse IP soit bloquée.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn