Maison > Article > développement back-end > Utilisation pratique des robots en Python : Douban book crawler
Python est l'un des langages de programmation les plus populaires aujourd'hui et a été largement utilisé dans différents domaines, tels que la science des données, l'intelligence artificielle, la sécurité des réseaux, etc. Parmi eux, Python fonctionne bien dans le domaine des robots d'exploration Web, et de nombreuses entreprises et particuliers utilisent Python pour la collecte et l'analyse de données. Cet article expliquera comment utiliser Python pour explorer les informations du livre Douban et aidera les lecteurs à avoir une compréhension préliminaire des méthodes et technologies de mise en œuvre des robots d'exploration Web Python.
Tout d'abord, pour le robot d'information sur les livres Douban, nous devons utiliser deux bibliothèques importantes en Python : urllib et beautifulsoup4. Parmi elles, la bibliothèque urllib est principalement utilisée pour les requêtes réseau et la lecture de données, tandis que la bibliothèque beautifulsoup4 peut être utilisée pour analyser des documents structurés tels que HTML et XML afin d'en extraire les informations requises. Avant d'utiliser ces bibliothèques, nous devons d'abord les installer. Utilisez la commande pip pour terminer l'installation. Une fois l'installation terminée, nous pouvons commencer notre combat proprement dit.
Lorsque vous utilisez Python pour explorer, vous devez d'abord clarifier la cible d'exploration. Pour cet article, notre objectif est d'explorer des informations de base sur les livres Douban, telles que le titre du livre, l'auteur, l'éditeur, la date de publication, les notes, etc. De plus, nous devons également explorer plusieurs pages d’informations sur les livres.
Après avoir déterminé la cible d'exploration, nous devons analyser plus en détail la structure HTML de Douban Books pour déterminer l'emplacement et les caractéristiques des informations requises. Nous pouvons utiliser les outils de développement fournis avec les navigateurs tels que Chrome ou Firefox pour afficher le code source de la page. En observant la structure HTML, nous pouvons trouver les balises et les attributs qui doivent être explorés, puis écrire du code Python pour les implémenter.
Ensuite, nous écrivons le code du robot d'exploration de livres Douban en Python. Le cœur du code est :
Ce qui suit est le code complet :
import urllib.request from bs4 import BeautifulSoup url = 'https://book.douban.com/top250' books = [] def get_html(url): headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.131 Safari/537.36'} req = urllib.request.Request(url, headers=headers) response = urllib.request.urlopen(req) html = response.read().decode('utf-8') return html def parse_html(html): soup = BeautifulSoup(html,'html.parser') book_list_soup = soup.find('div', attrs={'class': 'article'}) for book_soup in book_list_soup.find_all('table'): book_title_soup = book_soup.find('div', attrs={'class': 'pl2'}) book_title_link = book_title_soup.find('a') book_title = book_title_link.get('title') book_url = book_title_link.get('href') book_info_soup = book_soup.find('p', attrs={'class': 'pl'}) book_info = book_info_soup.string.strip() book_rating_num_soup = book_soup.find('span', attrs={'class': 'rating_nums'}) book_rating_num = book_rating_num_soup.string.strip() book_rating_people_num_span_soup = book_soup.find('span', attrs={'class': 'pl'}) book_rating_people_num = book_rating_people_num_span_soup.string.strip()[1:-4] book_author_and_publish_soup = book_soup.find('p',attrs={'class':'pl'}).next_sibling.string.strip() book_author_and_publish = book_author_and_publish_soup.split('/') book_author = book_author_and_publish[0] book_publish = book_author_and_publish[-3] book_year = book_author_and_publish[-2] books.append({ 'title': book_title, 'url': book_url, 'info': book_info, 'author':book_author, 'publish':book_publish, 'year':book_year, 'rating_num':book_rating_num, 'rating_people_num':book_rating_people_num }) def save_data(): with open('douban_top250.txt','w',encoding='utf-8') as f: for book in books: f.write('书名:{0} '.format(book['title'])) f.write('链接:{0} '.format(book['url'])) f.write('信息:{0} '.format(book['info'])) f.write('作者:{0} '.format(book['author'])) f.write('出版社:{0} '.format(book['publish'])) f.write('出版年份:{0} '.format(book['year'])) f.write('评分:{0} '.format(book['rating_num'])) f.write('评分人数:{0} '.format(book['rating_people_num'])) if __name__ == '__main__': for i in range(10): start = i*25 url = 'https://book.douban.com/top250?start={0}'.format(start) html = get_html(url) parse_html(html) save_data()
Analyse du code :
Tout d'abord, nous définissons une URL de site Web principal et une liste de livres vide (utilisée pour stocker les informations sur les livres). Ensuite, nous écrivons la fonction get_html pour envoyer une requête et obtenir la page HTML. Dans cette fonction, nous définissons les en-têtes de requête pour simuler l'envoi d'une requête par le navigateur afin d'éviter d'être bloqué par le site Web. Nous utilisons la méthode Request de la bibliothèque urllib pour encapsuler l'en-tête de la requête et l'URL dans un objet, puis utilisons la méthode urlopen de la bibliothèque urllib pour envoyer une requête réseau et obtenir la page, et enfin utilisons les méthodes de lecture et de décodage pour convertir le contenu de la page dans une chaîne au format utf-8.
Nous écrivons la fonction parse_html pour analyser les documents HTML et extraire les informations requises. Dans cette fonction, nous utilisons les méthodes find et find_all de la bibliothèque beautifulsoup4 pour trouver les balises et les attributs qui répondent aux exigences de la page HTML. Plus précisément, en observant la structure HTML des livres Douban, nous avons trouvé la balise table de chaque livre et le titre du livre, le lien, les informations, la note et autres informations correspondants, et avons écrit le code pour extraire ces données. Parmi elles, nous avons utilisé les méthodes strip et split pour traiter la chaîne afin de supprimer les caractères d'espacement en excès et de diviser la chaîne.
Enfin, nous avons écrit la fonction save_data pour stocker les informations extraites du livre dans un fichier local. Dans cette fonction, nous utilisons la fonction intégrée de Python open pour ouvrir un fichier texte, écrire le contenu du fichier en mode écriture et utiliser la méthode format pour formater les informations pertinentes de chaque livre dans une chaîne et l'écrire dans le fichier. Notez que nous devons ajouter encoding='utf-8' après le nom du fichier pour garantir que le contenu du fichier ne sera pas tronqué.
Dans le programme principal, nous utilisons une boucle for pour explorer les 250 premiers livres sur Douban Books. Pour ce faire, nous devons explorer 25 livres par page et explorer 10 pages au total. Dans chaque boucle, nous calculons l'URL requise en fonction du numéro de page actuel et appelons la fonction get_html pour obtenir la page HTML. Ensuite, nous transmettons la page à la fonction parse_html, qui analyse la page et extrait les informations requises. Enfin, nous appelons la fonction save_data pour enregistrer toutes les informations du livre dans un fichier local.
Après avoir terminé l'écriture du code, nous pouvons entrer dans le répertoire où se trouve le code dans la ligne de commande (système Windows) ou le terminal (système MacOS ou Linux) et exécuter la commande nom du script du robot d'exploration python3. py pour exécuter le robot d'exploration Web Python. Pendant l'exécution du programme, nous pouvons observer les informations de sortie du programme pour déterminer si le programme est exécuté correctement. Une fois le programme exécuté, nous pouvons vérifier le fichier local douban_top250.txt pour confirmer si les données ont été enregistrées avec succès.
Résumé
Grâce à l'introduction de cet article, nous avons une compréhension préliminaire des méthodes et technologies de mise en œuvre des robots d'exploration Web Python. Plus précisément, nous avons utilisé les bibliothèques urllib et beautifulsoup4 en Python pour écrire un programme Python permettant d'explorer les informations de Douban Books en fonction de la structure HTML du site Web de Douban Books, et avons implémenté avec succès la collecte et le stockage de données. De plus, dans les applications pratiques, nous devons comprendre certaines précautions à prendre par les robots d'exploration, comme ne pas envoyer trop fréquemment de requêtes au même site Web pour éviter que l'adresse IP soit bloquée.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!