Maison >développement back-end >Tutoriel Python >Comment puis-je extraire des hyperliens et des URL d'une page Web à l'aide de Python et BeautifulSoup ?

Comment puis-je extraire des hyperliens et des URL d'une page Web à l'aide de Python et BeautifulSoup ?

Patricia Arquette
Patricia Arquetteoriginal
2024-12-08 00:12:111037parcourir

How Can I Extract Hyperlinks and URLs from a Webpage Using Python and BeautifulSoup?

Récupération de liens de pages Web avec Python et BeautifulSoup

Question : Comment extraire les hyperliens d'une page Web et obtenir leurs URL en utilisant Python ?

Réponse :

Pour extraire efficacement les liens et les adresses URL d'une page Web à l'aide de Python et BeautifulSoup, vous pouvez utiliser la classe SoupStrainer. Voici un extrait de code :

import httplib2
from bs4 import BeautifulSoup, SoupStrainer

http = httplib2.Http()
status, response = http.request('http://www.nytimes.com')

for link in BeautifulSoup(response, 'html.parser', parse_only=SoupStrainer('a')):
    if link.has_attr('href'):
        print(link['href'])

Ce code récupère d'abord le contenu HTML d'une page Web (à l'aide de la bibliothèque httplib2). Ensuite, il utilise BeautifulSoup pour analyser le code HTML, en filtrant uniquement les balises à l'aide de la classe SoupStrainer pour une meilleure efficacité. Enfin, il parcourt les balises a et imprime l'attribut href de chacune, extrayant ainsi efficacement les URL des liens.

Reportez-vous à la documentation BeautifulSoup pour des informations plus détaillées sur les différents scénarios d'analyse :

[BeautifulSoup Documentation](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn