Maison >développement back-end >Tutoriel Python >Comment puis-je extraire des hyperliens et des URL d'une page Web à l'aide de Python et BeautifulSoup ?

Comment puis-je extraire des hyperliens et des URL d'une page Web à l'aide de Python et BeautifulSoup ?

Patricia Arquetteoriginal: 2024-12-08 00:12:111105parcourir

How Can I Extract Hyperlinks and URLs from a Webpage Using Python and BeautifulSoup?

Récupération de liens de pages Web avec Python et BeautifulSoup

Question : Comment extraire les hyperliens d'une page Web et obtenir leurs URL en utilisant Python ?

Réponse :

Pour extraire efficacement les liens et les adresses URL d'une page Web à l'aide de Python et BeautifulSoup, vous pouvez utiliser la classe SoupStrainer. Voici un extrait de code :

import httplib2
from bs4 import BeautifulSoup, SoupStrainer

http = httplib2.Http()
status, response = http.request('http://www.nytimes.com')

for link in BeautifulSoup(response, 'html.parser', parse_only=SoupStrainer('a')):
    if link.has_attr('href'):
        print(link['href'])

Ce code récupère d'abord le contenu HTML d'une page Web (à l'aide de la bibliothèque httplib2). Ensuite, il utilise BeautifulSoup pour analyser le code HTML, en filtrant uniquement les balises à l'aide de la classe SoupStrainer pour une meilleure efficacité. Enfin, il parcourt les balises a et imprime l'attribut href de chacune, extrayant ainsi efficacement les URL des liens.

Reportez-vous à la documentation BeautifulSoup pour des informations plus détaillées sur les différents scénarios d'analyse :

[BeautifulSoup Documentation](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Python html beautifulsoup for using class finally Attribute this href https

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：Comment trier numériquement les numéros de chaîne en Python ?Article suivant：Comment trier numériquement les numéros de chaîne en Python ?

Articles Liés

Voir plus