Maison >développement back-end >Tutoriel Python >Comment puis-je extraire des hyperliens d'une page Web à l'aide de Python et BeautifulSoup ?

Comment puis-je extraire des hyperliens d'une page Web à l'aide de Python et BeautifulSoup ?

Linda Hamilton
Linda Hamiltonoriginal
2024-12-11 11:06:10640parcourir

How Can I Extract Hyperlinks from a Webpage Using Python and BeautifulSoup?

Récupération de liens à partir de pages Web avec Python et BeautifulSoup

Cet article montre comment récupérer les liens d'une page Web et rassembler leurs adresses URL en utilisant Python et BeautifulSoup bibliothèque.

Problème :

Comment extraire les URL des liens intégrés dans une page Web à l'aide de Python ?

Solution :

Pour y parvenir, vous pouvez utiliser la classe SoupStrainer fournie par BeautifulSoup. L'extrait de code suivant illustre le processus :

import httplib2
from bs4 import BeautifulSoup, SoupStrainer

http = httplib2.Http()
status, response = http.request('http://www.nytimes.com')

for link in BeautifulSoup(response, 'html.parser', parse_only=SoupStrainer('a')):
    if link.has_attr('href'):
        print(link['href'])

Ce code établit une connexion à une page Web spécifiée, à savoir « http://www.nytimes.com » dans l'exemple. À l'aide de BeautifulSoup, il analyse la réponse HTML et applique le filtre SoupStrainer('a'), qui se concentre sur les balises 'a' (représentant des liens) dans la page. Pour chaque lien trouvé, le code récupère son attribut 'href', qui contient l'adresse URL réelle.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn