Heim >Backend-Entwicklung >Python-Tutorial >Wie kann ich mit Python und BeautifulSoup Hyperlinks von einer Webseite extrahieren?

Wie kann ich mit Python und BeautifulSoup Hyperlinks von einer Webseite extrahieren?

Linda Hamilton
Linda HamiltonOriginal
2024-12-11 11:06:10578Durchsuche

How Can I Extract Hyperlinks from a Webpage Using Python and BeautifulSoup?

Links von Webseiten mit Python und BeautifulSoup abrufen

Dieser Artikel zeigt, wie man die Links von einer Webseite abruft und ihre URL-Adressen sammelt mit Python und der BeautifulSoup Bibliothek.

Problem:

Wie extrahiert man die URLs von in eine Webseite eingebetteten Links mit Python?

Lösung:

Um dies zu erreichen, können Sie die von BeautifulSoup bereitgestellte SoupStrainer-Klasse verwenden. Der folgende Codeausschnitt veranschaulicht den Vorgang:

import httplib2
from bs4 import BeautifulSoup, SoupStrainer

http = httplib2.Http()
status, response = http.request('http://www.nytimes.com')

for link in BeautifulSoup(response, 'html.parser', parse_only=SoupStrainer('a')):
    if link.has_attr('href'):
        print(link['href'])

Dieser Code stellt eine Verbindung zu einer bestimmten Webseite her, im Beispiel nämlich „http://www.nytimes.com“. Mit BeautifulSoup wird die HTML-Antwort analysiert und der SoupStrainer('a')-Filter angewendet, der sich auf 'a'-Tags (die Links darstellen) innerhalb der Seite konzentriert. Für jeden gefundenen Link ruft der Code sein „href“-Attribut ab, das die tatsächliche URL-Adresse enthält.

Das obige ist der detaillierte Inhalt vonWie kann ich mit Python und BeautifulSoup Hyperlinks von einer Webseite extrahieren?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn