Heim >Backend-Entwicklung >Python-Tutorial >Leitfaden zum Erstellen einer einfachen Python-Web-Scraping-Anwendung
Das Scrapen von Webdaten in Python umfasst normalerweise das Senden von HTTP-Anfragen an die Zielwebsite und das Parsen der zurückgegebenen HTML- oder JSON-Daten. Nachfolgend finden Sie ein Beispiel für eine einfache Web-Scraping-Anwendung, die die Requests-Bibliothek zum Senden von HTTP-Anfragen und die BeautifulSouplibrary zum Parsen von HTML verwendet.
Stellen Sie zunächst sicher, dass Sie die Bibliotheken „requests“ und „Beautifulsoup4“ installiert haben. Wenn nicht, können Sie sie mit dem folgenden Befehl installieren:
Pip-Installationsanfragen für beautifulsoup4
Anschließend können Sie ein Python-Skript wie das folgende schreiben, um Netzwerkdaten zu extrahieren:
import requests from bs4 import BeautifulSoup # URL of the target website url = 'http://example.com' # Sending HTTP GET request response = requests.get(url) # Check if the request was successful if response.status_code == 200: # Parsing HTML with BeautifulSoup soup = BeautifulSoup(response.text, 'html.parser') # Extract the required data, for example, extract all the titles titles = soup.find_all('h1') # Print title for title in titles: print(title.text) else: print('Request failed,status code:', response.status_code)
In diesem Beispiel haben wir zuerst die Bibliotheken „requests“ und „BeautifulSoup“ importiert. Anschließend haben wir die URL der Zielwebsite definiert und mithilfe der Methode „requests.get()“ eine HTTP-GET-Anfrage gesendet. Wenn die Anfrage erfolgreich ist (Statuscode ist 200), analysieren wir den zurückgegebenen HTML-Code mit BeautifulSoup und extrahieren alle
Bitte beachten Sie, dass Sie bei einem tatsächlichen Web-Scraping-Projekt die Regeln der robots.txt-Datei der Zielwebsite einhalten und das Urheberrecht und die Nutzungsbedingungen der Website respektieren müssen. Darüber hinaus verwenden einige Websites möglicherweise Anti-Crawler-Techniken, wie z. B. dynamisches Laden von Inhalten, Captcha-Überprüfung usw., was möglicherweise komplexere Handhabungsstrategien erfordert.
Die Verwendung eines Proxys zum Crawlen von Websites ist eine gängige Methode zur Umgehung von IP-Beschränkungen und Anti-Crawler-Mechanismen. Proxyserver können als Vermittler fungieren, Ihre Anfragen an die Zielwebsite weiterleiten und die Antwort an Sie zurücksenden, sodass die Zielwebsite nur die IP-Adresse des Proxyservers anstelle Ihrer tatsächlichen IP-Adresse sehen kann.
In Python können Sie die requestlibrary verwenden, um einen Proxy einzurichten. Hier ist ein einfaches Beispiel, das zeigt, wie ein Proxy zum Senden einer HTTP-Anfrage verwendet wird:
import requests # The IP address and port provided by swiftproxy proxy = { 'http': 'http://45.58.136.104:14123', 'https': 'http://119.28.12.192:23529', } # URL of the target website url = 'http://example.com' # Sending requests using a proxy response = requests.get(url, proxies=proxy) # Check if the request was successful if response.status_code == 200: print('Request successful, response content:', response.text) else: print('Request failed,status code:', response.status_code)
Beachten Sie, dass Sie die IP und den Port des Proxyservers durch die tatsächliche Proxyserveradresse ersetzen müssen. Stellen Sie außerdem sicher, dass der Proxyserver zuverlässig ist und die Website unterstützt, die Sie crawlen möchten. Einige Websites erkennen und blockieren möglicherweise Anfragen von bekannten Proxyservern. Daher müssen Sie möglicherweise regelmäßig die Proxyserver wechseln oder einen erweiterten Proxydienst verwenden.
Das obige ist der detaillierte Inhalt vonLeitfaden zum Erstellen einer einfachen Python-Web-Scraping-Anwendung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!