Heim >Backend-Entwicklung >Python-Tutorial >Leitfaden zum Erstellen einer einfachen Python-Web-Scraping-Anwendung

Leitfaden zum Erstellen einer einfachen Python-Web-Scraping-Anwendung

PHPz
PHPzOriginal
2024-08-16 18:02:121012Durchsuche

Guide to Building a Simple Python Web Scraping Application

Das Scrapen von Webdaten in Python umfasst normalerweise das Senden von HTTP-Anfragen an die Zielwebsite und das Parsen der zurückgegebenen HTML- oder JSON-Daten. ‌ Nachfolgend finden Sie ein Beispiel für eine einfache Web-Scraping-Anwendung, die die Requests-Bibliothek zum Senden von HTTP-Anfragen und die BeautifulSouplibrary zum Parsen von HTML verwendet. ‌

Python erstellt einen einfachen Web-Scraping-Fall

Stellen Sie zunächst sicher, dass Sie die Bibliotheken „requests“ und „Beautifulsoup4“ installiert haben. Wenn nicht, können Sie sie mit dem folgenden Befehl installieren:‌

Pip-Installationsanfragen für beautifulsoup4
Anschließend können Sie ein Python-Skript wie das folgende schreiben, um Netzwerkdaten zu extrahieren:

import requests 
from bs4 import BeautifulSoup 

# URL of the target website 
url = 'http://example.com' 

# Sending HTTP GET request 
response = requests.get(url) 

# Check if the request was successful 
if response.status_code == 200: 
    # Parsing HTML with BeautifulSoup 
    soup = BeautifulSoup(response.text, 'html.parser') 

    # Extract the required data, for example, extract all the titles 
    titles = soup.find_all('h1') 

    # Print title 
    for title in titles: 
        print(title.text) 
else: 
    print('Request failed,status code:', response.status_code) 

In diesem Beispiel haben wir zuerst die Bibliotheken „requests“ und „BeautifulSoup“ importiert. Anschließend haben wir die URL der Zielwebsite definiert und mithilfe der Methode „requests.get()“ eine HTTP-GET-Anfrage gesendet. Wenn die Anfrage erfolgreich ist (Statuscode ist 200), analysieren wir den zurückgegebenen HTML-Code mit BeautifulSoup und extrahieren alle

Tags, die normalerweise den Haupttitel der Seite enthalten. Abschließend drucken wir den Textinhalt jedes Titels aus.

Bitte beachten Sie, dass Sie bei einem tatsächlichen Web-Scraping-Projekt die Regeln der robots.txt-Datei der Zielwebsite einhalten und das Urheberrecht und die Nutzungsbedingungen der Website respektieren müssen. Darüber hinaus verwenden einige Websites möglicherweise Anti-Crawler-Techniken, wie z. B. dynamisches Laden von Inhalten, Captcha-Überprüfung usw., was möglicherweise komplexere Handhabungsstrategien erfordert.

Warum müssen Sie einen Proxy für Web Scraping verwenden?

Die Verwendung eines Proxys zum Crawlen von Websites ist eine gängige Methode zur Umgehung von IP-Beschränkungen und Anti-Crawler-Mechanismen. Proxyserver können als Vermittler fungieren, Ihre Anfragen an die Zielwebsite weiterleiten und die Antwort an Sie zurücksenden, sodass die Zielwebsite nur die IP-Adresse des Proxyservers anstelle Ihrer tatsächlichen IP-Adresse sehen kann.

Ein einfaches Beispiel für Web Scraping mit einem Proxy

In Python können Sie die requestlibrary verwenden, um einen Proxy einzurichten. Hier ist ein einfaches Beispiel, das zeigt, wie ein Proxy zum Senden einer HTTP-Anfrage verwendet wird:

import requests 

# The IP address and port provided by swiftproxy 
proxy = { 
    'http': 'http://45.58.136.104:14123', 
    'https': 'http://119.28.12.192:23529', 
} 

# URL of the target website 
url = 'http://example.com' 

# Sending requests using a proxy 
response = requests.get(url, proxies=proxy) 

# Check if the request was successful 
if response.status_code == 200: 
    print('Request successful, response content:‌', response.text) 
else: 
    print('Request failed,status code:‌', response.status_code) 

Beachten Sie, dass Sie die IP und den Port des Proxyservers durch die tatsächliche Proxyserveradresse ersetzen müssen. Stellen Sie außerdem sicher, dass der Proxyserver zuverlässig ist und die Website unterstützt, die Sie crawlen möchten. Einige Websites erkennen und blockieren möglicherweise Anfragen von bekannten Proxyservern. Daher müssen Sie möglicherweise regelmäßig die Proxyserver wechseln oder einen erweiterten Proxydienst verwenden.

Das obige ist der detaillierte Inhalt vonLeitfaden zum Erstellen einer einfachen Python-Web-Scraping-Anwendung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn