Heim > Artikel > Backend-Entwicklung > Laden Sie PDF-Dateien mit Pythons Requests und BeautifulSoup herunter
Request und BeautifulSoup sind Python-Bibliotheken, die jede Datei oder jedes PDF online herunterladen können. Die Anforderungsbibliothek wird zum Senden von HTTP-Anforderungen und zum Empfangen von Antworten verwendet. Die BeautifulSoup-Bibliothek wird verwendet, um den in der Antwort empfangenen HTML-Code zu analysieren und den herunterladbaren PDF-Link zu erhalten. In diesem Artikel erfahren Sie, wie Sie PDFs mit Request und Beautiful Soup in Python herunterladen.
Bevor wir die Bibliotheken BeautifulSoup und Request in Python verwenden, müssen wir diese Bibliotheken mit dem Befehl pip im System installieren. Um request und die BeautifulSoup- und Request-Bibliotheken zu installieren, führen Sie die folgenden Befehle im Terminal aus.
pip install requests pip install beautifulsoup4
Um eine PDF-Datei aus dem Internet herunterzuladen, müssen Sie zunächst mithilfe der Anforderungsbibliothek die URL der PDF-Datei ermitteln. Anschließend können wir Beautiful Soup verwenden, um die HTML-Antwort zu analysieren und den Link zur PDF-Datei zu extrahieren. Die Basis-URL und der nach dem Parsen erhaltene PDF-Link werden dann kombiniert, um die URL der PDF-Datei zu erhalten. Jetzt können wir die Anforderungsmethode verwenden, um eine Get-Anfrage zum Herunterladen der Datei zu senden.
Fügen Sie im folgenden Code die gültige URL der Seite ein, die die URL der PDF-Datei enthält, unter „https://example.com/document.pdf“
import requests from bs4 import BeautifulSoup # Step 1: Fetch the PDF URL url = 'https://example.com/document.pdf' response = requests.get(url) if response.status_code == 200: # Step 2: Parse the HTML to get the PDF link soup = BeautifulSoup(response.text, 'html.parser') link = soup.find('a')['href'] # Step 3: Download the PDF pdf_url = url + link pdf_response = requests.get(pdf_url) if pdf_response.status_code == 200: with open('document.pdf', 'wb') as f: f.write(pdf_response.content) print('PDF downloaded successfully.') else: print('Error:', pdf_response.status_code) else: print('Error:', response.status_code)
PDF downloaded successfully.
In diesem Artikel haben wir besprochen, wie man mithilfe der Request- und Beautiful Soup-Bibliotheken in Python PDF-Dateien aus dem Internet herunterlädt. Über die Anforderungsmethode können wir eine HTTP-Anfrage senden, um den PDF-Link zu überprüfen. Sobald wir eine Seite finden, die einen Link zu einer PDF-Datei enthält, können wir Beautiful Soup Download verwenden, um die Seite zu analysieren und den herunterladbaren PDF-Link zu erhalten.
Das obige ist der detaillierte Inhalt vonLaden Sie PDF-Dateien mit Pythons Requests und BeautifulSoup herunter. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!