Maison > Article > développement back-end > Téléchargez des fichiers PDF à l'aide des requêtes de Python et de BeautifulSoup
Request et BeautifulSoup sont des bibliothèques Python qui peuvent télécharger n'importe quel fichier ou PDF en ligne. La bibliothèque de requêtes est utilisée pour envoyer des requêtes HTTP et recevoir des réponses. La bibliothèque BeautifulSoup est utilisée pour analyser le HTML reçu dans la réponse et obtenir le lien pdf téléchargeable. Dans cet article, nous apprendrons comment télécharger un PDF à l'aide de Request et Beautiful Soup en Python.
Avant d'utiliser les bibliothèques BeautifulSoup et Request en Python, nous devons installer ces bibliothèques dans le système à l'aide de la commande pip. Pour installer request et les bibliothèques BeautifulSoup et Request, exécutez les commandes suivantes dans le terminal.
pip install requests pip install beautifulsoup4
Pour télécharger un PDF depuis Internet, vous devez d'abord trouver l'URL du fichier pdf à l'aide de la bibliothèque de requêtes. Nous pouvons ensuite utiliser Beautiful Soup pour analyser la réponse HTML et extraire le lien vers le fichier PDF. L'URL de base et le lien PDF reçus après analyse sont ensuite combinés pour obtenir l'URL du fichier PDF. Nous pouvons maintenant utiliser la méthode request pour envoyer une requête Get afin de télécharger le fichier.
Dans le code ci-dessous, placez l'URL valide de la page contenant l'URL du fichier PDF à "https://example.com/document.pdf"
import requests from bs4 import BeautifulSoup # Step 1: Fetch the PDF URL url = 'https://example.com/document.pdf' response = requests.get(url) if response.status_code == 200: # Step 2: Parse the HTML to get the PDF link soup = BeautifulSoup(response.text, 'html.parser') link = soup.find('a')['href'] # Step 3: Download the PDF pdf_url = url + link pdf_response = requests.get(pdf_url) if pdf_response.status_code == 200: with open('document.pdf', 'wb') as f: f.write(pdf_response.content) print('PDF downloaded successfully.') else: print('Error:', pdf_response.status_code) else: print('Error:', response.status_code)
PDF downloaded successfully.
Dans cet article, nous avons expliqué comment télécharger des fichiers PDF depuis Internet à l'aide des bibliothèques Request et Beautiful Soup en Python. Grâce à la méthode de requête, nous pouvons envoyer une requête HTTP pour vérifier le lien PDF. Une fois que nous avons trouvé une page contenant un lien vers un fichier PDF, nous pouvons utiliser Beautiful Soup Download pour analyser la page et obtenir le lien téléchargeable au PDF.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!