Maison  >  Article  >  développement back-end  >  Téléchargez des fichiers PDF à l'aide des requêtes de Python et de BeautifulSoup

Téléchargez des fichiers PDF à l'aide des requêtes de Python et de BeautifulSoup

王林
王林avant
2023-08-30 15:25:06916parcourir

Téléchargez des fichiers PDF à laide des requêtes de Python et de BeautifulSoup

Request et BeautifulSoup sont des bibliothèques Python qui peuvent télécharger n'importe quel fichier ou PDF en ligne. La bibliothèque de requêtes est utilisée pour envoyer des requêtes HTTP et recevoir des réponses. La bibliothèque BeautifulSoup est utilisée pour analyser le HTML reçu dans la réponse et obtenir le lien pdf téléchargeable. Dans cet article, nous apprendrons comment télécharger un PDF à l'aide de Request et Beautiful Soup en Python.

Installer les dépendances

Avant d'utiliser les bibliothèques BeautifulSoup et Request en Python, nous devons installer ces bibliothèques dans le système à l'aide de la commande pip. Pour installer request et les bibliothèques BeautifulSoup et Request, exécutez les commandes suivantes dans le terminal.

pip install requests
pip install beautifulsoup4

Téléchargez le PDF en utilisant Request et Beautiful Soup

Pour télécharger un PDF depuis Internet, vous devez d'abord trouver l'URL du fichier pdf à l'aide de la bibliothèque de requêtes. Nous pouvons ensuite utiliser Beautiful Soup pour analyser la réponse HTML et extraire le lien vers le fichier PDF. L'URL de base et le lien PDF reçus après analyse sont ensuite combinés pour obtenir l'URL du fichier PDF. Nous pouvons maintenant utiliser la méthode request pour envoyer une requête Get afin de télécharger le fichier.

Exemple

Dans le code ci-dessous, placez l'URL valide de la page contenant l'URL du fichier PDF à "https://example.com/document.pdf"

import requests
from bs4 import BeautifulSoup

# Step 1: Fetch the PDF URL
url = 'https://example.com/document.pdf'
response = requests.get(url)

if response.status_code == 200:
   # Step 2: Parse the HTML to get the PDF link
   soup = BeautifulSoup(response.text, 'html.parser')
   link = soup.find('a')['href']

   # Step 3: Download the PDF
   pdf_url = url + link
   pdf_response = requests.get(pdf_url)

   if pdf_response.status_code == 200:
      with open('document.pdf', 'wb') as f:
         f.write(pdf_response.content)
      print('PDF downloaded successfully.')
   else:
      print('Error:', pdf_response.status_code)
else:
   print('Error:', response.status_code)

Sortie

PDF downloaded successfully.

Conclusion

Dans cet article, nous avons expliqué comment télécharger des fichiers PDF depuis Internet à l'aide des bibliothèques Request et Beautiful Soup en Python. Grâce à la méthode de requête, nous pouvons envoyer une requête HTTP pour vérifier le lien PDF. Une fois que nous avons trouvé une page contenant un lien vers un fichier PDF, nous pouvons utiliser Beautiful Soup Download pour analyser la page et obtenir le lien téléchargeable au PDF.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer