Rumah  >  Artikel  >  pembangunan bahagian belakang  >  Muat turun fail PDF menggunakan Permintaan Python dan BeautifulSoup

Muat turun fail PDF menggunakan Permintaan Python dan BeautifulSoup

王林
王林ke hadapan
2023-08-30 15:25:06839semak imbas

Muat turun fail PDF menggunakan Permintaan Python dan BeautifulSoup

Request dan BeautifulSoup ialah perpustakaan Python yang boleh memuat turun sebarang fail atau PDF dalam talian. Pustaka permintaan digunakan untuk menghantar permintaan HTTP dan menerima respons. Pustaka BeautifulSoup digunakan untuk menghuraikan HTML yang diterima dalam respons dan mendapatkan pautan pdf yang boleh dimuat turun. Dalam artikel ini, kita akan belajar cara memuat turun PDF menggunakan Request dan Beautiful Soup dalam Python.

Pasang kebergantungan

Sebelum menggunakan perpustakaan BeautifulSoup dan Request dalam Python, kita perlu memasang perpustakaan ini dalam sistem menggunakan arahan pip. Untuk memasang permintaan dan perpustakaan BeautifulSoup dan Request, jalankan arahan berikut dalam terminal.

pip install requests
pip install beautifulsoup4

Muat turun PDF menggunakan Permintaan dan Sup Cantik

Untuk memuat turun PDF daripada internet, anda perlu mencari URL fail pdf terlebih dahulu menggunakan perpustakaan permintaan. Kami kemudiannya boleh menggunakan Beautiful Soup untuk menghuraikan respons HTML dan mengekstrak pautan ke fail PDF. URL asas dan pautan PDF yang diterima selepas penghuraian kemudian digabungkan untuk mendapatkan URL fail PDF. Kini kita boleh menggunakan kaedah permintaan untuk menghantar permintaan Dapatkan untuk memuat turun fail.

Contoh

Dalam kod di bawah, letakkan URL sah halaman yang mengandungi URL fail PDF di "https://example.com/document.pdf"

import requests
from bs4 import BeautifulSoup

# Step 1: Fetch the PDF URL
url = 'https://example.com/document.pdf'
response = requests.get(url)

if response.status_code == 200:
   # Step 2: Parse the HTML to get the PDF link
   soup = BeautifulSoup(response.text, 'html.parser')
   link = soup.find('a')['href']

   # Step 3: Download the PDF
   pdf_url = url + link
   pdf_response = requests.get(pdf_url)

   if pdf_response.status_code == 200:
      with open('document.pdf', 'wb') as f:
         f.write(pdf_response.content)
      print('PDF downloaded successfully.')
   else:
      print('Error:', pdf_response.status_code)
else:
   print('Error:', response.status_code)

Output

PDF downloaded successfully.

Kesimpulan

Dalam artikel ini, kami membincangkan cara memuat turun fail PDF dari internet menggunakan perpustakaan Request dan Beautiful Soup dalam Python. Melalui kaedah permintaan, kami boleh menghantar permintaan HTTP untuk mengesahkan pautan PDF. Sebaik sahaja kami menemui halaman yang mengandungi pautan ke fail PDF, kami boleh menggunakan Muat Turun Sup Cantik untuk menghuraikan halaman dan mendapatkan pautan yang boleh dimuat turun PDF.

Atas ialah kandungan terperinci Muat turun fail PDF menggunakan Permintaan Python dan BeautifulSoup. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:tutorialspoint.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam