Rumah >pembangunan bahagian belakang >Tutorial Python >Muat turun fail PDF menggunakan Permintaan Python dan BeautifulSoup
Request dan BeautifulSoup ialah perpustakaan Python yang boleh memuat turun sebarang fail atau PDF dalam talian. Pustaka permintaan digunakan untuk menghantar permintaan HTTP dan menerima respons. Pustaka BeautifulSoup digunakan untuk menghuraikan HTML yang diterima dalam respons dan mendapatkan pautan pdf yang boleh dimuat turun. Dalam artikel ini, kita akan belajar cara memuat turun PDF menggunakan Request dan Beautiful Soup dalam Python.
Sebelum menggunakan perpustakaan BeautifulSoup dan Request dalam Python, kita perlu memasang perpustakaan ini dalam sistem menggunakan arahan pip. Untuk memasang permintaan dan perpustakaan BeautifulSoup dan Request, jalankan arahan berikut dalam terminal.
pip install requests pip install beautifulsoup4
Untuk memuat turun PDF daripada internet, anda perlu mencari URL fail pdf terlebih dahulu menggunakan perpustakaan permintaan. Kami kemudiannya boleh menggunakan Beautiful Soup untuk menghuraikan respons HTML dan mengekstrak pautan ke fail PDF. URL asas dan pautan PDF yang diterima selepas penghuraian kemudian digabungkan untuk mendapatkan URL fail PDF. Kini kita boleh menggunakan kaedah permintaan untuk menghantar permintaan Dapatkan untuk memuat turun fail.
Dalam kod di bawah, letakkan URL sah halaman yang mengandungi URL fail PDF di "https://example.com/document.pdf"
import requests from bs4 import BeautifulSoup # Step 1: Fetch the PDF URL url = 'https://example.com/document.pdf' response = requests.get(url) if response.status_code == 200: # Step 2: Parse the HTML to get the PDF link soup = BeautifulSoup(response.text, 'html.parser') link = soup.find('a')['href'] # Step 3: Download the PDF pdf_url = url + link pdf_response = requests.get(pdf_url) if pdf_response.status_code == 200: with open('document.pdf', 'wb') as f: f.write(pdf_response.content) print('PDF downloaded successfully.') else: print('Error:', pdf_response.status_code) else: print('Error:', response.status_code)
PDF downloaded successfully.
Dalam artikel ini, kami membincangkan cara memuat turun fail PDF dari internet menggunakan perpustakaan Request dan Beautiful Soup dalam Python. Melalui kaedah permintaan, kami boleh menghantar permintaan HTTP untuk mengesahkan pautan PDF. Sebaik sahaja kami menemui halaman yang mengandungi pautan ke fail PDF, kami boleh menggunakan Muat Turun Sup Cantik untuk menghuraikan halaman dan mendapatkan pautan yang boleh dimuat turun PDF.
Atas ialah kandungan terperinci Muat turun fail PDF menggunakan Permintaan Python dan BeautifulSoup. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!