Rumah >pembangunan bahagian belakang >Tutorial Python >Teknik pengikisan web dan pengekstrakan data dalam Python
Python telah menjadi bahasa pengaturcaraan pilihan untuk pelbagai aplikasi, dan fleksibilitinya meluas ke dunia pengikisan web. Dengan ekosistem perpustakaan dan rangka kerja yang kaya, Python menyediakan kit alat yang berkuasa untuk mengekstrak data daripada tapak web dan membuka kunci cerapan berharga. Sama ada anda seorang peminat data, penyelidik atau profesional industri, mengikis web dalam Python boleh menjadi kemahiran yang berharga untuk memanfaatkan sejumlah besar maklumat yang tersedia dalam talian.
Dalam tutorial ini, kami akan mendalami dunia pengikisan web dan meneroka pelbagai teknik dan alatan dalam Python yang boleh digunakan untuk mengekstrak data daripada tapak web. Kami akan membongkar asas pengikisan web, memahami pertimbangan undang-undang dan etika yang mengelilingi amalan tersebut dan menyelidiki aspek praktikal pengekstrakan data. Dalam bahagian seterusnya artikel ini, kami akan merangkumi perpustakaan Python asas yang direka khusus untuk mengikis web. Kami akan melihat dengan lebih dekat BeautifulSoup, perpustakaan popular untuk menghuraikan dokumen HTML dan XML, dan meneroka cara anda boleh memanfaatkannya untuk mengekstrak data dengan cekap.
Mengenai pengikisan web dalam Python, terdapat beberapa perpustakaan penting yang menyediakan alatan dan fungsi yang diperlukan. Dalam bahagian ini, kami akan memperkenalkan anda kepada perpustakaan ini dan menyerlahkan ciri utamanya.
Salah satu perpustakaan mengikis web paling popular dalam Python ialah BeautifulSoup. Ia membolehkan kami menghuraikan dan menavigasi dokumen HTML dan XML dengan mudah. BeautifulSoup memudahkan untuk mengekstrak elemen data tertentu daripada halaman web, seperti teks, pautan, jadual dan banyak lagi.
Untuk mula menggunakan BeautifulSoup, kami perlu memasangnya terlebih dahulu menggunakan pip pengurus pakej Python. Buka command prompt atau terminal dan jalankan arahan berikut:
pip install beautifulsoup4
Selepas pemasangan, kami boleh mengimport perpustakaan dan mula menggunakan fungsinya. Dalam tutorial ini, kita akan menumpukan pada penghuraian HTML, jadi mari kita terokai contoh. Pertimbangkan coretan HTML berikut:
<html> <body> <h1>Hello, World!</h1> <p>Welcome to our website.</p> </body> </html>
Sekarang, mari tulis beberapa kod Python untuk menghuraikan HTML ini menggunakan BeautifulSoup:
from bs4 import BeautifulSoup html = ''' <html> <body> <h1>Hello, World!</h1> <p>Welcome to our website.</p> </body> </html> ''' soup = BeautifulSoup(html, 'html.parser') title = soup.h1.text paragraph = soup.p.text print("Title:", title) print("Paragraph:", paragraph)
Title: Hello, World! Paragraph: Welcome to our website.
Seperti yang anda lihat, kami mengimport kelas BeautifulSoup daripada modul "bs4" dan mencipta contoh dengan menghantar kandungan HTML dan jenis parser ("html.parser"). Kami kemudian menggunakan objek "sup" untuk mengakses elemen tertentu melalui teg (cth. "h1", "p") dan mengekstrak teks menggunakan sifat ".text".
Pustaka Permintaan ialah satu lagi alat penting untuk mengikis web dalam Python. Ia memudahkan proses membuat permintaan HTTP dan mendapatkan semula kandungan halaman web. Dengan Permintaan, kami boleh mendapatkan HTML halaman web, yang kemudiannya boleh dihuraikan menggunakan perpustakaan seperti BeautifulSoup.
Untuk memasang pustaka Requests, jalankan arahan berikut dalam command prompt atau terminal:
pip install requests
Selepas pemasangan, kami boleh mengimport perpustakaan dan mula menggunakannya. Mari lihat contoh cara mendapatkan kandungan HTML halaman web:
import requests url = "https://example.com" response = requests.get(url) html_content = response.text print(html_content)
<!doctype html> <html> <head> <title>Example Domain</title> ... </head> <body> <h1>Example Domain</h1> ... </body> </html>
Dalam kod di atas, kami mengimport perpustakaan Permintaan dan memberikan URL `(https://example.com`) halaman web yang ingin kami rangkak. Kami menghantar permintaan HTTP GET ke URL yang ditentukan menggunakan kaedah "get()" dan menyimpan respons dalam pembolehubah "respons". Akhir sekali, kami mengakses kandungan HTML respons menggunakan atribut ".text".
Dalam bahagian ini, kami akan meneroka beberapa teknik asas mengikis web menggunakan Python. Kami akan membincangkan cara menggunakan pemilih CSS dan ungkapan XPath untuk mendapatkan semula kandungan halaman web dan mengekstrak data, serta mengendalikan penomboran apabila merangkak berbilang halaman.
Kami boleh mengekstrak data daripada HTML menggunakan pemilih CSS dan ekspresi XPath. BeautifulSoup menyediakan kaedah seperti "select()" dan "find_all()" untuk memanfaatkan teknik yang berkuasa ini.
Pertimbangkan coretan HTML berikut:
<html> <body> <div class="container"> <h1>Python Web Scraping</h1> <ul> <li class="item">Data Extraction</li> <li class="item">Data Analysis</li> </ul> </div> </body> </html>
Mari ekstrak item senarai menggunakan pemilih CSS:
from bs4 import BeautifulSoup html = ''' <html> <body> <div class="container"> <h1>Python Web Scraping</h1> <ul> <li class="item">Data Extraction</li> <li class="item">Data Analysis</li> </ul> </div> </body> </html> ''' soup = BeautifulSoup(html, 'html.parser') items = soup.select('.item') for item in items: print(item.text)
Data Extraction Data Analysis
Dalam kod di atas, kami menggunakan kaedah ".select()" dan pemilih CSS ".item" untuk memilih semua elemen dengan nama kelas "item". Kami kemudian mengulangi elemen yang dipilih dan mencetak teksnya menggunakan sifat ".text".
Begitu juga, BeautifulSoup menyokong ekspresi XPath untuk pengekstrakan data. Walau bagaimanapun, untuk kefungsian XPath, anda mungkin perlu memasang perpustakaan "lxml", yang tidak diliputi dalam tutorial ini.
Dalam tutorial ini, kami meneroka teknik mengikis web dalam Python, memfokuskan pada perpustakaan asas. Kami memperkenalkan BeautifulSoup untuk menghuraikan HTML dan XML, dan Permintaan untuk mendapatkan semula kandungan web. Kami menyediakan contoh menggunakan pemilih CSS untuk mengekstrak data dan membincangkan asas pengikisan web. Dalam bahagian seterusnya, kami akan menyelami teknik lanjutan seperti mengendalikan halaman pemaparan JavaScript dan menggunakan API. Nantikan maklumat lanjut dalam artikel di bawah!
Atas ialah kandungan terperinci Teknik pengikisan web dan pengekstrakan data dalam Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!