Rumah >pembangunan bahagian belakang >Tutorial Python >Bagaimanakah Saya Boleh Mengekstrak Teks Bersih dengan Cekap daripada Fail HTML Menggunakan Python?

Bagaimanakah Saya Boleh Mengekstrak Teks Bersih dengan Cekap daripada Fail HTML Menggunakan Python?

Patricia Arquette
Patricia Arquetteasal
2024-11-29 03:54:09753semak imbas

How Can I Efficiently Extract Clean Text from HTML Files Using Python?

Mengekstrak Teks daripada Fail HTML dengan Python: Panduan Komprehensif

Pengenalan

Mengekstrak teks daripada fail HTML boleh menjadi penting untuk pelbagai tugas pemprosesan dan analisis data. Walaupun ungkapan biasa mungkin boleh dilaksanakan untuk struktur HTML yang mudah, mereka boleh bergelut dengan kod yang kurang terbentuk. Artikel ini meneroka alternatif yang teguh - Sup Cantik - dan menyediakan penyelesaian praktikal yang mengalih keluar JavaScript yang tidak diingini dengan berkesan dan mentafsir entiti HTML.

Menggunakan Sup Cantik

Untuk mengekstrak teks menggunakan Sup Cantik, ikut langkah berikut:

  1. Import BeautifulSoup perpustakaan.
  2. Buka fail HTML menggunakan urlopen().
  3. Buat objek BeautifulSoup dengan BeautifulSoup(html, features="html.parser").
  4. Alih keluar elemen yang tidak diingini ( cth., skrip dan gaya) dengan untuk skrip dalam sup(["skrip", "gaya"]): script.extract().
  5. Ekstrak teks dengan soup.get_text().
  6. Pecahkan teks kepada baris dan kosongkan ruang putih dengan baris = (line.strip() untuk baris dalam teks .splitlines()).
  7. Asingkan berbilang tajuk dengan ketulan = (phrase.strip() untuk baris dalam baris untuk frasa dalam line.split(" ")).
  8. Alih keluar baris kosong dengan teks = 'n'.join(chunk for chunk in chunk if chunk).

Contoh Kod

Berikut ialah kod lengkap contoh:

from urllib.request import urlopen
from bs4 import BeautifulSoup

url = "http://news.bbc.co.uk/2/hi/health/2284783.stm"
html = urlopen(url).read()
soup = BeautifulSoup(html, features="html.parser")
for script in soup(["script", "style"]):
    script.extract()
text = soup.get_text()
lines = (line.strip() for line in text.splitlines())
chunks = (phrase.strip() for line in lines for phrase in line.split("  "))
text = '\n'.join(chunk for chunk in chunks if chunk)

print(text)

Pilihan Tambahan

  • html2text: Pustaka alternatif yang mengendalikan entiti HTML dan mengabaikan JavaScript. Walau bagaimanapun, ia menghasilkan Markdown dan bukannya teks biasa.
  • lxml: Pustaka penghurai XML dan HTML yang berkuasa yang juga boleh mengekstrak teks selepas menanggalkan tag.

Kesimpulan

Panduan ini menyediakan penyelesaian komprehensif untuk mengekstrak teks daripada fail HTML menggunakan BeautifulSoup. Dengan mengalih keluar elemen yang tidak diingini dan mentafsir entiti HTML, ia berkesan menjana output teks biasa untuk pemprosesan dan analisis selanjutnya.

Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Mengekstrak Teks Bersih dengan Cekap daripada Fail HTML Menggunakan Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn