Rumah >pembangunan bahagian belakang >Tutorial Python >Bagaimanakah saya boleh mengekstrak teks bersih dengan cekap daripada HTML dalam Python?

Bagaimanakah saya boleh mengekstrak teks bersih dengan cekap daripada HTML dalam Python?

Mary-Kate Olsen
Mary-Kate Olsenasal
2024-11-29 22:58:11640semak imbas

How Can I Efficiently Extract Clean Text from HTML in Python?

Mengekstrak Teks daripada HTML dengan Python

Objektif anda adalah untuk mengekstrak teks daripada fail HTML dalam Python, mereplikasi output yang anda perolehi dengan menyalin teks daripada pelayar dan menampalnya ke dalam teks editor.

Cabaran

Ekspresi biasa tidak cukup teguh untuk HTML yang kurang terbentuk. Walaupun Beautiful Soup sering disyorkan, ia boleh mengambil kandungan yang tidak diingini seperti JavaScript dan gagal mentafsir entiti HTML.

Alternatif Menjanjikan: html2text

Walaupun ia menghasilkan penurunan nilai dan bukannya teks biasa, html2text mengendalikan entiti HTML dengan betul dan mengabaikan JavaScript. Walau bagaimanapun, dokumentasi dan contohnya adalah terhad.

Kod Optimum untuk Pengekstrakan Teks

Kod di bawah menawarkan penyelesaian berkesan yang menapis elemen yang tidak diingini dan mengekalkan entiti HTML:

from urllib.request import urlopen
from bs4 import BeautifulSoup

url = "http://news.bbc.co.uk/2/hi/health/2284783.stm"
html = urlopen(url).read()
soup = BeautifulSoup(html, features="html.parser")

# Remove scripts and styles
for script in soup(["script", "style"]):
    script.extract()

# Extract text
text = soup.get_text()

# Convert line breaks and remove whitespace
lines = (line.strip() for line in text.splitlines())
chunks = (phrase.strip() for line in lines for phrase in line.split("  "))
text = '\n'.join(chunk for chunk in chunks if chunk)

print(text)

Pergantungan

Untuk menggunakan ini kod, anda memerlukan BeautifulSoup4 dipasang dengan:

pip install beautifulsoup4

Atas ialah kandungan terperinci Bagaimanakah saya boleh mengekstrak teks bersih dengan cekap daripada HTML dalam Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn