Python을 사용하여 HTML 파일에서 깨끗한 텍스트를 효율적으로 추출하려면 어떻게 해야 합니까?-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

Python을 사용하여 HTML 파일에서 깨끗한 텍스트를 효율적으로 추출하려면 어떻게 해야 합니까?

Patricia Arquette

Nov 29, 2024 am 03:54 AM

How Can I Efficiently Extract Clean Text from HTML Files Using Python?

Python을 사용하여 HTML 파일에서 텍스트 추출: 종합 안내서

소개

텍스트 추출 HTML 파일의 데이터는 다양한 데이터 처리 및 분석 작업에 필수적일 수 있습니다. 간단한 HTML 구조에서는 정규 표현식을 사용할 수 있지만 형식이 잘못된 코드에서는 어려움을 겪을 수 있습니다. 이 기사에서는 강력한 대안인 Beautiful Soup을 탐색하고 원치 않는 JavaScript를 효과적으로 제거하고 HTML 엔터티를 해석하는 실용적인 솔루션을 제공합니다.

Beautiful Soup 사용

다음을 사용하여 텍스트를 추출하려면 Beautiful Soup은 다음 단계를 따르세요.

BeautifulSoup 가져오기 library.
urlopen()을 사용하여 HTML 파일을 엽니다.
BeautifulSoup(html, feature="html.parser")를 사용하여 BeautifulSoup 객체를 생성합니다.
원하지 않는 요소 제거( 예를 들어 스크립트 및 스타일) for script in 수프(["script", "style"]): script.extract().
soup.get_text()를 사용하여 텍스트를 추출합니다.
텍스트를 줄로 나누고 줄을 사용하여 공백을 제거합니다. = (line.strip() 텍스트의 줄 .splitlines()).
청크로 여러 헤드라인 분리 = (phrase.strip() for line in line for문구 in line.split(" ")).
text = 'n'.join(chunk for Chunk in Chunks if Chunk).

코드 예

전체 코드는 다음과 같습니다. 예:

from urllib.request import urlopen
from bs4 import BeautifulSoup

url = "http://news.bbc.co.uk/2/hi/health/2284783.stm"
html = urlopen(url).read()
soup = BeautifulSoup(html, features="html.parser")
for script in soup(["script", "style"]):
    script.extract()
text = soup.get_text()
lines = (line.strip() for line in text.splitlines())
chunks = (phrase.strip() for line in lines for phrase in line.split("  "))
text = '\n'.join(chunk for chunk in chunks if chunk)

print(text)

추가 옵션

html2text: HTML 엔터티를 처리하고 JavaScript를 무시하는 대체 라이브러리입니다. 그러나 일반 텍스트 대신 Markdown을 생성합니다.
lxml: 태그를 제거한 후 텍스트도 추출할 수 있는 강력한 XML 및 HTML 파서 라이브러리입니다.

결론

이 가이드는 다음을 사용하여 HTML 파일에서 텍스트를 추출하는 포괄적인 솔루션을 제공합니다. BeautifulSoup. 원치 않는 요소를 제거하고 HTML 엔터티를 해석함으로써 추가 처리 및 분석을 위한 일반 텍스트 출력을 효과적으로 생성합니다.

위 내용은 Python을 사용하여 HTML 파일에서 깨끗한 텍스트를 효율적으로 추출하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

파이썬 : 편집과 해석에 대한 깊은 다이빙May 12, 2025 am 12:14 AM

Pythonusesahybridmodelofilationandlostretation : 1) ThePyThoninterPretreCeterCompileSsourcodeIntOplatform-IndependentBecode.

Python은 해석 된 또는 편집 된 언어입니까? 왜 중요한가?May 12, 2025 am 12:09 AM

Pythonisbothingretedandcompiled.1) 1) it 'scompiledtobytecodeforportabilityacrossplatforms.2) thebytecodeisthentenningreted, withfordiNamictyTeNgreted, WhithItmayBowerShiledlanguges.

루프 대 파이썬의 루프 : 주요 차이점 설명May 12, 2025 am 12:08 AM

forloopsareideal when

루프를위한 것 및 기간 : 실용 가이드May 12, 2025 am 12:07 AM

forloopsareusedwhendumberofitessiskNowninadvance, whilewhiloopsareusedwhentheationsdepernationsorarrays.2) whiloopsureatableforscenarioScontiLaspecOndCond

파이썬 : 진정으로 해석 되었습니까? 신화를 파악합니다May 12, 2025 am 12:05 AM

pythonisnotpurelynlogreted; itusesahybrideprophorfbyodecodecompilationandruntime -INGRETATION.1) pythoncompilessourcecodeintobytecode, thepythonVirtualMachine (pvm)

동일한 요소를 가진 Python Concatenate 목록May 11, 2025 am 12:08 AM

ToconcatenatelistsinpythonwithesameElements, 사용 : 1) OperatorTokeEpduplicates, 2) asettoremovedUplicates, or3) listComperensionForControlOverDuplicates, 각 methodHasDifferentPerferformanCeanDorderImpestications.

해석 대 컴파일 언어 : Python 's PlaceMay 11, 2025 am 12:07 AM

PythonisancerpretedLanguage, 비판적 요소를 제시하는 PytherfaceLockelimitationsIncriticalApplications.1) 해석 된 언어와 같은 thePeedBackandbackandrapidProtoTyping.2) CompilledlanguagesLikec/C transformt 해석

루프를 위해 및 while 루프 : 파이썬에서 언제 각각을 사용합니까?May 11, 2025 am 12:05 AM

useforloopswhhenmerfiterationsiskNownInAdvance 및 WhileLoopSweHeniTesslationsDepoyConditionismet whilEroopsSuitsCenarioswhereTheLoopScenarioswhereTheLoopScenarioswhereTheLoopScenarioswhereTherInatismet, 유용한 광고 인 푸트 gorit

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

SublimeText3 영어 버전

권장 사항: Win 버전, 코드 프롬프트 지원!

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.