Python 如何高效地从 HTML 中提取纯文本、处理实体和不需要的内容？-Python教程-PHP中文网

首页

后端开发

Python教程

Python 如何高效地从 HTML 中提取纯文本、处理实体和不需要的内容？

Patricia Arquette

Nov 29, 2024 pm 08:12 PM

How Can Python Efficiently Extract Plain Text from HTML, Handling Entities and Unwanted Content?

使用 Python 从 HTML 中提取纯文本

在从 HTML 文件中检索文本内容时，考虑鲁棒性至关重要正确有效地处理 HTML 实体的方法。虽然使用正则表达式的解决方案可能有限，但像 Beautiful Soup 这样的库提供了更复杂的选项。然而，捕获不需要的文本和实体解释的问题仍然存在。

Beautiful Soup：带有警告的强大工具

Beautiful Soup 是 HTML 解析的流行选择，但它可能会检索 JavaScript 源等其他元素，但无法解释 HTML 实体。例如，序列“源代码中的不会转换为提取文本中的撇号。

输入 html2text：一个有前途的解决方案

当前，html2text 成为一个引人注目的选项。它可以轻松处理 HTML 实体，并忽略 JavaScript 等不必要的内容。虽然它输出 markdown 而不是纯文本，但可以轻松转换。

强大且可自定义的方法

以下代码片段利用 Beautiful Soup 并提供增强的控制提取过程：

from urllib.request import urlopen
from bs4 import BeautifulSoup

url = "http://news.bbc.co.uk/2/hi/health/2284783.stm"
html = urlopen(url).read()
soup = BeautifulSoup(html, features="html.parser")

# Remove unwanted elements like scripts and styles
for script in soup(["script", "style"]):
    script.extract()

# Extract the text content
text = soup.get_text()

# Preprocess the text for improved readability
lines = (line.strip() for line in text.splitlines())
chunks = (phrase.strip() for line in lines for phrase in line.split("  "))
text = '\n'.join(chunk for chunk in chunks if chunk)

print(text)

通过采用这种方法，您可以有效地提取纯文本，将想要的和不需要的内容处理为根据您的要求。

以上是Python 如何高效地从 HTML 中提取纯文本、处理实体和不需要的内容？的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

Python：编译器还是解释器？May 13, 2025 am 12:10 AM

Python是解释型语言，但也包含编译过程。1）Python代码先编译成字节码。2）字节码由Python虚拟机解释执行。3）这种混合机制使Python既灵活又高效，但执行速度不如完全编译型语言。

python用于循环与循环时：何时使用哪个？May 13, 2025 am 12:07 AM

useeAforloopWheniteratingOveraseQuenceOrforAspecificnumberoftimes; useAwhiLeLoopWhenconTinuingUntilAcIntiment.ForloopSareIdeAlforkNownsences，而WhileLeleLeleLeleLoopSituationSituationSituationsItuationSuationSituationswithUndEtermentersitations。

Python循环：最常见的错误May 13, 2025 am 12:07 AM

pythonloopscanleadtoerrorslikeinfiniteloops，modifyingListsDuringteritation，逐个偏置，零indexingissues，andnestedloopineflinefficiencies

对于循环和python中的循环时：每个循环的优点是什么？May 13, 2025 am 12:01 AM

forloopsareadvantageousforknowniterations and sequests，供应模拟性和可读性；而LileLoopSareIdealFordyNamicConcitionSandunknowniterations，提供ControloperRoverTermination.1）forloopsareperfectForeTectForeTerToratingOrtratingRiteratingOrtratingRitterlistlistslists，callings conspass，calplace，cal，ofstrings ofstrings，orstrings，orstrings，orstrings ofcces

Python：深入研究汇编和解释May 12, 2025 am 12:14 AM

pythonisehybridmodelofcompilationand interpretation：1）thepythoninterspretercompilesourcececodeintoplatform- interpententbybytecode.2）thepytythonvirtualmachine（pvm）thenexecuteCutestestestesteSteSteSteSteSteSthisByTecode，BelancingEaseofuseWithPerformance。

Python是一种解释或编译语言，为什么重要？May 12, 2025 am 12:09 AM

pythonisbothinterpretedAndCompiled.1）它的compiledTobyTecodeForportabilityAcrosplatforms.2）bytecodeisthenInterpreted，允许fordingfordforderynamictynamictymictymictymictyandrapiddefupment，尽管Ititmaybeslowerthananeflowerthanancompiledcompiledlanguages。

对于python中的循环时循环与循环：解释了关键差异May 12, 2025 am 12:08 AM

在您的知识之际，而foroopsareideal insinAdvance中，而WhileLoopSareBetterForsituations则youneedtoloopuntilaconditionismet

循环时：实用指南May 12, 2025 am 12:07 AM

ForboopSareSusedwhenthentheneMberofiterationsiskNownInAdvance，而WhileLoopSareSareDestrationsDepportonAcondition.1）ForloopSareIdealForiteratingOverSequencesLikelistSorarrays.2）whileLeleLooleSuitableApeableableableableableableforscenarioscenarioswhereTheLeTheLeTheLeTeLoopContinusunuesuntilaspecificiccificcificCondond

See all articles