如何在 Python 中高效地从 HTML 中提取干净的文本？-Python教程-PHP中文网

首页

后端开发

Python教程

如何在 Python 中高效地从 HTML 中提取干净的文本？

Mary-Kate Olsen

Nov 29, 2024 pm 10:58 PM

How Can I Efficiently Extract Clean Text from HTML in Python?

使用 Python 从 HTML 中提取文本

您的目标是使用 Python 从 HTML 文件中提取文本，复制您获得的输出通过从浏览器复制文本并将其粘贴到文本中

挑战

正则表达式对于格式不良的 HTML 来说不够强大。虽然 Beautiful Soup 经常被推荐，但它可能会拾取 JavaScript 等不需要的内容，并且无法解释 HTML 实体。

有希望的替代方案：html2text

尽管它生成 markdown 而不是纯文本，html2text 可以正确处理 HTML 实体并忽略 JavaScript。然而，它的文档和示例是有限的。

文本提取的最佳代码

下面的代码提供了一个有效的解决方案，可以过滤掉不需要的元素并保留 HTML 实体：

from urllib.request import urlopen
from bs4 import BeautifulSoup

url = "http://news.bbc.co.uk/2/hi/health/2284783.stm"
html = urlopen(url).read()
soup = BeautifulSoup(html, features="html.parser")

# Remove scripts and styles
for script in soup(["script", "style"]):
    script.extract()

# Extract text
text = soup.get_text()

# Convert line breaks and remove whitespace
lines = (line.strip() for line in text.splitlines())
chunks = (phrase.strip() for line in lines for phrase in line.split("  "))
text = '\n'.join(chunk for chunk in chunks if chunk)

print(text)

依赖

使用这个代码，您需要安装 BeautifulSoup4：

pip install beautifulsoup4

以上是如何在 Python 中高效地从 HTML 中提取干净的文本？的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

python中两个列表的串联替代方案是什么？May 09, 2025 am 12:16 AM

可以使用多种方法在Python中连接两个列表：1.使用操作符，简单但在大列表中效率低；2.使用extend方法，效率高但会修改原列表；3.使用 =操作符，兼具效率和可读性；4.使用itertools.chain函数，内存效率高但需额外导入；5.使用列表解析，优雅但可能过于复杂。选择方法应根据代码上下文和需求。

Python：合并两个列表的有效方法May 09, 2025 am 12:15 AM

有多种方法可以合并Python列表：1.使用操作符，简单但对大列表不内存高效；2.使用extend方法，内存高效但会修改原列表；3.使用itertools.chain，适用于大数据集；4.使用*操作符，一行代码合并小到中型列表；5.使用numpy.concatenate，适用于大数据集和性能要求高的场景；6.使用append方法，适用于小列表但效率低。选择方法时需考虑列表大小和应用场景。

编译的与解释的语言：优点和缺点May 09, 2025 am 12:06 AM

CompiledLanguagesOffersPeedAndSecurity，而interneterpretledlanguages provideeaseafuseanDoctability.1）commiledlanguageslikec arefasterandSecureButhOnderDevevelmendeclementCyclesclesclesclesclesclesclesclesclesclesclesclesclesclesclesclesclesclesandentency.2）cransportedeplatectentysenty

Python：对于循环，最完整的指南May 09, 2025 am 12:05 AM

Python中，for循环用于遍历可迭代对象，while循环用于条件满足时重复执行操作。1）for循环示例：遍历列表并打印元素。2）while循环示例：猜数字游戏，直到猜对为止。掌握循环原理和优化技巧可提高代码效率和可靠性。

python concatenate列表到一个字符串中May 09, 2025 am 12:02 AM

要将列表连接成字符串，Python中使用join()方法是最佳选择。1)使用join()方法将列表元素连接成字符串，如''.join(my_list)。2)对于包含数字的列表，先用map(str,numbers)转换为字符串再连接。3)可以使用生成器表达式进行复杂格式化，如','.join(f'({fruit})'forfruitinfruits)。4)处理混合数据类型时，使用map(str,mixed_list)确保所有元素可转换为字符串。5)对于大型列表，使用''.join(large_li

Python的混合方法：编译和解释合并May 08, 2025 am 12:16 AM

pythonuseshybridapprace，ComminingCompilationTobyTecoDeAndInterpretation.1）codeiscompiledtoplatform-Indepententbybytecode.2）bytecodeisisterpretedbybythepbybythepythonvirtualmachine，增强效率和通用性。

了解python的' for”和' then”循环之间的差异May 08, 2025 am 12:11 AM

theKeyDifferencesBetnewpython's“ for”和“ for”和“ loopsare：1）” for“ loopsareIdealForiteringSequenceSquencesSorkNowniterations，而2）”，而“ loopsareBetterforConterContinuingUntilacTientInditionIntionismetismetistismetistwithOutpredefinedInedIterations.un