如何使用 BeautifulSoup 提取“href”属性
处理 HTML 数据时,检索“href”属性等特定信息至关重要。在这种情况下,我们有两个标签,一个带有嵌套元素,目标是从“a”标签中提取“href”属性,忽略文本内容。
要使用 BeautifulSoup 实现这一点,您可以使用“find_all”方法。此方法允许您根据各种条件(包括属性)搜索标签。代码如下:
from bs4 import BeautifulSoup html = '''<a href="some_url">next</a> <span class="class"><a href="another_url">later</a></span>''' soup = BeautifulSoup(html) for a in soup.find_all('a', href=True): print("Found the URL:", a['href'])
此代码迭代所有具有 'href' 属性的 'a' 标签,并打印每个标签的 'href' 属性的值。输出将为:
Found the URL: some_url Found the URL: another_url
或者,如果您想检索具有 'href' 属性的所有标签,无论其名称如何,您可以使用:
href_tags = soup.find_all(href=True)
此方法返回 HTML 文档中所有具有“href”属性的标签的列表。
以上是如何使用 BeautifulSoup 从嵌套 HTML 元素中提取'href”属性?的详细内容。更多信息请关注PHP中文网其他相关文章!