首页 >后端开发 >Python教程 >如何使用 Python 和 BeautifulSoup 从网页中提取超链接?

如何使用 Python 和 BeautifulSoup 从网页中提取超链接?

Linda Hamilton
Linda Hamilton原创
2024-12-11 11:06:10625浏览

How Can I Extract Hyperlinks from a Webpage Using Python and BeautifulSoup?

使用 Python 和 BeautifulSoup 从网页检索链接

本文演示了如何从网页检索链接并收集其 URL 地址使用 Python 和 BeautifulSoup

问题:

如何使用Python提取网页中嵌入的链接的URL?

解决方案:

要实现这一点,您可以利用 BeautifulSoup 提供的 SoupStrainer 类。以下代码片段举例说明了该过程:

import httplib2
from bs4 import BeautifulSoup, SoupStrainer

http = httplib2.Http()
status, response = http.request('http://www.nytimes.com')

for link in BeautifulSoup(response, 'html.parser', parse_only=SoupStrainer('a')):
    if link.has_attr('href'):
        print(link['href'])

此代码建立与指定网页的连接,即示例中的“http://www.nytimes.com”。它使用 BeautifulSoup 解析 HTML 响应并应用 SoupStrainer('a') 过滤器,该过滤器重点关注页面内的 'a' 标签(表示链接)。对于找到的每个链接,代码都会检索其“href”属性,其中包含实际的 URL 地址。

以上是如何使用 Python 和 BeautifulSoup 从网页中提取超链接?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn