首頁 >後端開發 >Python教學 >如何使用 Python 和 BeautifulSoup 從網頁中提取超連結?

如何使用 Python 和 BeautifulSoup 從網頁中提取超連結?

Linda Hamilton
Linda Hamilton原創
2024-12-11 11:06:10640瀏覽

How Can I Extract Hyperlinks from a Webpage Using Python and BeautifulSoup?

使用 Python 和 BeautifulSoup 從網頁擷取連結

本文示範如何從網頁擷取連結並收集其 URL 位址使用 Python 和 BeautifulSoup

問題:

如何使用Python提取網頁中嵌入的連結的URL?

解決方案:

要實現這一點,您可以利用 BeautifulSoup 提供的 SoupStrainer 類別。以下程式碼片段舉例說明了該過程:

import httplib2
from bs4 import BeautifulSoup, SoupStrainer

http = httplib2.Http()
status, response = http.request('http://www.nytimes.com')

for link in BeautifulSoup(response, 'html.parser', parse_only=SoupStrainer('a')):
    if link.has_attr('href'):
        print(link['href'])

此程式碼建立與指定網頁的連接,即範例中的「http://www.nytimes.com」。它使用 BeautifulSoup 解析 HTML 回應並應用 SoupStrainer('a') 過濾器,該過濾器重點關注頁面內的 'a' 標籤(表示連結)。對於找到的每個鏈接,程式碼都會檢索其“href”屬性,其中包含實際的 URL 位址。

以上是如何使用 Python 和 BeautifulSoup 從網頁中提取超連結?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn