ホームページ >バックエンド開発 >Python チュートリアル >Python と BeautifulSoup を使用して Web ページからハイパーリンクを抽出するにはどうすればよいですか?

Python と BeautifulSoup を使用して Web ページからハイパーリンクを抽出するにはどうすればよいですか?

Linda Hamilton
Linda Hamiltonオリジナル
2024-12-11 11:06:10625ブラウズ

How Can I Extract Hyperlinks from a Webpage Using Python and BeautifulSoup?

Python と BeautifulSoup を使用した Web ページからのリンクの取得

この記事では、Web ページからリンクを取得し、その URL アドレスを収集する方法を説明します。 Python と BeautifulSoup を使用するlibrary.

問題:

Python を使用して Web ページに埋め込まれたリンクの URL を抽出するにはどうすればよいですか?

解決策:

これを実現するには、BeautifulSoup が提供する SoupStrainer クラスを利用できます。次のコード スニペットは、このプロセスの例を示しています。

import httplib2
from bs4 import BeautifulSoup, SoupStrainer

http = httplib2.Http()
status, response = http.request('http://www.nytimes.com')

for link in BeautifulSoup(response, 'html.parser', parse_only=SoupStrainer('a')):
    if link.has_attr('href'):
        print(link['href'])

このコードは、指定された Web ページ、つまりこの例では「http://www.nytimes.com」への接続を確立します。 BeautifulSoup を使用して、HTML 応答を解析し、ページ内の (リンクを表す) 'a' タグに焦点を当てる SoupStrainer('a') フィルターを適用します。見つかったリンクごとに、コードは実際の URL アドレスを含む「href」属性を取得します。

以上がPython と BeautifulSoup を使用して Web ページからハイパーリンクを抽出するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。