ホームページ >バックエンド開発 >Python チュートリアル >Python と BeautifulSoup を使用して Web ページからハイパーリンクと URL を抽出するにはどうすればよいですか?

Python と BeautifulSoup を使用して Web ページからハイパーリンクと URL を抽出するにはどうすればよいですか?

Patricia Arquetteオリジナル: 2024-12-08 00:12:111115ブラウズ

How Can I Extract Hyperlinks and URLs from a Webpage Using Python and BeautifulSoup?

Python と BeautifulSoup を使用した Web ページのリンクの取得

質問: Web ページからハイパーリンクを抽出し、を使用して URL を取得しますPython?

答え:

Python と BeautifulSoup を使用して Web ページからリンクと URL アドレスを効率的に抽出するには、SoupStrainer クラスを利用できます。コードスニペットは次のとおりです。

import httplib2
from bs4 import BeautifulSoup, SoupStrainer

http = httplib2.Http()
status, response = http.request('http://www.nytimes.com')

for link in BeautifulSoup(response, 'html.parser', parse_only=SoupStrainer('a')):
    if link.has_attr('href'):
        print(link['href'])

このコードは、まず Web ページの HTML コンテンツを取得します (httplib2 ライブラリを使用)。次に、BeautifulSoup を使用して HTML を解析し、効率を高めるために SoupStrainer クラスを使用してタグのみをフィルタリングします。最後に、a タグを反復処理して、それぞれの href 属性を出力し、リンク URL を効果的に抽出します。

さまざまな解析シナリオの詳細については、BeautifulSoup のドキュメントを参照してください。

[BeautifulSoup]ドキュメント](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)

以上がPython と BeautifulSoup を使用して Web ページからハイパーリンクと URL を抽出するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Python html beautifulsoup for using class finally Attribute this href https

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：Python で文字列数値を数値的に並べ替えるにはどうすればよいですか?次の記事：Python で文字列数値を数値的に並べ替えるにはどうすればよいですか?

続きを見る