ホームページ >バックエンド開発 >Python チュートリアル >BeautifulSoup を使用して HTML から HREF 属性を効率的に抽出する方法

BeautifulSoup を使用して HTML から HREF 属性を効率的に抽出する方法

Mary-Kate Olsen
Mary-Kate Olsenオリジナル
2024-10-30 18:36:03854ブラウズ

How to Efficiently Extract HREF Attributes from HTML Using BeautifulSoup?

BeautifulSoup からの HREF の抽出

BeautifulSoup を使用して HTML ドキュメントを操作する場合、href などの特定の属性を抽出することが不可欠な場合があります。この記事では、複数のタグが存在するシナリオでも、href 値を効率的に取得するためのソリューションを提供します。

HREF 取得に find_all を使用する

href 属性を持つタグのみをターゲットにするにはでは、次のように find_all メソッドを使用します。

<code class="python"># Python2
from BeautifulSoup import BeautifulSoup

html = '''<a href="some_url">next</a>
<span class="class"><a href="another_url">later</a></span>'''

soup = BeautifulSoup(html)

for a in soup.find_all('a', href=True):
    print "Found the URL:", a['href']</code>

このアプローチにより、見つかったすべての a タグを反復処理し、その href 値を出力できます。 BeautifulSoup バージョン 4 より前の場合、メソッド名は findAll であったことに注意してください。

HREF を使用してすべてのタグを取得する

href 属性を持つすべてのタグを取得したい場合は、次のコマンドを実行できます。 name パラメータを単純に省略します:

<code class="python">href_tags = soup.find_all(href=True)</code>

以上がBeautifulSoup を使用して HTML から HREF 属性を効率的に抽出する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。