ホームページ >バックエンド開発 >Python チュートリアル >BeautifulSoupを使用してネストされたHTML要素から「href」属性を抽出する方法

BeautifulSoupを使用してネストされたHTML要素から「href」属性を抽出する方法

Linda Hamilton
Linda Hamiltonオリジナル
2024-10-28 17:52:29983ブラウズ

How to Extract 'href' Attributes from Nested HTML Elements Using BeautifulSoup?

BeautifulSoup を使用して 'href' 属性を抽出する方法

HTML データを操作する場合、'href' 属性などの特定の情報を取得することが重要になる場合があります。 。この場合、2 つのタグがあり、1 つはネストされた要素を持ち、目標は、テキストの内容を無視して、'a' タグから 'href' 属性を抽出することです。

BeautifulSoup を使用してこれを達成するには、次のようにします。 「find_all」メソッドを使用できます。この方法を使用すると、属性などのさまざまな基準に基づいてタグを検索できます。コードは次のとおりです。

from bs4 import BeautifulSoup

html = '''<a href="some_url">next</a>
<span class="class"><a href="another_url">later</a></span>'''

soup = BeautifulSoup(html)

for a in soup.find_all('a', href=True):
    print("Found the URL:", a['href'])

このコードは、「href」属性を持つすべての「a」タグを反復処理し、各タグの「href」属性の値を出力します。出力は次のようになります:

Found the URL: some_url
Found the URL: another_url

また、名前に関係なく、「href」属性を持つすべてのタグを取得したい場合は、次のメソッドを使用できます:

href_tags = soup.find_all(href=True)

このメソッドHTML ドキュメント内の「href」属性を持つすべてのタグのリストを返します。

以上がBeautifulSoupを使用してネストされたHTML要素から「href」属性を抽出する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。