ホームページ  >  記事  >  バックエンド開発  >  Python で BeautifulSoup を使用して「href」属性を抽出する方法は?

Python で BeautifulSoup を使用して「href」属性を抽出する方法は?

DDD
DDDオリジナル
2024-10-28 21:42:02111ブラウズ

How to extract

BeautifulSoup を使用した HREF 属性の抽出

このシナリオでは、次の HTML コンテンツから "some_url" href 属性を抽出します。

<code class="html"><a href="some_url">next</a>
<span class="class">...</span></code>

BeautifulSoup の find_all() メソッドの利用

この特定の属性を取得するには、次のように find_all() メソッドを使用します。

<code class="python">from bs4 import BeautifulSoup

html = '''<a href="some_url">next</a>
<span class="class"><a href="another_url">later</a></span>'''

soup = BeautifulSoup(html)

for a in soup.find_all('a', href=True):
    print("Found the URL:", a['href'])</code>

Python 2 から Python 3 への互換性

このコードは Python 2 と Python 3 の両方で動作することに注意してください。ただし、BeautifulSoup の古いバージョン (バージョン 4 より前) では、find_all() メソッドが

HREF 属性を持つすべてのタグを取得する

タグ名に関係なく、href 属性を持つすべてのタグを取得したい場合は、単純にタグ名パラメータ:

<code class="python">href_tags = soup.find_all(href=True)</code>

以上がPython で BeautifulSoup を使用して「href」属性を抽出する方法は?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。