ホームページ  >  記事  >  バックエンド開発  >  BeautifulSoup を使用して HTML から href 属性を抽出するにはどうすればよいですか?

BeautifulSoup を使用して HTML から href 属性を抽出するにはどうすればよいですか?

Linda Hamilton
Linda Hamiltonオリジナル
2024-10-29 11:51:02693ブラウズ

How can I extract href attributes from HTML using BeautifulSoup?

BeautifulSoup を使用して HTML から Href を抽出する

Web スクレイピングでは、HTML から特定の情報を抽出するのが一般的なタスクです。このような情報の 1 つは、アンカー タグ () の href 属性です。 BeautifulSoup は広く使用されている Python ライブラリで、HTML をナビゲートして必要な要素を取得するためのさまざまなメソッドを提供します。

などの複数のタグを含む HTML から href を抽出する必要がある状況を考えてみましょう。 ;タグ。 BeautifulSoup を使用すると、find_all メソッドを使用して、href 属性を持つすべてのタグを見つけることができます。

<code class="python">from bs4 import BeautifulSoup

html = '''<a href="some_url">next</a>
<span class="class"><a href="another_url">later</a></span>'''

soup = BeautifulSoup(html)

for a in soup.find_all('a', href=True):
    print("Found the URL:", a['href'])<p>find_all メソッドは、検索するタグ名と、フィルターに使用するオプションの属性の辞書という 2 つの引数を取ります。この場合、href 属性を持つ 'a' タグを検索し、一致した各タグの href 属性の値を出力します。</p>
<p>BeautifulSoup の古いバージョンの場合、メソッド名は 'findAll' です。 </p>
<p>名前に関係なく、href 属性を持つすべてのタグを抽出したい場合は、タグ名パラメーターを省略できることに注意してください。</p>
<pre class="brush:php;toolbar:false"><code class="python">href_tags = soup.find_all(href=True)</code>

これは、 href 属性を持つ HTML 内のすべてのタグのリストを返します。

以上がBeautifulSoup を使用して HTML から href 属性を抽出するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。