BeautifulSoup を使用して HTML から Href を抽出する
Web スクレイピングでは、HTML から特定の情報を抽出するのが一般的なタスクです。このような情報の 1 つは、アンカー タグ () の href 属性です。 BeautifulSoup は広く使用されている Python ライブラリで、HTML をナビゲートして必要な要素を取得するためのさまざまなメソッドを提供します。
<code class="python">from bs4 import BeautifulSoup html = '''<a href="some_url">next</a> <span class="class"><a href="another_url">later</a></span>''' soup = BeautifulSoup(html) for a in soup.find_all('a', href=True): print("Found the URL:", a['href'])<p>find_all メソッドは、検索するタグ名と、フィルターに使用するオプションの属性の辞書という 2 つの引数を取ります。この場合、href 属性を持つ 'a' タグを検索し、一致した各タグの href 属性の値を出力します。</p> <p>BeautifulSoup の古いバージョンの場合、メソッド名は 'findAll' です。 </p> <p>名前に関係なく、href 属性を持つすべてのタグを抽出したい場合は、タグ名パラメーターを省略できることに注意してください。</p> <pre class="brush:php;toolbar:false"><code class="python">href_tags = soup.find_all(href=True)</code>
これは、 href 属性を持つ HTML 内のすべてのタグのリストを返します。
以上がBeautifulSoup を使用して HTML から href 属性を抽出するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。