ホームページ >バックエンド開発 >Python チュートリアル >BeautifulSoup を使用して HTML から HREF 属性を効率的に抽出する方法
BeautifulSoup からの HREF の抽出
BeautifulSoup を使用して HTML ドキュメントを操作する場合、href などの特定の属性を抽出することが不可欠な場合があります。この記事では、複数のタグが存在するシナリオでも、href 値を効率的に取得するためのソリューションを提供します。
HREF 取得に find_all を使用する
href 属性を持つタグのみをターゲットにするにはでは、次のように find_all メソッドを使用します。
<code class="python"># Python2 from BeautifulSoup import BeautifulSoup html = '''<a href="some_url">next</a> <span class="class"><a href="another_url">later</a></span>''' soup = BeautifulSoup(html) for a in soup.find_all('a', href=True): print "Found the URL:", a['href']</code>
このアプローチにより、見つかったすべての a タグを反復処理し、その href 値を出力できます。 BeautifulSoup バージョン 4 より前の場合、メソッド名は findAll であったことに注意してください。
HREF を使用してすべてのタグを取得する
href 属性を持つすべてのタグを取得したい場合は、次のコマンドを実行できます。 name パラメータを単純に省略します:
<code class="python">href_tags = soup.find_all(href=True)</code>
以上がBeautifulSoup を使用して HTML から HREF 属性を効率的に抽出する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。