>백엔드 개발 >파이썬 튜토리얼 >BeautifulSoup을 사용하여 HTML에서 href 속성을 어떻게 추출할 수 있나요?

BeautifulSoup을 사용하여 HTML에서 href 속성을 어떻게 추출할 수 있나요?

Linda Hamilton
Linda Hamilton원래의
2024-10-29 11:51:02733검색

How can I extract href attributes from HTML using BeautifulSoup?

BeautifulSoup을 사용하여 HTML에서 Href 추출

웹 스크래핑에서는 HTML에서 특정 정보를 추출하는 것이 일반적인 작업입니다. 그러한 정보 중 하나는 앵커 태그()의 href 속성일 수 있습니다. 널리 사용되는 Python 라이브러리인 BeautifulSoup은 HTML을 탐색하고 원하는 요소를 검색하는 다양한 방법을 제공합니다.

<code class="python">from bs4 import BeautifulSoup

html = '''<a href="some_url">next</a>
<span class="class"><a href="another_url">later</a></span>'''

soup = BeautifulSoup(html)

for a in soup.find_all('a', href=True):
    print("Found the URL:", a['href'])<p>find_all 메소드는 두 가지 인수, 즉 검색할 태그 이름과 필터링할 선택적 속성 사전을 사용합니다. 이 경우 href 속성을 사용하여 'a' 태그를 검색한 다음 일치하는 각 태그에 대한 href 속성 값을 인쇄합니다.</p>
<p>이전 버전의 BeautifulSoup의 경우 메소드 이름은 'findAll'입니다. 'find_all' 대신.</p>
<p>이름에 관계없이 href 속성이 있는 모든 태그를 추출하려면 태그 이름 매개변수를 생략할 수 있습니다.</p>
<pre class="brush:php;toolbar:false"><code class="python">href_tags = soup.find_all(href=True)</code>

이렇게 하면 href 속성을 사용하여 HTML의 모든 태그 목록을 반환합니다.

위 내용은 BeautifulSoup을 사용하여 HTML에서 href 속성을 어떻게 추출할 수 있나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.