>백엔드 개발 >파이썬 튜토리얼 >Python과 BeautifulSoup을 사용하여 웹페이지에서 하이퍼링크를 어떻게 추출할 수 있나요?

Python과 BeautifulSoup을 사용하여 웹페이지에서 하이퍼링크를 어떻게 추출할 수 있나요?

Linda Hamilton
Linda Hamilton원래의
2024-12-11 11:06:10625검색

How Can I Extract Hyperlinks from a Webpage Using Python and BeautifulSoup?

Python 및 BeautifulSoup을 사용하여 웹 페이지에서 링크 검색

이 문서에서는 웹 페이지에서 링크를 검색하고 해당 URL 주소를 수집하는 방법을 보여줍니다. Python과 BeautifulSoup 사용 library.

문제:

Python을 사용하여 웹페이지에 포함된 링크의 URL을 어떻게 추출합니까?

해결책:

이를 달성하기 위해 다음에서 제공하는 SoupStrainer 클래스를 활용할 수 있습니다. BeautifulSoup. 다음 코드 조각은 프로세스를 예시합니다.

import httplib2
from bs4 import BeautifulSoup, SoupStrainer

http = httplib2.Http()
status, response = http.request('http://www.nytimes.com')

for link in BeautifulSoup(response, 'html.parser', parse_only=SoupStrainer('a')):
    if link.has_attr('href'):
        print(link['href'])

이 코드는 지정된 웹페이지(예제에서는 'http://www.nytimes.com')에 대한 연결을 설정합니다. BeautifulSoup을 사용하여 HTML 응답을 구문 분석하고 페이지 내의 'a' 태그(링크를 나타냄)에 초점을 맞춘 SoupStrainer('a') 필터를 적용합니다. 발견된 각 링크에 대해 코드는 실제 URL 주소가 포함된 'href' 속성을 검색합니다.

위 내용은 Python과 BeautifulSoup을 사용하여 웹페이지에서 하이퍼링크를 어떻게 추출할 수 있나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.