Python 3.x에서 웹 페이지 구문 분석을 위해 Beautiful Soup 모듈을 사용하는 방법
소개:
웹 개발 및 데이터 크롤링 중에 일반적으로 웹 페이지에서 필요한 데이터를 크롤링해야 합니다. 웹페이지의 구조는 더 복잡한 경우가 많으며 정규식을 사용하여 데이터를 찾고 추출하는 것이 어렵고 번거로울 수 있습니다. 이때 Beautiful Soup은 웹 페이지의 데이터를 쉽게 구문 분석하고 추출하는 데 도움이 되는 매우 효과적인 도구가 됩니다.
Beautiful Soup 소개
Beautiful Soup은 HTML 또는 XML 파일에서 데이터를 추출하는 데 사용되는 Python 타사 라이브러리입니다. lxml, html5lib 등과 같은 Python 표준 라이브러리의 HTML 파서를 지원합니다.
먼저 pip를 사용하여 Beautiful Soup 모듈을 설치해야 합니다.
pip install beautifulsoup4
라이브러리 가져오기
설치가 완료된 후 해당 기능을 사용하려면 Beautiful Soup 모듈을 가져와야 합니다. 동시에 웹 콘텐츠를 얻으려면 요청 모듈도 가져와야 합니다.
import requests from bs4 import BeautifulSoup
웹 페이지 콘텐츠를 얻기 위해 HTTP 요청 시작
# 请求页面 url = 'http://www.example.com' response = requests.get(url) # 获取响应内容,并解析为文档树 html = response.text soup = BeautifulSoup(html, 'lxml')
태그 선택기
Beautiful Soup을 사용하여 웹 페이지를 구문 분석하기 전에 먼저 태그 선택 방법을 이해해야 합니다. Beautiful Soup은 간단하고 유연한 태그 선택 방법을 제공합니다.
# 根据标签名选择 soup.select('tagname') # 根据类名选择 soup.select('.classname') # 根据id选择 soup.select('#idname') # 层级选择器 soup.select('father > son')
태그 콘텐츠 가져오기
태그 선택기에 따라 필수 태그를 선택한 후 일련의 방법을 사용하여 태그 콘텐츠를 가져올 수 있습니다. 다음은 일반적으로 사용되는 몇 가지 방법입니다:
# 获取标签文本 tag.text # 获取标签属性值 tag['attribute'] # 获取所有标签内容 tag.get_text()
전체 예제
여기 뷰티플수프를 사용하여 웹페이지를 구문 분석하고 필요한 데이터를 얻는 방법을 보여주는 완전한 예제가 있습니다.
import requests from bs4 import BeautifulSoup # 请求页面 url = 'http://www.example.com' response = requests.get(url) # 获取响应内容,并解析为文档树 html = response.text soup = BeautifulSoup(html, 'lxml') # 选择所需标签 title = soup.select('h1')[0] # 输出标签文本 print(title.text) # 获取所有链接标签 links = soup.select('a') # 输出链接的文本和地址 for link in links: print(link.text, link['href'])
요약:
이 글의 소개를 통해 우리는 Python에서 웹 페이지 구문 분석을 위해 Beautiful Soup 모듈을 사용하는 방법을 배웠습니다. 선택기를 통해 웹 페이지에서 태그를 선택한 다음 해당 방법을 사용하여 태그의 내용과 속성 값을 얻을 수 있습니다. Beautiful Soup은 웹 페이지를 구문 분석하는 편리한 방법을 제공하고 개발 작업을 크게 단순화하는 강력하고 사용하기 쉬운 도구입니다.
위 내용은 Python 3.x에서 beautifulsoup 모듈을 사용하여 웹 페이지를 구문 분석하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!