Python에서 XPath 표현식 사용
XPath는 XML 및 HTML 문서에서 탐색 및 검색에 사용되는 언어로 데이터 스크래핑, 웹 자동화 테스트, 텍스트 추출 및 기타 분야에서 널리 사용됩니다. Python에서는 lxml 라이브러리를 사용하여 XML 및 HTML 문서를 구문 분석하고 XPath 표현식을 사용하여 필요한 데이터를 찾고 추출할 수 있습니다.
pip install lxml
from lxml import etree
parser = etree.HTMLParser()
tree = etree.parse('example.html', parser)
xpath_expr = '//a'
nodes = tree.xpath(xpath_expr)
texts = [node.text for node in nodes] print(texts)
다음은 HTML 문서에서 모든 링크를 추출하는 방법을 보여주는 완전한 샘플 코드입니다.
from lxml import etree parser = etree.HTMLParser() tree = etree.parse('example.html', parser) xpath_expr = '//a' nodes = tree.xpath(xpath_expr) links = [node.get('href') for node in nodes] print(links)
위 내용은 다음에서 사용됩니다. XPath 표현식의 Python 기본 사용법. XPath 구문을 익히고 lxml 라이브러리를 사용함으로써 XML 및 HTML 문서에서 데이터를 쉽게 구문 분석하고 추출할 수 있으며 데이터 분석 및 웹 크롤링과 같은 작업을 위한 강력한 도구를 제공합니다.
이 기사가 Python의 XPath 표현식을 이해하고 사용하는 데 도움이 되기를 바랍니다. 데이터 처리 및 웹 개발의 성공을 기원합니다!
위 내용은 Python의 XPath 표현식 사용법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!