>백엔드 개발 >파이썬 튜토리얼 >Python 정규식을 사용하여 문자열에서 HTML 태그를 제거하는 방법은 무엇입니까?

Python 정규식을 사용하여 문자열에서 HTML 태그를 제거하는 방법은 무엇입니까?

Patricia Arquette
Patricia Arquette원래의
2024-12-22 19:08:15919검색

How to Remove HTML Tags from a String Using Python Regular Expressions?

Python에서 정규 표현식으로 문자열 대체

질문:

HTML을 어떻게 바꿀 수 있나요? 정규식을 사용하여 문자열 내의 태그 Python?

입력:

this is a paragraph with<[1]> in between</[1]> and then there are cases ... where the<[99]> number ranges from 1-100</[99]>.
and there are many other lines in the txt files
with<[3]> such tags </[3]>

원하는 출력:

this is a paragraph with in between and then there are cases ... where the number ranges from 1-100.
and there are many other lines in the txt files
with such tags

해결책:

정규 표현식을 사용하여 여러 태그를 바꾸려면 Python에서는 다음 단계를 따르세요.

import re

line = re.sub(r"<\/?\[\d+>]", "", line)

설명:

정규식 r""]는 시작하는 모든 태그와 일치합니다. <로 시작하고 그 뒤에 임의의 숫자가 오고 >로 끝납니다. 물음표 문자 ? / 뒤는 슬래시가 선택 사항임을 나타냅니다. sub 함수는 각 일치 항목을 빈 문자열로 대체합니다.

설명 버전:

line = re.sub(r"""
  (?x) # Use free-spacing mode.
  <    # Match a literal '<'
  /?   # Optionally match a '/'
  \[   # Match a literal '['
  \d+  # Match one or more digits
  >    # Match a literal '>'
""", "", line)

추가 참고 사항:

  • 정규 표현식은 복잡할 수 있으므로 다음과 같은 도구를 사용하는 것이 좋습니다. www.regular-expressions.info에서 구문에 대해 알아보고 표현식을 테스트하세요.
  • 1부터 99까지 바꿀 숫자 범위를 하드 코딩하지 마세요.
  • 정규 표현식의 특수 문자 이해 메타문자로 알려져 있습니다.

위 내용은 Python 정규식을 사용하여 문자열에서 HTML 태그를 제거하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
이전 기사:PyTorch의 OxfordIIITPet다음 기사:PyTorch의 OxfordIIITPet