ホームページ >バックエンド開発 >Python チュートリアル >Python 正規表現を使用して文字列から HTML タグを削除する方法

Python 正規表現を使用して文字列から HTML タグを削除する方法

Patricia Arquette
Patricia Arquetteオリジナル
2024-12-22 19:08:15977ブラウズ

How to Remove HTML Tags from a String Using Python Regular Expressions?

Python での正規表現による文字列置換

質問:

HTML を置換するにはどうすればよいですか?正規表現を使用した文字列内のタグPython?

入力:

this is a paragraph with<[1]> in between</[1]> and then there are cases ... where the<[99]> number ranges from 1-100</[99]>.
and there are many other lines in the txt files
with<[3]> such tags </[3]>

必要な出力:

this is a paragraph with in between and then there are cases ... where the number ranges from 1-100.
and there are many other lines in the txt files
with such tags

解決策:

正規表現を使用して複数のタグを置換するにはPython では、次の手順に従います。

import re

line = re.sub(r"<\/?\[\d+>]", "", line)

説明:

正規表現 r""] は、で始まるタグと一致します。 < の後に任意の桁数が続き、> で終わります。疑問符文字 ? / の後は、スラッシュがオプションであることを示します。サブ関数は、各一致を空の文字列に置き換えます。

コメント付きバージョン:

line = re.sub(r"""
  (?x) # Use free-spacing mode.
  <    # Match a literal '<'
  /?   # Optionally match a '/'
  \[   # Match a literal '['
  \d+  # Match one or more digits
  >    # Match a literal '>'
""", "", line)

追加メモ:

  • 正規表現は複雑になる場合があるため、www.正規表現.info などのツールを使用することをお勧めします。構文について学び、式をテストします。
  • 1 から 99 までの置換される数値範囲をハードコーディングすることは避けてください。
  • メタキャラクタとして知られる正規表現の特殊文字を理解してください。

以上がPython 正規表現を使用して文字列から HTML タグを削除する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。