ホームページ >バックエンド開発 >Python チュートリアル >バックエンド開発に Python 正規表現を使用する方法
バックエンド開発では、データ処理と情報抽出が非常に重要です。正規表現は、バックエンド開発をより効率的に行うのに役立つ強力なデータ処理および情報抽出ツールです。この記事では、バックエンド開発で Python 正規表現を使用する方法を紹介します。
1. 正規表現の基礎知識
正規表現 (正規表現とも呼ばれる) は、文字パターンを記述するためのツールです。大量のテキスト データを迅速に分析するのに役立ちます。必要な情報を正確に照合します。 。
正規表現は通常、文字、演算子、メタキャラクタで構成されます。特殊文字とメタキャラクタは、文字の種類または一致ルールの種類を表すことができます。以下は、一般的な正規表現メタ文字のリストです。
メタ文字 | 一致する文字 | ||
---|---|---|---|
##エスケープ文字 | |||
改行文字を除く任意の文字と一致します | |||
文字列の先頭と一致します | |||
文字列の末尾と一致します | |||
文字セット | |||
非文字セット | |||
前の文字と 0 回以上一致します | |||
前の文字と 1 回以上一致します | |||
前の文字と 0 回または 1 回一致します | |||
前の文字と指定された回数一致します | |||
の左または右の式と一致します。括弧内の一致表現は、キャプチャ グループも表します |
re モジュールは Python に組み込まれており、完全な正規表現を提供します。式のサポート、データ処理、情報抽出を簡単に実行できます。
文字列内の数値の照合import re text = "John has 2 apples, and Jane has 3 oranges." result = re.findall(r'd+', text) print(result)
出力結果は次のとおりです。 :
['2', '3']電子メール アドレスの一致
import re text = "My email address is john@example.com." result = re.findall(r'[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+.[A-Za-z]{2,}', text) print(result)
出力結果は次のとおりです:
['john@example.com']ハイパーリンクと一致しますHTML
import re html = """ <a href="https://www.google.com">Google</a>, <a href="https://www.baidu.com">Baidu</a>, <a href="https://www.sogou.com">Sogou</a>, """ result = re.findall(r'<a[^>]+href="(.*?)"[^>]*>', html) print(result)出力結果は次のとおりです:
['https://www.google.com', 'https://www.baidu.com', 'https://www.sogou.com']3. 正規表現の最適化スキル正規表現は非常に強力ですが、しかし、ビッグデータ処理や複雑なマッチングとなると、効率が比較的低くなる可能性があります。したがって、より高速なマッチング速度を実現するには、正規表現の記述方法を最適化する必要があります。
文字のグループを照合する場合は、文字セット [] を使用して指定した文字を置き換えます。
貪欲モードの使用を避ける
の後に ? を追加し、re.findall(r'he.?l', text) などの遅延モードを使用します。 生の文字列を使用する
以上がバックエンド開発に Python 正規表現を使用する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。