ホームページ >バックエンド開発 >Python チュートリアル >Python で正規表現を使用してテキストから特定の単語を抽出する方法

Python で正規表現を使用してテキストから特定の単語を抽出する方法

Susan Sarandon
Susan Sarandonオリジナル
2024-11-12 14:45:02810ブラウズ

How to Extract Specific Words from Text Using Regular Expressions in Python?

Python で正規表現を使用してパターン一致を抽出する

Python では、正規表現 (regex) を使用して、文字列と一致させてデータを抽出する強力な方法が提供されます。一般的な使用例の 1 つは、大きなテキスト内の特定の単語やパターンを識別して取得することです。

文字列の例を考えてみましょう:

someline abc
someother line
name my_user_name is valid
some more lines

私たちの目標は、正規表現。

パターンのマッチング

最初のステップは、一致する正規表現パターンを作成することです。希望のパターン。この場合、「name」で始まり、その後に任意の文字列が続き、「is valid」で終わる行と一致させたいと考えています。次の正規表現を使用できます:

"name .* is valid"

ここで、「name」はリテラルの単語「name」に一致し、「.*」は任意の文字シーケンス (スペースを含む) に一致し、「is valid」は文字列に一致します。リテラル文字列。以下に示すように、re.compile() を使用してパターンをコンパイルします。

import re
s = """
someline abc
someother line
name my_user_name is valid
some more lines
"""
p = re.compile("name .* is valid")

これで、コンパイルされたパターンを使用して文字列内の一致を検索できます。 p.match(s) メソッドは、最初に見つかった一致を表すオブジェクトを返します。

ユーザー名の抽出

一致オブジェクトを取得したら、group( ) 方法。括弧内の数字は、取得するキャプチャ グループを指定します。この例では、group(1) で示されるキャプチャ グループが 1 つだけあります。

match = p.match(s)  # finds the first match
print(match.group(1))  # prints "my_user_name"

正規表現と group() メソッドを使用することで、より大きなキーワードから特定の単語やパターンを効率的に抽出できます。テキスト データセット。

以上がPython で正規表現を使用してテキストから特定の単語を抽出する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。