ホームページ >バックエンド開発 >Python チュートリアル >Python 正規表現 re モジュールの概要

Python 正規表現 re モジュールの概要

高洛峰オリジナル: 2017-03-17 17:44:051432ブラウズ

はじめに

正規表現(正規表現)は、テキストの断片を一致させることができるパターンです。最も単純な正規表現は、それ自体と一致する通常の string です。たとえば、正規表現「hello」は文字列「hello」と一致します。

正規表現はプログラムではなく、文字列を処理するためのパターンであることに注意してください。これを使用して文字列を処理したい場合は、Linux awk、sed、grep などの正規表現をサポートするツールを使用する必要があります。、またはプログラミング言語 Perl、Python、Java など。

正規表現にはさまざまな種類があり、以下の表に、Python や Perl などのプログラミング言語に適用されるものをリストします。メタ文字の説明を示します:

Python 正規表現 re モジュールの概要

モジュール

Python では、正規表現組み込みの re モジュールを使用して式を使用できます。

特別な注意が必要な点の 1 つは、正規表現の使用が文字对特殊字符进行转义，比如，为了匹配字符串 ‘python.org’，我们需要使用正则表达式 'python.org'，而 Python 的字符串本身也用转义，所以上面的正则表达式在 Python 中应该写成 'python\.org'，这会很容易陷入的困扰中，因此，我们建议使用 Python 的原始字符串，只需加一个 r 前缀，上面的正则表达式可以写成：

r&#39;python\.org&#39;

re 模块提供了不少有用的函数，用以匹配字符串，比如：

compile 函数
match 函数
search 函数
findall 函数
finditer 函数
split 函数
sub 函数
subn 函数

re 模块的一般使用步骤如下：

使用 compile 函数将正则表达式的字符串形式编译为一个 Pattern 对象
通过 Pattern 对象提供的一系列方法对文本进行匹配查找，获得匹配结果（一个 Match 对象）
最后使用 Match 对象提供的属性和方法获得信息，根据需要进行其他的操作

compile 函数

compile 函数用于编译正则表达式，生成一个 Pattern 对象，它的一般使用形式如下：

re.compile(pattern[, flag])

其中，pattern 是一个字符串形式的正则表达式，flag 是一个可选参数，表示匹配模式，比如忽略大小写，多行模式等。

下面，让我们看看例子。

import re

# 将正则表达式编译成 Pattern 对象 
pattern = re.compile(r&#39;\d+&#39;)

在上面，我们已将一个正则表达式编译成 Pattern 对象，接下来，我们就可以利用 pattern 的一系列方法对文本进行匹配查找了。Pattern 对象的一些常用方法主要有：

match 方法
search 方法
findall 方法
finditer 方法
split 方法
sub 方法
subn 方法

match 方法

match 方法用于查找字符串的头部（也可以指定起始位置），它是一次匹配，只要找到了一个匹配的结果就返回，而不是查找所有匹配的结果。它的一般使用形式如下：

match(string[, pos[, endpos]])

其中，string 是待匹配的字符串，pos 和 endpos 是可选参数，指定字符串的起始和终点位置，默认值分别是 0 和 len (字符串长度)。因此，当你不指定 pos 和 endpos 时，match 方法默认匹配字符串的头部。

当匹配成功时，返回一个 Match 对象，如果没有匹配上，则返回 None。

看看例子。

>>> import re
>>> pattern = re.compile(r&#39;\d+&#39;)                    # 用于匹配至少一个数字
>>> m = pattern.match(&#39;one12twothree34four&#39;)        # 查找头部，没有匹配
>>> print m
None
>>> m = pattern.match(&#39;one12twothree34four&#39;, 2, 10) # 从&#39;e&#39;的位置开始匹配，没有匹配
>>> print m
None
>>> m = pattern.match(&#39;one12twothree34four&#39;, 3, 10) # 从&#39;1&#39;的位置开始匹配，正好匹配
>>> print m                                         # 返回一个 Match 对象
<_sre.SRE_Match object at 0x10a42aac0>
>>> m.group(0)   # 可省略 0
&#39;12&#39;
>>> m.start(0)   # 可省略 0
3
>>> m.end(0)     # 可省略 0
5
>>> m.span(0)    # 可省略 0
(3, 5)

在上面，当匹配成功时返回一个 Match 对象，其中：

group([group1, …]) 方法用于获得一个或多个分组匹配的字符串，当要获得整个匹配的子串时，可直接使用 group() 或 group(0) はエスケープされます。たとえば、文字列 'python.org' と一致するには、正規表現 'python.org' を使用する必要があり、Python 文字列自体も code> はエスケープするため、上記の正規表現は Python では <code>'python\.org' として記述する必要があります。これはの問題に陥りやすくなります。したがって、Python の生の文字列を使用することをお勧めします。r プレフィックスを追加するだけです。上記の正規表現は次のように記述できます:
```
>>> import re
>>> pattern = re.compile(r&#39;([a-z]+) ([a-z]+)&#39;, re.I)   # re.I 表示忽略大小写
>>> m = pattern.match(&#39;Hello World Wide Web&#39;)
>>> print m                               # 匹配成功，返回一个 Match 对象
<_sre.SRE_Match object at 0x10bea83e8>
>>> m.group(0)                            # 返回匹配成功的整个子串
&#39;Hello World&#39;
>>> m.span(0)                             # 返回匹配成功的整个子串的索引
(0, 11)
>>> m.group(1)                            # 返回第一个分组匹配成功的子串
&#39;Hello&#39;
>>> m.span(1)                             # 返回第一个分组匹配成功的子串的索引
(0, 5)
>>> m.group(2)                            # 返回第二个分组匹配成功的子串
&#39;World&#39;
>>> m.span(2)                             # 返回第二个分组匹配成功的子串
(6, 11)
>>> m.groups()                            # 等价于 (m.group(1), m.group(2), ...)
(&#39;Hello&#39;, &#39;World&#39;)
>>> m.group(3)                            # 不存在第三个分组
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
IndexError: no such group
```
🎜re このモジュールには、多くの便利な
関数 🎜。次のような文字列の一致に使用されます。 🎜
- 🎜コンパイル関数 🎜
- 🎜 match 関数🎜
- 🎜search 関数🎜
- 🎜findall 関数🎜
- 🎜finditer 関数🎜
- 🎜split 関数🎜
- 🎜sub 関数🎜
- 🎜subn 関数🎜
🎜re モジュールを使用するための一般的な手順は次のとおりです: 🎜
- 🎜コンパイル関数を使用して、正規表現の文字列形式を Pattern オブジェクトにコンパイルします🎜
- 🎜Pattern オブジェクトによって提供される一連のメソッドを使用して、テキストを照合し、マッチング結果 (Match オブジェクト) 🎜
- 🎜 最後に、Match オブジェクトによって提供されるプロパティとメソッドを使用して情報を取得し、必要に応じて他の操作を実行します🎜
🎜compile 関数🎜🎜🎜compile関数は正規表現をコンパイルし、Patternオブジェクトを生成するために使用されます🎜、その一般的な使用形式は次のとおりです: 🎜
```
search(string[, pos[, endpos]])
```
🎜 このうち、patternは文字列形式の正規表現であり、flagはオプションのパラメータです。、大文字と小文字の区別、複数行モードなどの一致パターンを示します。 🎜🎜それでは、例を見てみましょう。 🎜
```
>>> import re
>>> pattern = re.compile(&#39;\d+&#39;)
>>> m = pattern.search(&#39;one12twothree34four&#39;)  # 这里如果使用 match 方法则不匹配
>>> m
<_sre.SRE_Match object at 0x10cc03ac0>
>>> m.group()
&#39;12&#39;
>>> m = pattern.search(&#39;one12twothree34four&#39;, 10, 30)  # 指定字符串区间
>>> m
<_sre.SRE_Match object at 0x10cc03b28>
>>> m.group()
&#39;34&#39;
>>> m.span()
(13, 15)
```
🎜 上記では、正規表現を Pattern オブジェクトにコンパイルしました。次に、一連のパターンのメソッドを使用してテキストを照合します。 Pattern オブジェクトの一般的なメソッドには次のようなものがあります: 🎜
- 🎜match メソッド🎜
- 🎜search メソッド🎜
- 🎜findall メソッド 🎜
- 🎜finder メソッド🎜
- 🎜split メソッド🎜
- 🎜sub メソッド🎜
- 🎜subn メソッド🎜

以上がPython 正規表現 re モジュールの概要の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：Python 同時プログラミングにおけるスレッドプール/プロセスプールの詳細な紹介次の記事：Python 同時プログラミングにおけるスレッドプール/プロセスプールの詳細な紹介

続きを見る

Python 正規表現 re モジュールの概要

はじめに

モジュール

compile 函数

match 方法

match メソッド

search 方法

findall 方法

finditer 方法

split 方法

sub 方法

subn 方法

其他函数

match 函数

search 函数

findall 函数

finditer 函数

split 函数

sub 函数

subn 函数

到底用哪种方式

匹配中文

贪婪匹配

小结

関連記事