Maison >développement back-end >Tutoriel Python >Explication détaillée de la syntaxe des expressions régulières Python avec des exemples
Dans l'article précédent, nous avons donné une introduction générale aux expressions régulières Python. En fait, expression régulière est une séquence de caractères spéciaux qui peut vous aider à vérifier facilement si une chaîne correspond à un modèle. Python a ajouté le module re depuis la version 1.5, qui fournit des modèles d'expressions régulières de style Perl. Le module re apporte toutes les fonctionnalités d'expression régulière au langage Python. La fonction de compilation génère un objet d'expression régulière basé sur une chaîne de modèle et des arguments d'indicateur facultatifs. Cet objet dispose d'une série de méthodes pour la correspondance et le remplacement des expressions régulières. Le module re fournit également des fonctions qui sont exactement les mêmes que ces méthodes. Ces fonctions utilisent une chaîne de modèle comme premier paramètre. Ce chapitre présente principalement les fonctions de traitement expression régulière couramment utilisées en Python.
String est la structure de données la plus impliquée dans la programmation, et la nécessité d'opérer sur String est presque partout. Par exemple, pour déterminer si une chaîne est une adresse e-mail légale, bien que vous puissiez programmer pour extraire les sous-chaînes avant et après @, puis déterminer séparément s'il s'agit d'un mot et d'un nom de domaine, mais ce n'est pas seulement gênant, mais le code est également difficile à réutiliser.
L'expression régulière est une arme puissante pour faire correspondre les chaînes. Son idée de conception est d'utiliser un langage descriptif pour définir une règle pour une chaîne. Toute chaîne conforme à la règle est considérée comme « correspondante ».
Donc, la façon dont nous déterminons si une chaîne est un e-mail légal est la suivante :
1. Créez une expression régulière qui correspond à Email
2. faites correspondre les entrées de l'utilisateur pour déterminer si elles sont légales.
Étant donné que les expressions régulières sont également représentées par des chaînes, nous devons d'abord comprendre comment utiliser les caractères pour décrire les caractères.
Dans les expressions régulières, si les caractères sont donnés directement, c'est une correspondance exacte. Utilisez d pour correspondre à un nombre et w pour correspondre à une lettre ou à un chiffre, donc :
1. peut correspondre à "007", mais pas à "00A" ; ddd' peut correspondre à '010' ;
3. 'wwd' peut correspondre à 'py3' ;
peut correspondre à n'importe quel caractère, donc :
5.'py. ' peut correspondre à 'pyc', 'pyo', 'py!', etc.
Pour faire correspondre des caractères de longueur variable, dans la formule
expression régulière, utilisez * pour représenter n'importe quel nombre de caractères (y compris 0), + pour représenter au moins un caractère et ? 0 ou 1 caractère, utilisez {n} pour représenter n caractères, utilisez {n,m} pour représenter n-m caractères : Regardons un exemple complexe : d{3}s+d{3,8} .
Interprétons-le de gauche à droite :
1.d{3} signifie correspondre à 3 nombres, tels que « 010 »
2.s peut correspondre à un espace ; (y compris les tabulations et autres caractères d'espacement), donc s+ signifie qu'il y a au moins un espace, comme la correspondance ' ', ' ', etc.
3.d{3,8} signifie 3 à 8 nombres ; , tel que « 1234567 ».
Ensemble, l'expression régulière ci-dessus peut faire correspondre des numéros de téléphone avec des indicatifs régionaux séparés par un nombre quelconque d'espaces.
Et si vous souhaitez faire correspondre un numéro tel que « 010-12345 » ? Puisque '-' est un caractère spécial, il doit être échappé avec ''' dans les expressions régulières. Par conséquent, l'expression régulière ci-dessus est d{3}-d{3,8}.
Cependant, '010 - 12345' ne peut toujours pas correspondre à cause des espaces. Nous avons donc besoin de méthodes de correspondance plus complexes.
AvancéPour faire correspondre plus précisément, vous pouvez utiliser [] pour représenter la plage, par exemple :
1 . [0-9a-zA-Z_] peut correspondre à un chiffre, une lettre ou un trait de soulignement ;
2 [0-9a-zA-Z_]+ peut correspondre à une chaîne composée d'au moins un chiffre, une lettre ou un trait de soulignement ; soulignement , tel que 'a100', '0_Z', 'Py3000', etc. ;
3.[a-zA-Z_][0-9a-zA-Z_]* peut correspondre en commençant par une lettre ou un trait de soulignement, suivi de Recevoir toute chaîne composée d'un chiffre, d'une lettre ou d'un trait de soulignement, qui est une variable légale en Python
4.[a-zA-Z_][0-9a-zA-Z_]{ 0, 19 } Limite plus précisément la longueur de la variable à 1-20 caractères (1 caractère devant + jusqu'à 19 caractères derrière).
A|B peut correspondre à A ou B, donc (P|p)ython peut correspondre à 'Python' ou 'python'.
^ signifie le début de la ligne, ^d signifie qu'elle doit commencer par un nombre.
$ indique la fin de la ligne, et d$ indique qu'elle doit se terminer par un chiffre.
Vous avez peut-être remarqué que py peut également correspondre à 'python', mais l'ajout de ^py$ correspondra à la ligne entière, et il ne peut correspondre qu'à 'py'.
re module
有了准备知识,我们就可以在Python中使用正则表达式了。Python提供re模块,包含所有正则表达式的功能。由于Python的字符串本身也用\转义,所以要特别注意:
s = 'ABC\\-001' # Python的字符串 # 对应的正则表达式字符串变成: # 'ABC\-001'
因此我们强烈建议使用Python的r前缀,就不用考虑转义的问题了:
s = r'ABC\-001' # Python的字符串 # 对应的正则表达式字符串不变: # 'ABC\-001'
先看看如何判断正则表达式是否匹配:
>>> import re >>> re.match(r'^\d{3}\-\d{3,8}$', '010-12345') <_sre.SRE_Match object; span=(0, 9), match='010-12345' >>>> re.match(r'^\d{3}\-\d{3,8}$', '010 12345') >>>
match()方法判断是否匹配,如果匹配成功,返回一个Match对象,否则返回None。常见的判断方法就是:
test = '用户输入的字符串' if re.match(r'正则表达式', test): print('ok') else: print('failed')
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!