Heim > Artikel > Backend-Entwicklung > Detaillierte Erläuterung der Syntax regulärer Python-Ausdrücke mit Beispielen
Im vorherigen Artikel haben wir eine allgemeine Einführung in reguläre Python-Ausdrücke gegeben. Tatsächlich ist regulärer Ausdruck eine spezielle Zeichenfolge, mit deren Hilfe Sie leicht überprüfen können, ob eine Zeichenfolge mit einem Muster übereinstimmt. Python hat seit Version 1.5 das re-Modul hinzugefügt, das Muster für reguläre Ausdrücke im Perl-Stil bereitstellt. Das re-Modul erweitert die Python-Sprache um die volle Funktionalität regulärer Ausdrücke. Die Kompilierungsfunktion generiert ein reguläres Ausdrucksobjekt basierend auf einer Musterzeichenfolge und optionalen Flag-Argumenten. Dieses Objekt verfügt über eine Reihe von Methoden zum Abgleichen und Ersetzen regulärer Ausdrücke. Das re-Modul stellt auch Funktionen bereit, die genau mit diesen Methoden identisch sind. Diese Funktionen verwenden eine Musterzeichenfolge als ersten Parameter. In diesem Kapitel werden hauptsächlich die häufig verwendeten Verarbeitungsfunktionen für reguläre Ausdrücke vorgestellt.
String ist die am meisten aufwendige Datenstruktur in der Programmierung, und die Notwendigkeit, mit String zu arbeiten, ist fast überall vorhanden. Um beispielsweise festzustellen, ob eine Zeichenfolge eine legale E-Mail-Adresse ist, können Sie auch so programmieren, dass die Teilzeichenfolgen vor und nach @ extrahiert werden, und dann separat ermittelt werden, ob es sich um ein Wort und ein a handelt Dies ist jedoch nicht nur problematisch, sondern es ist auch schwierig, den Code wiederzuverwenden.
Reguläre Ausdrücke sind eine leistungsstarke Waffe zum Abgleichen von Zeichenfolgen. Seine Entwurfsidee besteht darin, eine beschreibende Sprache zu verwenden, um eine Regel für eine Zeichenfolge zu definieren. Jede Zeichenfolge, die der Regel entspricht, gilt als „übereinstimmend“.
So beurteilen wir, ob eine Zeichenfolge eine gültige E-Mail ist:
1 Erstellen Sie einen regulären Ausdruck, der mit E-Mail übereinstimmt.
2 Vergleichen Sie die Eingabe des Benutzers, um festzustellen, ob sie zulässig ist.
Da reguläre Ausdrücke auch durch Zeichenfolgen dargestellt werden, müssen wir zunächst verstehen, wie Zeichen zur Beschreibung von Zeichen verwendet werden.
Wenn in regulären Ausdrücken Zeichen direkt angegeben werden, handelt es sich um eine exakte Übereinstimmung. Verwenden Sie d, um eine Zahl zu finden, und w, um einen Buchstaben oder eine Zahl zu finden, also:
1 kann mit „007“ übereinstimmen, aber nicht mit „00A“; ddd' kann mit '010' übereinstimmen; 'wwd' kann mit 'py3' übereinstimmen, also:
. ' kann mit 'pyc', 'pyo', 'py!' usw. übereinstimmen.
Um Zeichen variabler Länge zuzuordnen, verwenden Sie in der Formel
regulärer Ausdruck* zur Darstellung einer beliebigen Anzahl von Zeichen (einschließlich 0), + zur Darstellung von mindestens einem Zeichen und ? zur Darstellung 0 oder 1 Zeichen, verwenden Sie {n}, um n Zeichen darzustellen, verwenden Sie {n,m}, um n-m Zeichen darzustellen:
Schauen wir uns ein komplexes Beispiel an: d{3}s+d{3,8} .
Interpretieren wir es von links nach rechts: 1.d{3} bedeutet, dass 3 Zahlen übereinstimmen, z. B. „010“;
2.s kann mit einem Leerzeichen übereinstimmen (einschließlich Tabulatorzeichen und anderen Leerzeichen), also bedeutet s+, dass mindestens ein Leerzeichen vorhanden ist, z. B. passend zu „“, „“ usw.;
3.d{3,8} bedeutet 3-8 Zahlen , wie zum Beispiel „1234567“.
Zusammengenommen kann der obige reguläre Ausdruck Telefonnummern mit Vorwahlen zuordnen, die durch beliebig viele Leerzeichen getrennt sind.
Was ist, wenn Sie eine Nummer wie „010-12345“ zuordnen möchten? Da „-“ ein Sonderzeichen ist, muss es in regulären Ausdrücken mit „“ maskiert werden. Daher ist der obige reguläre Ausdruck d{3}-d{3,8}.
Allerdings kann „010 – 12345“ aufgrund der Leerzeichen immer noch nicht gefunden werden. Wir brauchen also komplexere Matching-Methoden.
Erweitert
Um eine genauere Übereinstimmung zu erzielen, können Sie [] verwenden, um den Bereich darzustellen, z. B.: 1 . [0-9a-zA-Z_] kann mit einer Zahl, einem Buchstaben oder einem Unterstrich übereinstimmen; Unterstrich, wie „a100“, „0_Z“, „Py3000“ usw.; 3.[a-zA-Z_][0-9a-zA-Z_]* kann mit einem Buchstaben beginnen oder Unterstrich, gefolgt von Empfangen Sie eine beliebige Zeichenfolge, die aus einer Zahl, einem Buchstaben oder einem Unterstrich besteht, was in Python eine zulässige Variable ist
4.[a-zA-Z_][0-9a-zA-Z_]{; 0, 19 }Begrenzt die Länge der Variablen genauer auf 1–20 Zeichen (1 Zeichen vorne + bis zu 19 Zeichen hinten).
A|B kann mit A oder B übereinstimmen, also kann (P|p)ython mit „Python“ oder „Python“ übereinstimmen.
^ bedeutet den Anfang der Zeile, ^d bedeutet, dass sie mit einer Zahl beginnen muss.
$ gibt das Ende der Zeile an und d$ gibt an, dass sie mit einer Zahl enden muss.
Sie haben vielleicht bemerkt, dass py auch mit „python“ übereinstimmen kann, aber das Hinzufügen von ^py$ entspricht der gesamten Zeile und kann nur mit „py“ übereinstimmen.
Re-Modul
有了准备知识,我们就可以在Python中使用正则表达式了。Python提供re模块,包含所有正则表达式的功能。由于Python的字符串本身也用\转义,所以要特别注意:
s = 'ABC\\-001' # Python的字符串 # 对应的正则表达式字符串变成: # 'ABC\-001'
因此我们强烈建议使用Python的r前缀,就不用考虑转义的问题了:
s = r'ABC\-001' # Python的字符串 # 对应的正则表达式字符串不变: # 'ABC\-001'
先看看如何判断正则表达式是否匹配:
>>> import re >>> re.match(r'^\d{3}\-\d{3,8}$', '010-12345') <_sre.SRE_Match object; span=(0, 9), match='010-12345' >>>> re.match(r'^\d{3}\-\d{3,8}$', '010 12345') >>>
match()方法判断是否匹配,如果匹配成功,返回一个Match对象,否则返回None。常见的判断方法就是:
test = '用户输入的字符串' if re.match(r'正则表达式', test): print('ok') else: print('failed')
Das obige ist der detaillierte Inhalt vonDetaillierte Erläuterung der Syntax regulärer Python-Ausdrücke mit Beispielen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!