Heim >Backend-Entwicklung >PHP-Tutorial >Reguläre Ausdrücke in PHP
PHP erbt die konsistente Tradition von *NIX und unterstützt die Verarbeitung regulärer Ausdrücke vollständig. Reguläre Ausdrücke bieten eine erweiterte, aber nicht intuitive Methode zum Abgleichen und Verarbeiten von Zeichenfolgen. Freunde, die die regulären Ausdrücke von PERL verwendet haben, wissen, dass reguläre Ausdrücke sehr mächtig, aber nicht leicht zu erlernen sind.
Zum Beispiel:
^.+@.+..+$
Dieser effektive, aber unverständliche Code reicht aus, um einigen Programmierern (mir) Kopfschmerzen zu bereiten oder sie dazu zu bringen, die Verwendung aufzugeben Das Regulärer Ausdruck. Ich glaube, dass Sie nach dem Lesen dieses Tutorials die Bedeutung dieses Codes verstehen werden.
Grundlegende Mustererkennung
Alles beginnt mit den Grundlagen. Muster sind die grundlegendsten Elemente regulärer Ausdrücke. Sie sind eine Reihe von Zeichen, die die Eigenschaften einer Zeichenfolge beschreiben. Muster können einfach sein, aus gewöhnlichen Zeichenfolgen bestehen oder sehr komplex sein und häufig Sonderzeichen verwenden, um eine Reihe von Zeichen, Wiederholungen oder den Kontext darzustellen. Beispiel:
^once
Dieses Muster enthält das Sonderzeichen ^, was bedeutet, dass das Muster nur mit den Zeichenfolgen übereinstimmt, die mit Once beginnen. Dieses Muster stimmt beispielsweise mit der Zeichenfolge „Es war einmal“ überein, nicht jedoch mit „Es war einmal ein Mann aus New York“. So wie das ^-Symbol den Anfang anzeigt, stimmt das $-Symbol mit Zeichenfolgen überein, die mit einem bestimmten Muster enden.
bucket$
Dieses Muster stimmt mit „Wer hat das ganze Geld in einem Eimer aufbewahrt“ überein, aber nicht mit „Eimern“. Wenn die Zeichen ^ und $ zusammen verwendet werden, stellen sie eine exakte Übereinstimmung dar (Zeichenfolgen sind dasselbe wie Muster). Beispiel:
^bucket$
stimmt nur mit der Zeichenfolge „bucket“ überein. Wenn ein Muster ^ und $ nicht enthält, stimmt es mit jeder Zeichenfolge überein, die das Muster enthält. Zum Beispiel: Muster
einmal
und String
Es war einmal ein Mann aus New York
Der bewahrte sein gesamtes Geld in einem Eimer auf.
passt.
Die Buchstaben (o-n-c-e) in diesem Muster sind wörtliche Zeichen, das heißt, sie repräsentieren die Buchstaben selbst, ebenso wie Zahlen. Andere etwas komplexere Zeichen wie Satzzeichen und Leerzeichen (Leerzeichen, Tabulatoren usw.) erfordern Escape-Sequenzen. Alle Escape-Sequenzen beginnen mit einem Backslash (). Die Escape-Sequenz für das Tabulatorzeichen lautet: t. Wenn wir also erkennen möchten, ob eine Zeichenfolge mit einem Tabulatorzeichen beginnt, können wir dieses Muster verwenden:
^t
In ähnlicher Weise verwenden Sie n, um „neue Zeile“ darzustellen, und r, um den Wagen darzustellen zurückkehren. Andere spezielle Symbole können mit einem Backslash am Anfang verwendet werden, z. B. der Backslash selbst wird durch . dargestellt, der Punkt wird durch . dargestellt und so weiter.
Zeichencluster
In INTERNET-Programmen werden normalerweise reguläre Ausdrücke verwendet, um Benutzereingaben zu überprüfen. Wenn ein Benutzer ein FORMULAR absendet, reicht es nicht aus, gewöhnliche Buchstaben zu verwenden, um festzustellen, ob die eingegebene Telefonnummer, Adresse, E-Mail-Adresse, Kreditkartennummer usw. gültig sind.
Wir müssen also eine freiere Möglichkeit verwenden, das gewünschte Muster zu beschreiben, nämlich Zeichencluster. Um einen Cluster zu erstellen, der alle Vokalzeichen darstellt, setzen Sie alle Vokalzeichen in eckige Klammern:
[AaEeIiOoUu]
Dieses Muster entspricht jedem Vokalzeichen, kann jedoch nur ein Zeichen darstellen. Verwenden Sie Bindestriche, um eine Reihe von Zeichen darzustellen, z. B.:
[a-z] // Alle Kleinbuchstaben finden
[A-Z] // Alle Großbuchstaben finden
[a -zA-Z] // Entspricht allen Buchstaben
[0-9] // Entspricht allen Zahlen
[0-9.-] // Entspricht allen Zahlen, Punkten und Minuszeichen
[ frtn] //Alle weißen Zeichen abgleichen
Auch hier stellen diese nur ein Zeichen dar, was sehr wichtig ist. Wenn Sie eine Zeichenfolge finden möchten, die aus einem Kleinbuchstaben und einer Ziffer besteht, beispielsweise „z2“, „t6“ oder „g7“, aber nicht „ab2“, „r2d3“ oder „b52“, verwenden Sie dieses Muster:
^[a-z][0-9]$
Obwohl [a-z] einen Bereich von 26 Buchstaben darstellt, kann es hier nur mit Zeichenfolgen übereinstimmen, bei denen das erste Zeichen ein Kleinbuchstabe ist.
Es wurde bereits erwähnt, dass ^ den Anfang einer Zeichenfolge darstellt, aber es hat auch eine andere Bedeutung. Wenn ^ innerhalb einer Reihe eckiger Klammern verwendet wird, bedeutet es „nicht“ oder „ausschließen“ und wird häufig verwendet, um ein bestimmtes Zeichen zu eliminieren. Unter Verwendung des vorherigen Beispiels verlangen wir, dass das erste Zeichen keine Zahl sein darf:
^[^0-9][0-9]$
Dieses Muster ist dasselbe wie „&5“ , „g7“ und „-2“ stimmen überein, „12“ und „66“ jedoch nicht. Hier sind einige Beispiele für den Ausschluss bestimmter Zeichen:
[^a-z] //Alle Zeichen außer Kleinbuchstaben
[^/^] //Außer „/“ und „^“ Alle Zeichen außer Zeichen
[^"'] //Alle Zeichen außer doppelten Anführungszeichen (") und einfachen Anführungszeichen (')
Die Sonderzeichen „.“ (Punkt, Punkt) werden in regulären Ausdrücken verwendet, um alle Zeichen außer „neue Zeile“ darzustellen. Das Muster „^.5$“ entspricht also jeder zweistelligen Zeichenfolge, die mit der Zahl 5 endet und mit einem anderen Zeichen beginnt, das kein „Newline“-Zeichen ist. Das Muster „.“ kann mit jeder Zeichenfolge übereinstimmen, außer mit leeren Zeichenfolgen und Zeichenfolgen, die nur eine „neue Zeile“ enthalten.
Die regulären Ausdrücke von PHP verfügen über einige integrierte universelle Zeichencluster. Die Liste lautet wie folgt:
Zeichencluster Bedeutung
[[:alpha:]] Beliebiger Buchstabe
[[:digit:]] Beliebige Zahl
[[:alnum:]] Beliebige Buchstaben und Zahlen
[[:space:]] Beliebiges weißes Zeichen
[[:upper:]] Beliebiger Großbuchstabe
[[:lower:]] Beliebiger Kleinbuchstabe
[[:punct:]] Beliebiges Satzzeichen
[[ :xdigit:]] Eine beliebige Hexadezimalzahl, entsprechend [0-9a-fA-F]
Stellen Sie sicher, dass sie wiederholt erscheint
Jetzt wissen Sie bereits, wie man einen Buchstaben zuordnet oder eine Zahl, aber in den meisten Fällen möchten Sie vielleicht ein Wort oder eine Gruppe von Zahlen zuordnen. Ein Wort besteht aus mehreren Buchstaben und eine Zahlengruppe aus mehreren Singularzahlen. Die geschweiften Klammern ({}) nach einem Zeichen oder Zeichencluster werden verwendet, um zu bestimmen, wie oft der vorhergehende Inhalt wiederholt wird.
Zeichencluster Bedeutung
^[a-zA-Z_]$ Alle Buchstaben und Unterstriche
^[[:alpha:]]{3}$ Alle 3 Wörter mit Buchstaben
^a$ Buchstabe a
^a{4}$ aaaa
^a{2,4}$ aa,aaa oder aaaa
^a{1,3}$ a,aa oder aaa
^a{2,}$ String mit mehr als zwei a's
^a{2,} Zum Beispiel: aardvark und aaab , aber nicht Apple
a{2,} Zum Beispiel: baad und aaa, aber nicht Nantucket
t{2} Zwei Tabulatorzeichen
.{2} Alle zwei Zeichen
Diese Beispiele beschreiben drei verschiedene Verwendungsmöglichkeiten von geschweiften Klammern. Eine Zahl, {x} bedeutet „das vorhergehende Zeichen oder Zeichencluster erscheint nur x-mal“; eine Zahl plus ein Komma, {x,} bedeutet „der vorhergehende Inhalt erscheint x-mal oder öfter“; ,y} bedeutet „der vorherige Inhalt erscheint mindestens x-mal, jedoch nicht öfter als y-mal“. Wir können das Muster auf weitere Wörter oder Zahlen erweitern:
^[a-zA-Z0-9_]{1,}$ //Alle Zeichenfolgen, die mehr als einen Buchstaben, eine Zahl oder einen Unterstrich enthalten
^[0-9]{1,}$ //Alle positiven Zahlen
^-{0,1}[0-9]{1,}$ //Alle ganzen Zahlen
^-{0,1}[0-9]{0,}.{0,1}[0-9]{0,}$ //Alle Dezimalstellen
Letztes Beispiel ist nicht leicht zu verstehen , oder? Betrachten Sie es so: Alles beginnt mit einem optionalen negativen Vorzeichen (-{0,1}) (^), gefolgt von 0 oder mehr Ziffern ([0-9]{0,}) und einem optionalen A-Dezimalpunkt (.{0,1}), gefolgt von 0 oder mehr Ziffern ([0-9]{0,}) und nichts anderem ($). Im Folgenden erfahren Sie, welche einfacheren Methoden Sie verwenden können.
Die Sonderzeichen „?“ sind gleich {0,1}, sie stehen beide für: „0 oder 1 vorheriger Inhalt“ oder „der vorherige Inhalt ist optional“. Das aktuelle Beispiel kann also wie folgt vereinfacht werden:
^-?[0-9]{0,}.?[0-9]{0,}$
Die Sonderzeichen „ *“ und {0,} gleich sind, repräsentieren beide „0 oder mehr vorherige Inhalte“. Schließlich ist das Zeichen „+“ gleich {1,}, was „1 oder mehr vorherige Inhalte“ bedeutet, sodass die obigen 4 Beispiele wie folgt geschrieben werden können:
^[a-zA-Z0- 9_ ]+$ //Alle Zeichenfolgen, die mehr als einen Buchstaben, eine Zahl oder einen Unterstrich enthalten
^[0-9]+$ //Alle positiven Zahlen
^-?[0 -9]+ $ //Alle ganzen Zahlen
^-?[0-9]*.?[0-9]*$ //Alle Dezimalzahlen
Das lässt sich natürlich nicht aus Reduziert technisch die Komplexität von regulären Ausdrücken, erleichtert aber deren Lesbarkeit.