Heim > Artikel > Backend-Entwicklung > php – Einmalige Untergruppierung regulärer PCRE-Ausdrücke
Bei Duplikaten mit maximalen und minimalen Quantifiziererbeschränkungen wird die Übereinstimmung nach einem Fehlschlag mit einer anderen Wiederholungszahl erneut ausgewertet, um zu sehen, ob das Muster übereinstimmen kann. Wenn der Musterautor sicher weiß, dass bei der Implementierung kein Problem vorliegt, ist es sinnvoll, dieses Verhalten zu verhindern, indem er das Verhalten des Abgleichs ändert oder dafür sorgt, dass frühere Abgleiche fehlschlagen.
Betrachten Sie ein Beispiel, wenn das Muster d foo auf die Zielzeile 123456bar angewendet wird:
Fehler beim Abgleichen von „foo“ nach Übereinstimmung mit 6 Ziffern. Das übliche Verhalten ist, dass der Matcher versucht, d zu erstellen Finden Sie nur 5 Zahlen, stimmen Sie nur 4 Zahlen zu und versuchen Sie es der Reihe nach, bevor Sie schließlich scheitern. One-Shot-Untergruppen bieten eine besondere Bedeutung, da ein Teil des Musters, sobald er gefunden wurde, nicht erneut ausgewertet wird, sodass der Matcher sofort nach dem ersten Fehler bei der Übereinstimmung mit „foo“ fehlschlagen kann. Syntaxsymbole sind eine weitere spezielle Art von Klammern, beginnend mit (?>, wie zum Beispiel (?>d )bar.
Diese Klammer sorgt für eine „Sperre“ für einen Teil des Musters, wenn es eine Übereinstimmung nachher enthält Dadurch wird der darin enthaltene Rückwärtstraceback verhindert, nachdem das zukünftige Muster fehlschlägt, und die andere Arbeit wird wie gewohnt fortgesetzt.
Mit anderen Worten, wenn der aktuelle Übereinstimmungspunkt in der Zielzeichenfolge ein ist Anker. Diese Art von Untergruppen-Übereinstimmung entspricht einer separaten Musterübereinstimmung. Vereinfacht ausgedrückt, frisst sie so viele Zeichen wie möglich Während d und d ? beide die Anzahl der Ziffern so anpassen, dass der Rest des Musters übereinstimmt, kann (?>d) nur mit der gesamten Ziffernfolge übereinstimmen beliebig komplex und kann verschachtelt werden. Die einmalige Untergruppe
kann in Verbindung mit Lookahead-Behauptungen verwendet werden, um eine gültige Übereinstimmung am Ende der Zielzeichenfolge anzugeben. Ein Muster wie abcd$ wird auf eine lange Zeichenfolge angewendet nicht übereinstimmende Zeichenfolge. Da Übereinstimmungen von links nach rechts verarbeitet werden, sucht PCRE nach jedem „a“ im Ziel und prüft dann, ob der Rest des Musters ^.*abcd$ ist, dann wird zuerst das anfängliche .* gefunden die gesamte Zeichenfolge, aber wenn dies fehlschlägt (weil kein „a“ folgt), werden alle Übereinstimmungen zurückverfolgt und das letzte Zeichen in der Folge sowie die letzten 2 Zeichen usw. ausgespuckt Die gesamte Zeichenfolge von rechts nach links wird jedoch nicht ordnungsgemäß beendet, wenn das Muster ^(?>.*)(?<=abcd) lautet. Es wird dann nicht auf den .*-Teil zurückgegriffen. Wenn dies fehlschlägt, schlägt die Lookahead-Behauptung bei langen Zeichenfolgen sofort fehl.
Wenn ein Muster eine Untergruppe enthält, die sich unendlich oft wiederholen kann Wiederholte Elemente innerhalb einer einmaligen Untergruppe sind die einzige Möglichkeit, dies häufig zu tun. Das Muster (D |