Heim  >  Artikel  >  Backend-Entwicklung  >  php – Einmalige Untergruppierung regulärer PCRE-Ausdrücke

php – Einmalige Untergruppierung regulärer PCRE-Ausdrücke

伊谢尔伦
伊谢尔伦Original
2016-11-21 17:13:481251Durchsuche

Bei Duplikaten mit maximalen und minimalen Quantifiziererbeschränkungen wird die Übereinstimmung nach einem Fehlschlag mit einer anderen Wiederholungszahl erneut ausgewertet, um zu sehen, ob das Muster übereinstimmen kann. Wenn der Musterautor sicher weiß, dass bei der Implementierung kein Problem vorliegt, ist es sinnvoll, dieses Verhalten zu verhindern, indem er das Verhalten des Abgleichs ändert oder dafür sorgt, dass frühere Abgleiche fehlschlagen.

Betrachten Sie ein Beispiel, wenn das Muster d foo auf die Zielzeile 123456bar angewendet wird:

Fehler beim Abgleichen von „foo“ nach Übereinstimmung mit 6 Ziffern. Das übliche Verhalten ist, dass der Matcher versucht, d zu erstellen Finden Sie nur 5 Zahlen, stimmen Sie nur 4 Zahlen zu und versuchen Sie es der Reihe nach, bevor Sie schließlich scheitern. One-Shot-Untergruppen bieten eine besondere Bedeutung, da ein Teil des Musters, sobald er gefunden wurde, nicht erneut ausgewertet wird, sodass der Matcher sofort nach dem ersten Fehler bei der Übereinstimmung mit „foo“ fehlschlagen kann. Syntaxsymbole sind eine weitere spezielle Art von Klammern, beginnend mit (?>, wie zum Beispiel (?>d )bar.

Diese Klammer sorgt für eine „Sperre“ für einen Teil des Musters, wenn es eine Übereinstimmung nachher enthält Dadurch wird der darin enthaltene Rückwärtstraceback verhindert, nachdem das zukünftige Muster fehlschlägt, und die andere Arbeit wird wie gewohnt fortgesetzt.

Mit anderen Worten, wenn der aktuelle Übereinstimmungspunkt in der Zielzeichenfolge ein ist Anker. Diese Art von Untergruppen-Übereinstimmung entspricht einer separaten Musterübereinstimmung. Vereinfacht ausgedrückt, frisst sie so viele Zeichen wie möglich Während d und d ? beide die Anzahl der Ziffern so anpassen, dass der Rest des Musters übereinstimmt, kann (?>d) nur mit der gesamten Ziffernfolge übereinstimmen beliebig komplex und kann verschachtelt werden. Die einmalige Untergruppe

kann in Verbindung mit Lookahead-Behauptungen verwendet werden, um eine gültige Übereinstimmung am Ende der Zielzeichenfolge anzugeben. Ein Muster wie abcd$ wird auf eine lange Zeichenfolge angewendet nicht übereinstimmende Zeichenfolge. Da Übereinstimmungen von links nach rechts verarbeitet werden, sucht PCRE nach jedem „a“ im Ziel und prüft dann, ob der Rest des Musters ^.*abcd$ ist, dann wird zuerst das anfängliche .* gefunden die gesamte Zeichenfolge, aber wenn dies fehlschlägt (weil kein „a“ folgt), werden alle Übereinstimmungen zurückverfolgt und das letzte Zeichen in der Folge sowie die letzten 2 Zeichen usw. ausgespuckt Die gesamte Zeichenfolge von rechts nach links wird jedoch nicht ordnungsgemäß beendet, wenn das Muster ^(?>.*)(?<=abcd) lautet. Es wird dann nicht auf den .*-Teil zurückgegriffen. Wenn dies fehlschlägt, schlägt die Lookahead-Behauptung bei langen Zeichenfolgen sofort fehl.

Wenn ein Muster eine Untergruppe enthält, die sich unendlich oft wiederholen kann Wiederholte Elemente innerhalb einer einmaligen Untergruppe sind die einzige Möglichkeit, dies häufig zu tun. Das Muster (D |)*[!?] entspricht einer unbegrenzten Anzahl von nicht-numerischen Zeichen oder numerischen Zeichen, die durch „!“ oder „?“ eingeschlossen sind. Wenn es jedoch auf „aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa) liegt daran, dass die Zeichenfolge für beide Wiederholungsregeln verwendet werden kann und für beide zugewiesen werden muss. (Das Beispiel endet mit [!?] anstelle eines einzelnen Zeichens, da sowohl PCRE als auch Perl über eine optimierte Fehlerberichterstattung verfügen, wenn das Muster mit endet ein einzelnes Zeichen. Sie verfolgen das letzte einzelne Zeichen, das abgeglichen werden muss, und melden schnell einen Fehler, wenn es nicht in der Zeichenfolge erscheint. ) Wenn der Modus auf ((?>D )|)*[!?] geändert wird, erhalten Sie schnell eine Fehlermeldung. (Anmerkung: Für den hier angegebenen Modus steigt der Zeitverbrauch schnell an, wenn die Zielzeichenfolge länger ist. Verwenden Sie ihn mit Vorsicht.)

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn