Heim  >  Artikel  >  Backend-Entwicklung  >  Wie ordne ich mehrzeilige Textblöcke mit regulären Ausdrücken in Python zu?

Wie ordne ich mehrzeilige Textblöcke mit regulären Ausdrücken in Python zu?

Mary-Kate Olsen
Mary-Kate OlsenOriginal
2024-10-25 10:25:17560Durchsuche

How to Match Multi-Line Text Blocks with Regular Expressions in Python?

Mehrzeilige Textblöcke mit regulären Ausdrücken in Python abgleichen

In Python kann der Regex-Abgleich beim Umgang mit mehrzeiligem Text eine Herausforderung darstellen . Betrachten Sie zum Beispiel den folgenden Text, bei dem „n“ einen Zeilenumbruch darstellt:

some Varying TEXT

DSJFKDAFJKDAFJDSAKFJADSFLKDLAFKDSAF
[more of the above, ending with a newline]
[yep, there is a variable number of lines here]
[repeat the above a few hundred times].

Das Ziel besteht darin, zwei Elemente zu erfassen:

  • „irgendein variierender TEXT“
  • Alle Zeilen mit Großbuchstaben, die zwei Zeilen unter dem ersten Element beginnen, als einzelne Erfassungsgruppe (Zeilenumbrüche können später entfernt werden).

Frühere Versuche mit Variationen der folgenden regulären Ausdrücke wurden durchgeführt erfolglos:

re.compile(r"^>(\w+)$$(\[.$]+)^$", re.MULTILINE)
re.compile(r"(^[^>]\[\w\s]+)$", re.MULTILINE|re.DOTALL)

Lösung:

Um den mehrzeiligen Text korrekt abzugleichen, verwenden Sie den folgenden regulären Ausdruck:

re.compile(r"^(.+)\n((?:\n.+)+)", re.MULTILINE)

Dies Das Muster stimmt mit Folgendem überein:

  • Gruppe 1: „einiger variierender TEXT“
  • Gruppe 2: Alle Zeilen mit Großbuchstaben beginnend mit zwei Zeilen darunter „etwas variierender TEXT“

Wichtige Punkte:

  • ^- und $-Anker stimmen mit Positionen unmittelbar nach bzw. vor Zeilenumbrüchen überein.
  • Der ?:-Operator sorgt dafür, dass die Newline-Gruppe nicht erfasst wird.
  • Der .*-Quantifizierer erfasst eine oder mehrere Zeilen Großbuchstaben.

Alternative Lösung:

Wenn der Zieltext neben Zeilenvorschüben (n) auch andere Arten von Zeilenumbrüchen enthalten kann, verwenden Sie die folgende umfassendere Version:

re.compile(r"^(.+)(?:\n|\r\n?)((?:(?:\n|\r\n?).+)+)", re.MULTILINE)

Das obige ist der detaillierte Inhalt vonWie ordne ich mehrzeilige Textblöcke mit regulären Ausdrücken in Python zu?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn