Maison  >  Article  >  développement back-end  >  Comment faire correspondre des blocs de texte multilignes avec des expressions régulières en Python ?

Comment faire correspondre des blocs de texte multilignes avec des expressions régulières en Python ?

Mary-Kate Olsen
Mary-Kate Olsenoriginal
2024-10-25 10:25:17560parcourir

How to Match Multi-Line Text Blocks with Regular Expressions in Python?

Faire correspondre des blocs de texte multilignes avec des expressions régulières en Python

En Python, la correspondance d'expressions régulières peut être difficile lorsqu'il s'agit de texte multiligne . Par exemple, considérons le texte suivant où « n » représente une nouvelle ligne :

some Varying TEXT

DSJFKDAFJKDAFJDSAKFJADSFLKDLAFKDSAF
[more of the above, ending with a newline]
[yep, there is a variable number of lines here]
[repeat the above a few hundred times].

Le but est de capturer deux éléments :

  • "un TEXTE variable"
  • Toutes les lignes de texte en majuscule commençant deux lignes en dessous du premier élément, en tant que groupe de capture unique (les sauts de ligne peuvent être supprimés ultérieurement).

Des tentatives précédentes utilisant des variantes des expressions régulières suivantes ont été échec :

re.compile(r"^>(\w+)$$(\[.$]+)^$", re.MULTILINE)
re.compile(r"(^[^>]\[\w\s]+)$", re.MULTILINE|re.DOTALL)

Solution :

Pour faire correspondre correctement le texte multiligne, utilisez l'expression régulière suivante :

re.compile(r"^(.+)\n((?:\n.+)+)", re.MULTILINE)

Ceci Le motif correspond aux éléments suivants :

  • Groupe 1 : "certains TEXTES variables"
  • Groupe 2 : Toutes les lignes de texte en majuscules commençant par deux lignes sous "certains TEXTES variables"

Points clés :

  • ^ et les ancres $ correspondent aux positions immédiatement après et avant les nouvelles lignes, respectivement.
  • L'opérateur ?: rend le groupe de nouvelle ligne non capturant.
  • Le quantificateur .* capture une ou plusieurs lignes de texte en majuscules.

Solution alternative :

Si le texte cible peut contenir d'autres types de sauts de ligne en plus des sauts de ligne (n), utilisez la version plus inclusive suivante :

re.compile(r"^(.+)(?:\n|\r\n?)((?:(?:\n|\r\n?).+)+)", re.MULTILINE)

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn