Maison  >  Article  >  développement back-end  >  Comment capturer des blocs de texte multilignes avec des expressions régulières ?

Comment capturer des blocs de texte multilignes avec des expressions régulières ?

Patricia Arquette
Patricia Arquetteoriginal
2024-10-25 06:05:02836parcourir

How to Capture Multiline Text Blocks with Regular Expressions?

Expression régulière pour faire correspondre des blocs de texte multilignes

La correspondance de texte qui s'étend sur plusieurs lignes peut présenter des défis dans la construction d'expressions régulières. Considérons l'exemple de texte suivant :

some Varying TEXT

DSJFKDAFJKDAFJDSAKFJADSFLKDLAFKDSAF
[more of the above, ending with a newline]
[yep, there is a variable number of lines here]

(repeat the above a few hundred times)

L'objectif est de capturer deux composants : la partie « du TEXTE variable » et toutes les lignes suivantes de texte en majuscule, à l'exclusion de la ligne vide.

Approches incorrectes :

Certaines approches incorrectes pour résoudre ce problème incluent :

  • Utilisation des ancres ^ et $ pour faire correspondre les sauts de ligne. En mode multiligne, ^ correspond aux positions suivant les nouvelles lignes et $ correspond aux positions précédant les nouvelles lignes.
  • Utilisation du modificateur DOTALL pour tout faire correspondre, ce qui est inutile puisque le point (.) correspond à tout sauf les nouvelles lignes.

Solution :

L'expression régulière suivante capture correctement les composants souhaités :

^(.+)\n((?:\n.+)+)

Voici une répartition de ses composants :

  • ^ correspond au début de la ligne.
  • (. ) capture la partie "some Varying TEXT" dans le groupe 1.
  • n correspond à un caractère de nouvelle ligne.
  • ( (?:n. ) ) capture toutes les lignes suivantes de texte en majuscules dans le groupe 2. La construction de groupe ?: sans capture empêche ces lignes d'être capturées en tant que groupes individuels.
  • L'opérateur de répétition garantit qu'au moins un une ligne de texte en majuscule est présente.

Utilisation :

Pour utiliser cette expression régulière en Python, vous pouvez utiliser le code suivant :

<code class="python">import re

pattern = re.compile(r"^(.+)\n((?:\n.+)+)", re.MULTILINE)</code>

Vous pouvez ensuite utiliser la méthode match() pour rechercher des correspondances dans une chaîne :

<code class="python">match = pattern.match(text)
if match:
    text1 = match.group(1)
    text2 = match.group(2)</code>

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn