recherche

Maison  >  Questions et réponses  >  le corps du texte

Python - Le titre de la page web contient une nouvelle ligne. Comment l'extraire à l'aide d'expressions régulières ?

J'utilise Python pour effectuer un robot d'exploration Web CSDN. Lors de l'exploration du titre de la page Web, l'expression régulière que j'utilise (?<=<title>).+?(?=<)ne peut plus être utilisée dans CSDN. Lorsque je consulte le code source CSDN, le titre s'affiche. dans une nouvelle ligne

L'expression régulière originale ne peut donc pas être utilisée. Voici donc la question Le titre d'une page Web comme celle-ci contient des sauts de ligne. Comment l'extraire avec des expressions régulières ?

PS :

  1. Je ne veux pas utiliser XPath ou BeautifulSoup, j'ai juste besoin d'expressions régulières

  2. CSDN lui-même dispose d'un mécanisme anti-crawler. Ce n'est pas à cause de cet anti-crawler que je n'ai pas pu explorer le titre

  3. .

Merci à tous

En suivant la méthode de @caimaoy, j'ai changé l'expression régulière en (?<=<title>)(?:.|n)+?(?=<) et le titre a été parfaitement extrait.
Merci encore à tous.

女神的闺蜜爱上我女神的闺蜜爱上我2740 Il y a quelques jours1010

répondre à tous(2)je répondrai

  • 仅有的幸福

    仅有的幸福2017-06-22 11:53:43

    1. Mode multi-lignes re.M

    2. Écrivez vous-même une correspondance multiligne http://python3-cookbook.readt...

    répondre
    0
  • 曾经蜡笔没有小新

    曾经蜡笔没有小新2017-06-22 11:53:43

    Ajoutez flag à l'expression

    tite = '......'
    print(re.findall('(?<=\<title\>).+?(?=\<)', title, re.S))

    répondre
    0
  • Annulerrépondre