Maison > Questions et réponses > le corps du texte
J'utilise Python pour effectuer un robot d'exploration Web CSDN. Lors de l'exploration du titre de la page Web, l'expression régulière que j'utilise (?<=<title>).+?(?=<)
ne peut plus être utilisée dans CSDN. Lorsque je consulte le code source CSDN, le titre s'affiche. dans une nouvelle ligne
L'expression régulière originale ne peut donc pas être utilisée. Voici donc la question Le titre d'une page Web comme celle-ci contient des sauts de ligne. Comment l'extraire avec des expressions régulières ?
PS :
Je ne veux pas utiliser XPath ou BeautifulSoup, j'ai juste besoin d'expressions régulières
CSDN lui-même dispose d'un mécanisme anti-crawler. Ce n'est pas à cause de cet anti-crawler que je n'ai pas pu explorer le titre
Merci à tous
En suivant la méthode de @caimaoy, j'ai changé l'expression régulière en (?<=<title>)(?:.|n)+?(?=<)
et le titre a été parfaitement extrait.
Merci encore à tous.
仅有的幸福2017-06-22 11:53:43
Mode multi-lignes re.M
Écrivez vous-même une correspondance multiligne http://python3-cookbook.readt...
曾经蜡笔没有小新2017-06-22 11:53:43
Ajoutez flag
à l'expression
tite = '......'
print(re.findall('(?<=\<title\>).+?(?=\<)', title, re.S))