찾다

 >  Q&A  >  본문

Python - 웹 페이지 제목에 개행 문자가 포함되어 있습니다. 정규식을 사용하여 추출하는 방법은 무엇입니까?

Python을 사용하여 CSDN 웹 크롤러를 수행하고 있습니다. 웹페이지 제목을 크롤링할 때 기존에 사용하던 (?<=<title>).+?(?=<)정규식을 CSDN 소스 코드에 가서 보면 제목이 표시됩니다. 새로운 줄로

원래 정규식을 사용할 수 없습니다. 그러면 이와 같은 웹페이지 제목에 줄바꿈이 포함되어 있는 경우 어떻게 해야 할까요?

PS:

  1. xpath나 beautifulsoup를 사용하고 싶지 않고 정규 표현식만 필요합니다

  2. CSDN 자체에는 크롤러 방지 메커니즘이 있습니다. 제목을 크롤링할 수 없는 것은 이 크롤러 방지 때문이 아닙니다.

모두들 감사합니다

@caimaoy님의 방법에 따라 정규식을 (?<=<title>)(?:.|n)+?(?=<)로 변경했더니 제목이 완벽하게 추출되었습니다.
다시 한번 감사드립니다.

女神的闺蜜爱上我女神的闺蜜爱上我2714일 전991

모든 응답(2)나는 대답할 것이다

  • 仅有的幸福

    仅有的幸福2017-06-22 11:53:43

    1. re.M 멀티라인 모드

    2. 직접 여러 줄 일치 작성 http://python3-cookbook.readt...

    회신하다
    0
  • 曾经蜡笔没有小新

    曾经蜡笔没有小新2017-06-22 11:53:43

    표현식에 flag를 추가하세요

    으아악

    회신하다
    0
  • 취소회신하다