Python을 사용하여 CSDN 웹 크롤러를 수행하고 있습니다. 웹페이지 제목을 크롤링할 때 기존에 사용하던 (?<=<title>).+?(?=<)
정규식을 CSDN 소스 코드에 가서 보면 제목이 표시됩니다. 새로운 줄로
원래 정규식을 사용할 수 없습니다. 그러면 이와 같은 웹페이지 제목에 줄바꿈이 포함되어 있는 경우 어떻게 해야 할까요?
PS:
xpath나 beautifulsoup를 사용하고 싶지 않고 정규 표현식만 필요합니다
CSDN 자체에는 크롤러 방지 메커니즘이 있습니다. 제목을 크롤링할 수 없는 것은 이 크롤러 방지 때문이 아닙니다.
모두들 감사합니다
@caimaoy님의 방법에 따라 정규식을 (?<=<title>)(?:.|n)+?(?=<)
로 변경했더니 제목이 완벽하게 추출되었습니다.
다시 한번 감사드립니다.