在用python做CSDN的網頁爬蟲,在爬取網頁title時,我一直用的正規表示式(?<=\<title\>). ?(?=\< )
在CSDN中用不了了,去CSDN源碼一看,title換行顯示了
所以導致原來的正規表示式無法使用,那麼,問題來了,像這樣網頁title中包含換行,如何用正規表示式提取出來呢?
PS:
不想用xpath或beautifulsoup的方法,只需要正規哦
#CSDN本身有反爬蟲機制,我並不是因為這隻反爬蟲而爬不到title的哦
謝謝大家
參考@caimaoy 的方法,我將正規表示式改為(?<=\<title\>)(?:.|\n) ?(?=\<)
後,title完美提取。
再次感謝大家。
曾经蜡笔没有小新2017-06-22 11:53:43
表達式那邊加個flag
吧
tite = '......'
print(re.findall('(?<=\<title\>).+?(?=\<)', title, re.S))