有時候因為工作、自身的需求,我們都會去瀏覽不同網站去獲取我們需要的數據,於是爬蟲應運而生,下面是我在開發一個簡單爬蟲的經過與遇到的問題。
上一次小白已經得到了一個任勞任怨的網絡小爬蟲,如果不搞一波小事情似乎對不太起這個小爬蟲,於是乎小白又鼓搗鼓搗參考各方大神的資料以倒排索引為基礎原理設計了一個簡答的搜尋引擎。
之前的爬蟲只是得到了網頁的源碼而沒有做任何處理,乃是一個一次性的小爬蟲,所以小白用正則表達式對網頁內容進行匹配得到其中的網址,之後小爬蟲就可以利用這個自生自滅至死方休的幫我們爬取網頁拉,這裡不得不提一下beautifulsoup和正則表達式了,據說beautifulsoup模組是一個網頁爬取提取的利器,只可惜小寶在做完之後才聽得大名萬分遺憾沒能試用一番,但是正則表達時小白可是切身的研究了一丟丟,熟練了(強行熟練)也是非常的好用,比如提取網頁源碼的網址:
link_list = re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')", html)
这一句就提出个七七八八来,当然这么粗糙鱼目混珠的情况也是少不了的,但是还是非常好用的, 虽然看起来很复杂但是只要掌握了(?52e6299321e87de75a2b0d13a7b81305be337b902aa7e2394219c5df34c1adf3之中,title和链接什么的也有对应的标签, 运用正则表单式理论上可以分离出来,不过小白亲身时间发现只匹配一次效果非常不好, 匹配的内容的确包括想要的内容,但是因为标签一般都是嵌套的嘛而且小白技术毕竟也不好正则表达式可能表述的也有问题, 所以总是会将内容嵌套在标签中返回,这里就有一个比较笨的方法供大家参考,咳咳, 既然一次不能得到,那么就对内容进行再匹配,咳咳,经过了三层匹配外加一些小技巧终于是勉强匹配出来了, 这里代码过于丑陋就不再贴出来了咳咳。
相關推薦:
以上是如何做一個簡易的搜尋引擎的詳細內容。更多資訊請關注PHP中文網其他相關文章!