首頁  >  文章  >  後端開發  >  使用phpspider爬蟲的使用方法

使用phpspider爬蟲的使用方法

小云云
小云云原創
2018-03-20 10:38:296974瀏覽

本文主要和大家分享使用phpspider爬蟲的使用方法,使用python爬蟲固然很方便,但是發現php在這方便也不弱;使用框架爬蟲真的要高效許多。

1,先看下phpspider的結構


#2,舉例:例如我爬取南昌新聞網的分類


這個註解要加上,不然報錯,可以看看原始碼,原始碼裡面有很多方法;

3,然後設定下爬蟲:



#4,然後將設定檔放入框架類別文件,實例化:

這裡的on_scan_page 是爬取的入口url,這些URL跟我配置的content_url_regxes 正規規則匹配,所以在後面的爬取過程中,會爬取到這幾個頁面的資料


5,對符合後的欄位field進行回調處理:


#6,進行爬取資料入庫處理,跑起來


以上只是一個簡單的例子,還可以進行多進程爬取,代理爬蟲,很多好玩的。

相關推薦:

PHP網路爬蟲之CURL詳解

PHP如何實作爬蟲

NodeJS爬蟲詳解

#

以上是使用phpspider爬蟲的使用方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn