本文主要和大家分享使用phpspider爬蟲的使用方法,使用python爬蟲固然很方便,但是發現php在這方便也不弱;使用框架爬蟲真的要高效許多。
1,先看下phpspider的結構
#2,舉例:例如我爬取南昌新聞網的分類
這個註解要加上,不然報錯,可以看看原始碼,原始碼裡面有很多方法;
3,然後設定下爬蟲:
#4,然後將設定檔放入框架類別文件,實例化:
這裡的on_scan_page 是爬取的入口url,這些URL跟我配置的content_url_regxes 正規規則匹配,所以在後面的爬取過程中,會爬取到這幾個頁面的資料
5,對符合後的欄位field進行回調處理:
#6,進行爬取資料入庫處理,跑起來
以上只是一個簡單的例子,還可以進行多進程爬取,代理爬蟲,很多好玩的。
相關推薦:
#以上是使用phpspider爬蟲的使用方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!