我想爬取簡書在某一時段的帖子,例如 2013 年 4 月 13 — 2013 年 5 月 13
想嘗試的想法如下:
百度
利用百度的 site 語法
#限定日期
#觀察大約有 70 個貼文
google 的 site 語法
#限定日期
#觀察大約有 120 個貼文
#實作:用 Python 直接要求搜尋的結果,然後把得到的網址重新導向一下得到真正的簡書網址,然後對真正的網址進行請求
問題
用這種方法得到的結果是否可靠?請問有更可靠的方法嗎?
用 Google 還是用百度呢?
过去多啦不再A梦2017-05-18 10:57:49
為了全面,你可以把主流的搜尋引擎介面都拿來用,不一定要限制在某個搜尋引擎介面上。我們有隊友搜尋某些話題就是這麼幹的,因為有的網站站內沒提供滿足需求的搜尋方式,這個時候也只有借助搜尋引擎了。不過透過搜尋引擎搜尋的方式資訊可能不全面,robots協議規定了不能搜尋的,搜尋引擎不會收錄