首頁 > 問答 > 主體
最近在爬股票的相關新聞,一開始設想的是,當有新的新聞動態發布,程式透過郵件發送最新內容到郵箱。
所以我想把新聞標題,內容存到資料庫裡,當內容更新時,把新的內容和資料庫的標題清單對比,看是不是已存在的,如果已存在,那就不發送,如果沒有,那發送到郵箱。
但數量大了以後,列表查詢速度就會變慢,請問各位還有什麼方法可以傳授下嗎?
欧阳克2017-06-12 09:21:34
爬蟲任務去重
抓過的連結存到一個set中,檢查新連結是否在集合中即可。
去重有很多方法,例如樓上的set或是布隆過濾器都可以有效的使用內存,提升效率