分別從幾個固定的網站上爬取資料;
為了url去重,我用
需要儲存url數目,大概初期在100k-1000k之間。
PHPz2017-04-25 09:04:08
$key = 'URL_HASH';
if(!$redis->hGet($key, md5($url))){
// do something ...
// 抓取一个 $url 后
$redis->hSet($key, md5($url), true);
}
這裡要注意的是,如果是多執行緒的,要考慮其他行程,可以吧 bool 值改為枚舉值。