Maison > Questions et réponses > le corps du texte
分别从几个固定的网站上爬取数据;
为了url去重,我用<set get>的字符串型存储?还是用<SADD SMEMBERS>的sets型存储?
需要存储url数目,大概初期在100k-1000k之间。
巴扎黑2017-04-25 09:04:08
Utilisez des collections, le caractère non répétitif des collections est très adapté.
PHPz2017-04-25 09:04:08
$key = 'URL_HASH';
if(!$redis->hGet($key, md5($url))){
// do something ...
// 抓取一个 $url 后
$redis->hSet($key, md5($url), true);
}
Ce qui doit être noté ici, c'est que s'il est multithread, d'autres processus doivent être pris en compte. Vous pouvez remplacer la valeur booléenne par une valeur d'énumération.