一个爬虫程序需要断点恢复的功能, 之前把循环位置作为[a, b, c]保存在json当中
每次进程启动后先从json读取历史位置然后继续遍历
但因为想改成多线程版本, 就试着换成生成器
但这样一来, 每次进程退出重启, 迭代不能记忆位置了
有何良策?
爬去的网页url格式如
-init-page-line
所以我开始是这样的三层循环, (我在学校C/C++为主...我知道这个很不pythonic)
while self.index[0] <= self.limit[0]:
while self.index[1] <= self.limit[1]:
while self.index[2] <= self.limit[1]:
# get page and download someting
里面的index是一个包含历史位置的列表, 每次程序开始会从一个JSON文件读取
然后每次完成一个页面的读取后就会把当前位置更新到JSON文件
因为整体的页面爬取的量十分大, 页面请求次数在千万次级别
目前IO等待占了90%以上的时间, 就像把它改成多线程的
当然也是第一次尝试多线程..
自己的思路是这样的, 首先类维护一个生成器
# 这里的范围是根据网站本身设的
self.generator = ([i, p, l, r]
for i in xrange(1, 27)
for p in xrange(1, 101)
for l in xrange(1, 101)
然后, 比如说JSON里读进来的历史位置, 是一个这样的列表
[5, 5, 5, 5]
再然后.. 思路有点乱了
但应该是每次在发出请求报并等待响应包的时候, 就继续去取得下一个url并发包
尽可能做到并发..
PHPz2017-04-18 09:20:18
何を言っているのかまだよくわかりませんが、大まかに推測しますので、間違っていたら教えてください。
次の形式の URL をクロールしたいと思います:
リーリー次のような 3 つのリストがあります:
リーリー次に、index
と limit
をそれぞれ使用して、現在の位置と各リストの最大インデックスを記録します。
次に、すべての URL を結合します。
リーリー上記は私の個人的な推測です。これを完了したい場合は、次のようにすることをお勧めします。
リーリーitertools.product
itertools.dropwhile
私が回答した質問: Python-QA