mysql - Python深度爬取一个网站

Question

毕业设计项目需要从coursera,edx等大型MOOC网站爬取大量公开课课程信息，尝试着爬取了coursera的课程信息，但是每次都要重新在python代码中写入新的url，如：coursera.org/computer/database和coursera.org/compu...

天蓬老师 · Answer

爬的时候把这些url加入到一个url数组中，依次爬取url数组中的url就可以了，可以把这个理解为广度优先搜索

伊谢尔伦 · Answer

先爬列表页，然后爬子页面，你现在子页面已经处理好了，多爬加个列表页就行了
用不着什么深度广度算法

天蓬老师 · Answer

直接用scrapy