Heim  >  Artikel  >  Backend-Entwicklung  >  javascript - Python逐行读取txt中的url文件并进行爬虫

javascript - Python逐行读取txt中的url文件并进行爬虫

WBOY
WBOYOriginal
2016-06-06 20:11:351396Durchsuche

毕设项目需要爬取coursera的课程数据,已经把所有课程的url链接爬下来了,存在了txt中,一行是一个课程的url,现在想要获取每门课程的详细信息,如instructor,syllabus 和detail information这几项,但是都需要点进各个课程的网页链接中取爬取。码渣求大神指导一下,来段伪码就更好啦!thx

回复内容:

毕设项目需要爬取coursera的课程数据,已经把所有课程的url链接爬下来了,存在了txt中,一行是一个课程的url,现在想要获取每门课程的详细信息,如instructor,syllabus 和detail information这几项,但是都需要点进各个课程的网页链接中取爬取。码渣求大神指导一下,来段伪码就更好啦!thx

你好!不知道这是不是你想要的答案:

<code>f = open("coursera.txt","r")
urlList = f.readlines()
for url in urlList:
    r = requests.get(url)
    ''''''</code>

Good Luck ! ^_

如果是爬取coursera的课程数据,建议你用scrapy爬取,这样不需要提前抓取所有课程的url,只要写好匹配url就行。

scrapy教程 http://scrapy-chs.readthedocs.org/zh_CN/0.24/intro/tutorial.html
项目参考 https://github.com/Junnplus/OnlineJudgeCrawlerCore

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn