首頁 >後端開發 >php教程 >javascript - Python逐行读取txt中的url文件并进行爬虫

javascript - Python逐行读取txt中的url文件并进行爬虫

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB原創: 2016-06-06 20:11:351496瀏覽

毕设项目需要爬取coursera的课程数据，已经把所有课程的url链接爬下来了，存在了txt中，一行是一个课程的url，现在想要获取每门课程的详细信息，如instructor，syllabus 和detail information这几项，但是都需要点进各个课程的网页链接中取爬取。码渣求大神指导一下，来段伪码就更好啦！thx

回复内容：

你好！不知道这是不是你想要的答案：

<code>f = open("coursera.txt","r")
urlList = f.readlines()
for url in urlList:
    r = requests.get(url)
    ''''''</code>

Good Luck ! ^_

如果是爬取coursera的课程数据，建议你用scrapy爬取，这样不需要提前抓取所有课程的url，只要写好匹配url就行。

scrapy教程 http://scrapy-chs.readthedocs.org/zh_CN/0.24/intro/tutorial.html
项目参考 https://github.com/Junnplus/OnlineJudgeCrawlerCore

陳述：

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

上一篇：将数组转换成字符串存储有没有更好的方法或函数(字符串长度越小越好)？下一篇：mail - PHP的SMTP发送邮件的标准类库

看更多

javascript - Python逐行读取txt中的url文件并进行爬虫

回复内容：

相關文章