Python爬取Coursera课程资源的详细过程-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

Python爬取Coursera课程资源的详细过程

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 10, 2016 pm 03:19 PM

python기다

有时候我们需要把一些经典的东西收藏起来，时时回味，而Coursera上的一些课程无疑就是经典之作。Coursera中的大部分完结课程都提供了完整的配套教学资源，包括ppt，视频以及字幕等，离线下来后会非常便于学习。很明显，我们不会去一个文件一个文件的下载，只有傻子才那么干，程序员都是聪明人！

那我们聪明人准备怎么办呢？当然是写一个脚本来批量下载了。首先我们需要分析一下手工下载的流程：登录自己的Coursera账户(有的课程需要我们登录并选课后才能看到相应的资源)，在课程资源页面里，找到相应的文件链接，然后用喜欢的工具下载。

很简单是吧？我们可以用程序来模仿以上的步骤，这样就可以解放双手了。整个程序分为三个部分就可以了：

登录Coursera；在课程资源页面里面找到资源链接；根据资源链接选择合适的工具下载资源。

下面就来具体的实现以下吧！

刚开始时自己并没有添加登录模块，以为访客就可以下载相应的课程资源，后来在测试comnetworks-002这门课程时发现访客访问资源页面时会自动跳转到登录界面，下图是chrome在隐身模式访问该课程资源页面时的情况。

要想模拟登录，我们先找到登录的页面，然后利用google的Developer Tools分析账号密码是如何上传到服务器的。

我们在登录页面的表单中填入账号密码，然后点击登录。与此同时，我们需要双眼紧盯Developer Tools——Network，找到提交账号信息的url。一般情况下，如果要向服务器提交信息，一般都用post方法，这里我们只需要先找到Method为post的url。悲剧的是，每次登录账号时，Network里面都找不到提交账户信息的地址。猜测登录成功后，直接跳转到登录成功后的页面，想要找的内容一闪而过了。

于是就随便输入了一组账号密码，故意登录失败，果真找到了post的页面地址，如下图:

地址为：https://accounts.coursera.org/api/v1/login。为了知道向服务器提交了哪些内容，进一步观察post页面中表单中内容，如下图：

我们看到一共有三个字段：

email：账号的注册邮箱password：账号密码webrequest：附加的字段，值为true。

接下来就动手写吧，我选择用python的Requests库来模拟登录，关于Requests官网是这样介绍的。

Requests is an elegant and simple HTTP library for Python, built for human beings.

事实上requests用起来确实简单方便，不亏是专门为人类设计的http库。requests提供了Session对象，可以用来在不同的请求中传递一些相同的数据，比如在每次请求中都携带cookie。

初步的代码如下：

<code>signin_url = "https://accounts.coursera.org/api/v1/login"<br>logininfo = {"email": "...",<br>             "password": "...",<br>             "webrequest": "true"<br>             }</code>

<code>user_agent = ("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_4) "<br>              "AppleWebKit/537.36 (KHTML, like Gecko) "<br>              "Chrome/36.0.1985.143 Safari/537.36")</code>

<code>post_headers = {"User-Agent": user_agent,<br>                "Referer": "https://accounts.coursera.org/signin"<br>                }<br>coursera_session = requests.Session()</code>

<code>login_res = coursera_session.post(signin_url,<br>                                  data=logininfo,<br>                                  headers=post_headers,<br>                                  )<br>if login_res.status_code == 200:<br>    print "Login Successfully!"<br>else:<br>    print login_res.text</code>

将表单中提交的内容存放在字典中，然后作为data参数传递给Session.post函数。一般情况下，最好是加上请求User-Agent，Referer等请求头部，User-Agent用来模拟浏览器请求，Referer用来告诉服务器我是从referer页面跳转到请求页面的，有时候服务器会检查请求的Referer字段来保证是从固定地址跳到当前请求页的。

上面片段的运行结果很奇怪，显示如下信息：Invalid CSRF Token。后来在github上面搜索到一个Coursera的批量下载脚本，发现人家发送页面请求时headers多了XCSRF2Cookie, XCSRF2Token, XCSRFToken, cookie4个字段。于是又重新看了一下post页面的请求头部，发现确实有这几个字段，估计是服务器端用来做一些限制的。

用浏览器登录了几次，发现XCSRF2Token, XCSRFToken是长度为24的随机字符串，XCSRF2Cookie为"csrf2_token_"加上长度为8的随机字符串。不过一直没搞明白Cookie是怎么求出来的，不过看github上面代码，Cookie似乎只是"csrftoken"和其他三个的组合，试了一下竟然可以。

在原来的代码上添加以下部分就足够了。

<code>def randomString(length):<br>    return ''.join(random.choice(string.letters + string.digits) for i in xrange(length))<br>XCSRF2Cookie = 'csrf2_token_%s' % ''.join(randomString(8))<br>XCSRF2Token = ''.join(randomString(24))<br>XCSRFToken = ''.join(randomString(24))<br>cookie = "csrftoken=%s; %s=%s" % (XCSRFToken, XCSRF2Cookie, XCSRF2Token)<br>post_headers = {"User-Agent": user_agent,<br>                "Referer": "https://accounts.coursera.org/signin",<br>                "X-Requested-With": "XMLHttpRequest",<br>                "X-CSRF2-Cookie": XCSRF2Cookie,<br>                "X-CSRF2-Token": XCSRF2Token,<br>                "X-CSRFToken": XCSRFToken,<br>                "Cookie": cookie<br>                }<br></code>

至此登录功能初步实现。

分析资源链接

登录成功后，我们只需要get到资源页面的内容，然后过滤出自己需要的资源链接就行了。资源页面的地址很简单，为https://class.coursera.org/name/lecture，其中name为课程名称。比如对于课程comnetworks-002，资源页面地址为https://class.coursera.org/comnetworks-002/lecture。

抓取到页面资源后，我们需要分析html文件，这里选择使用BeautifulSoup。BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库，相当强大。具体使用官网上有很详细的文档，这里不再赘述。在使用BeautifulSoup前，我们还得找出资源链接的规律，方便我们过滤。

其中课程每周的总题目为class=course-item-list-header的div标签下，每周的课程均在class=course-item-list-section-list的ul标签下，每节课程在一个li标签中，课程资源则在li标签中的div标签中。

查看了几门课程之后，发现过滤资源链接的方法很简单，如下：

ppt和ppt资源：用正则表达式匹配链接；字幕资源：找到title="Subtitles (srt)"的标签，取其href属性；视频资源：找到title="Video (MP4)"的标签，取其href属性即可。

字幕和视频也可以用正则表达式过滤，不过用BeautifulSoup根据title属性来匹配，有更好的易读性。而ppt和pdf资源，没有固定的title属性，只好利用正则表达式来匹配。

具体代码如下：

<code>soup = BeautifulSoup(content)<br>chapter_list = soup.find_all("div", class_="course-item-list-header")<br>lecture_resource_list = soup.find_all("ul", class_="course-item-list-section-list")<br>ppt_pattern = re.compile(r'https://[^"]*\.ppt[x]?')<br>pdf_pattern = re.compile(r'https://[^"]*\.pdf')<br>for lecture_item, chapter_item in zip(lecture_resource_list, chapter_list):<br>    # weekly title<br>    chapter = chapter_item.h3.text.lstrip()<br>    for lecture in lecture_item:<br>        lecture_name = lecture.a.string.lstrip()<br>        # get resource link<br>        ppt_tag = lecture.find(href=ppt_pattern)<br>        pdf_tag = lecture.find(href=pdf_pattern)<br>        srt_tag = lecture.find(title="Subtitles (srt)")<br>        mp4_tag = lecture.find(title="Video (MP4)")<br>        print ppt_tag["href"], pdf_tag["href"]<br>        print srt_tag["href"], mp4_tag["href"]</code>

下载资源

既然已经得到了资源链接，下载部分就很容易了，这里我选择使用curl来下载。具体思路很简单，就是输出curl resource_link -o file_name到一个种子文件中去，比如到feed.sh中。这样只需要给种子文件执行权限，然后运行种子文件即可。

为了便于归类课程资源，可以为课程每周的标题建立一个文件夹，之后该周的所有课程均下载在该目录下。为了方便我们快速定位到每节课的所有资源，可以把一节课的所有资源文件均命名为课名.文件类型。具体的实现比较简单，这里不再给出具体程序了。可以看一下一个测试例子中的feed.sh文件，部分内容如下：

<code>mkdir 'Week 1: Introduction, Protocols, and Layering'<br>cd 'Week 1: Introduction, Protocols, and Layering'<br>curl https://d396qusza40orc.cloudfront.net/comnetworks/lect/1-readings.pdf -o '1-1 Goals and Motivation (15:46).pdf'<br>curl https://class.coursera.org/comnetworks-002/lecture/subtitles?q=25_en&format=srt -o '1-1 Goals and Motivation (15:46).srt'<br>curl https://class.coursera.org/comnetworks-002/lecture/download.mp4?lecture_id=25 -o '1-1 Goals and Motivation (15:46).mp4'<br>curl https://d396qusza40orc.cloudfront.net/comnetworks/lect/1-readings.pdf -o '1-2 Uses of Networks (17:12).pdf'<br>curl https://class.coursera.org/comnetworks-002/lecture/subtitles?q=11_en&format=srt -o '1-2 Uses of Networks (17:12).srt'<br>curl https://class.coursera.org/comnetworks-002/lecture/download.mp4?lecture_id=11 -o '1-2 Uses of Networks (17:12).mp4'</code>

到这里为止，我们已经成功完成爬取Coursera课程资源的目标，具体的代码放在gist上。使用时，我们只需要运行程序，并把课程名称作为参数传递给程序就可以了(这里的课程名称并不是整个课程的完整名字，而是在课程介绍页面地址中的缩略名字，比如Computer Networks这门课，课程名称是comnetworks-002)。

其实，这个程序可以看做一个简单的小爬虫程序了，下面粗略介绍下爬虫的概念。

一点都不简单的爬虫

关于什么是爬虫，wiki上是这样说的

A Web crawler is an Internet bot that systematically browses the World Wide Web, typically for the purpose of Web indexing.

爬虫的总体架构图如下(图片来自wiki)：

简单来说，爬虫从Scheduler中获取初始的urls，下载相应的页面，存储有用的数据，同时分析该页面中的链接，如果已经访问就pass，没访问的话加入到Scheduler中等待抓取页面。

当然有一些协议来约束爬虫的行为规范，比如许多网站都有一个robots.txt文件来规定网站哪些内容可以被爬取，哪些不可以。

每个搜索引擎背后都有一个强大的爬虫程序，把触角伸到网络中的所有角落，不断去收集有用信息，并建立索引。这种搜索引擎级别的爬虫实现起来非常复杂，因为网络上的页面数量太过庞大，只是遍历他们就已经很困难了，更不要说去分析页面信息，并建立索引了。

实际应用中，我们只需要爬取特定站点，抓取少量的资源，这样实现起来简单很多。不过仍然有许多让人头疼的问题，比如许多页面元素是javascript生成的，这时候我们需要一个javascript引擎，渲染出整个页面，再加以过滤。

更糟糕的是，许多站点都会用一些措施来阻止爬虫爬取资源，比如限定同一IP一段时间的访问次数，或者是限制两次操作的时间间隔，加入验证码等等。绝大多数情况下，我们不知道服务器端是如何防止爬虫的，所以要想让爬虫工作起来确实挺难的。

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

Python vs. C : 주요 차이점 이해Apr 21, 2025 am 12:18 AM

Python과 C는 각각 고유 한 장점이 있으며 선택은 프로젝트 요구 사항을 기반으로해야합니다. 1) Python은 간결한 구문 및 동적 타이핑으로 인해 빠른 개발 및 데이터 처리에 적합합니다. 2) C는 정적 타이핑 및 수동 메모리 관리로 인해 고성능 및 시스템 프로그래밍에 적합합니다.

Python vs. C : 프로젝트를 위해 어떤 언어를 선택해야합니까?Apr 21, 2025 am 12:17 AM

Python 또는 C를 선택하는 것은 프로젝트 요구 사항에 따라 다릅니다. 1) 빠른 개발, 데이터 처리 및 프로토 타입 설계가 필요한 경우 Python을 선택하십시오. 2) 고성능, 낮은 대기 시간 및 근접 하드웨어 제어가 필요한 경우 C를 선택하십시오.

파이썬 목표에 도달 : 매일 2 시간의 힘Apr 20, 2025 am 12:21 AM

매일 2 시간의 파이썬 학습을 투자하면 프로그래밍 기술을 효과적으로 향상시킬 수 있습니다. 1. 새로운 지식 배우기 : 문서를 읽거나 자습서를 시청하십시오. 2. 연습 : 코드를 작성하고 완전한 연습을합니다. 3. 검토 : 배운 내용을 통합하십시오. 4. 프로젝트 실무 : 실제 프로젝트에서 배운 것을 적용하십시오. 이러한 구조화 된 학습 계획은 파이썬을 체계적으로 마스터하고 경력 목표를 달성하는 데 도움이 될 수 있습니다.

2 시간 극대화 : 효과적인 파이썬 학습 전략Apr 20, 2025 am 12:20 AM

2 시간 이내에 Python을 효율적으로 학습하는 방법 : 1. 기본 지식을 검토하고 Python 설치 및 기본 구문에 익숙한 지 확인하십시오. 2. 변수, 목록, 기능 등과 같은 파이썬의 핵심 개념을 이해합니다. 3. 예제를 사용하여 마스터 기본 및 고급 사용; 4. 일반적인 오류 및 디버깅 기술을 배우십시오. 5. 목록 이해력 사용 및 PEP8 스타일 안내서와 같은 성능 최적화 및 모범 사례를 적용합니다.

Python과 C : The Hight Language 중에서 선택Apr 20, 2025 am 12:20 AM

Python은 초보자 및 데이터 과학에 적합하며 C는 시스템 프로그래밍 및 게임 개발에 적합합니다. 1. 파이썬은 간단하고 사용하기 쉽고 데이터 과학 및 웹 개발에 적합합니다. 2.C는 게임 개발 및 시스템 프로그래밍에 적합한 고성능 및 제어를 제공합니다. 선택은 프로젝트 요구와 개인적인 이익을 기반으로해야합니다.

Python vs. C : 프로그래밍 언어의 비교 분석Apr 20, 2025 am 12:14 AM

Python은 데이터 과학 및 빠른 개발에 더 적합한 반면 C는 고성능 및 시스템 프로그래밍에 더 적합합니다. 1. Python Syntax는 간결하고 학습하기 쉽고 데이터 처리 및 과학 컴퓨팅에 적합합니다. 2.C는 복잡한 구문을 가지고 있지만 성능이 뛰어나고 게임 개발 및 시스템 프로그래밍에 종종 사용됩니다.

하루 2 시간 : 파이썬 학습의 잠재력Apr 20, 2025 am 12:14 AM

파이썬을 배우기 위해 하루에 2 시간을 투자하는 것이 가능합니다. 1. 새로운 지식 배우기 : 목록 및 사전과 같은 1 시간 안에 새로운 개념을 배우십시오. 2. 연습 및 연습 : 1 시간을 사용하여 소규모 프로그램 작성과 같은 프로그래밍 연습을 수행하십시오. 합리적인 계획과 인내를 통해 짧은 시간에 Python의 핵심 개념을 마스터 할 수 있습니다.

Python vs. C : 학습 곡선 및 사용 편의성Apr 19, 2025 am 12:20 AM

Python은 배우고 사용하기 쉽고 C는 더 강력하지만 복잡합니다. 1. Python Syntax는 간결하며 초보자에게 적합합니다. 동적 타이핑 및 자동 메모리 관리를 사용하면 사용하기 쉽지만 런타임 오류가 발생할 수 있습니다. 2.C는 고성능 응용 프로그램에 적합한 저수준 제어 및 고급 기능을 제공하지만 학습 임계 값이 높고 수동 메모리 및 유형 안전 관리가 필요합니다.

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

SublimeText3 영어 버전

권장 사항: Win 버전, 코드 프롬프트 지원!

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.