首頁  >  文章  >  web前端  >  爬取慕課網課程資訊實例教程

爬取慕課網課程資訊實例教程

零下一度
零下一度原創
2017-06-26 10:36:502433瀏覽

第一次學習Node.js爬蟲,所以這時一個簡單的爬蟲,Node.js的好處就是可以並發的執行

這個爬蟲主要就是獲取慕課網的課程信息,並把獲得的信息存儲到一個文件中,其中要用到cheerio庫,它可以讓我們方便的操作HTML,就像是用jQ一樣

開始前,記得

npm install cheerio

 

為了能夠並發的進行爬取,用到了Promise物件

#
//接受一个url爬取整个网页,返回一个Promise对象function getPageAsync(url){return new Promise((resolve,reject)=>{
        console.log(`正在爬取${url}的内容`);
        http.get(url,function(res){
            let html = '';

            res.on('data',function(data){
                html += data;
            });

            res.on('end',function(){
                resolve(html);
            });

            res.on('error',function(err){
                reject(err);
                console.log('错误信息:' + err);
            })
        });
    })
}

 

在慕課網中,每個課程都有一個ID,我們事先要把想要取得課程的ID寫到一個陣列中,而且每個課程的地址都是相同的地址加上ID,所以我們只要把地址和ID拼接起來就是課程的地址

#
const baseUrl = 'http://www.imooc.com/learn/';
const baseNuUrl = 'http://www.imooc.com/course/AjaxCourseMembers?ids=';//获取课程的IDconst videosId = [773,371];

 

為了讓取得每個課程內容時並發執行,要使用Promise中的all方法

Promise//当所有网页的内容爬取完毕    .all(courseArray)
    .then((pages)=>{//所有页面需要的内容let courseData = [];//遍历每个网页提取出所需要的内容pages.forEach((html)=>{
            let courses = filterChapter(html);
            courseData.push(courses);
        });//给每个courseMenners.number赋值for(let i=0;i<videosId.length;i++){for(let j=0;j<videosId.length;j++){if(courseMembers[i].id +&#39;&#39; == videosId[j]){
                    courseData[j].number = courseMembers[i].numbers;
                }
            }
        }//对所需要的内容进行排序courseData.sort((a,b)=>{return a.number > b.number;
        });//在重新将爬取内容写入文件中前,清空文件fs.writeFileSync(outputFile,'###爬取慕课网课程信息###',(err)=>{if(err){
                console.log(err)
            }
        });
        printfData(courseData);
    });

 

在then方法中, pages是每個課程的HTML頁面,我們也得從中提取出我們需要的信息,需要使用下面的函數

//接受一个爬取下来的网页内容,查找网页中需要的信息function filterChapter(html){
    const $ = cheerio.load(html);//所有章const chapters = $('.chapter');//课程的标题和学习人数let title = $('.hd>h2').text();
    let number = 0;//最后返回的数据//每个网页需要的内容的结构let courseData = {'title':title,'number':number,'videos':[]
    };

    chapters.each(function(item){
        let chapter = $(this);//文章标题let chapterTitle = Trim(chapter.find('strong').text(),'g');//每个章节的结构let chapterdata = {'chapterTitle':chapterTitle,'video':[]
        };//一个网页中的所有视频let videos = chapter.find('.video').children('li');
        videos.each(function(item){//视频标题let videoTitle = Trim($(this).find('a.J-media-item').text(),'g');//视频IDlet id = $(this).find('a').attr('href').split('video/')[1];
            chapterdata.video.push({'title':videoTitle,'id':id
            })
        });

        courseData.videos.push(chapterdata);

    });return courseData;
}

注意:在上面中將課程的學習人數設定為了0是因為學習課程人數是用Ajax動態獲取,所以我在後面寫了方法專門獲取學習課程人數,其中用到的Trim()方法是去除文本中的空格

取得學習課程的人數:

//获取上课人数function getNumber(url){

    let datas = '';

    http.get(url,(res)=>{
        res.on('data',(chunk)=>{
            datas += chunk;
        });

        res.on('end',()=>{
            datas = JSON.parse(datas);
            courseMembers.push({'id':datas.data[0].id,'numbers':parseInt(datas.data[0].numbers,10)});
        });
    });
}

這樣就將想取得課程的學習人數都加入了courseMembers陣列中,在最後將學習課程的人數在賦值給相對應的課程

        //给每个courseMenners.number赋值for(let i=0;i<videosId.length;i++){for(let j=0;j<videosId.length;j++){if(courseMembers[i].id +&#39;&#39; == videosId[j]){
                    courseData[j].number = courseMembers[i].numbers;
                }
            }
        }

 

我們取得了數據,就要把它按照一定的格式存到一個檔案中

//写入文件function writeFile(file,string) {
    fs.appendFileSync(file,string,(err)=>{if(err){
                console.log(err);
            }
        })
}//打印信息function printfData(coursesData){

    coursesData.forEach((courseData)=>{       // console.log(`${courseData.number}人学习过${courseData.title}\n`);       writeFile(outputFile,`\n\n${courseData.number}人学习过${courseData.title}\n\n`);

        courseData.videos.forEach(function(item){
            let chapterTitle = item.chapterTitle;// console.log(chapterTitle + '\n');            writeFile(outputFile,`\n  ${chapterTitle}\n`);

            item.video.forEach(function(item){// console.log('     【' + item.id + '】' + item.title + '\n');                writeFile(outputFile,`     【${item.id}】  ${item.title}\n`);
            })
        });

    });


}

 

#最後一個取得的資料:

########## #### #########原始碼:#########
/**
 * Created by hp-pc on 2017/6/7 0007. */const http = require('http');
const fs = require('fs');
const cheerio = require('cheerio');
const baseUrl = 'http://www.imooc.com/learn/';
const baseNuUrl = 'http://www.imooc.com/course/AjaxCourseMembers?ids=';//获取课程的IDconst videosId = [773,371];//输出的文件const outputFile = 'test.txt';//记录学习课程的人数let courseMembers = [];//去除字符串中的空格function Trim(str,is_global)
{
    let  result;
    result = str.replace(/(^\s+)|(\s+$)/g,"");if(is_global.toLowerCase()=="g")
    {
        result = result.replace(/\s/g,"");
    }return result;
}//接受一个url爬取整个网页,返回一个Promise对象function getPageAsync(url){return new Promise((resolve,reject)=>{
        console.log(`正在爬取${url}的内容`);
        http.get(url,function(res){
            let html = '';

            res.on('data',function(data){
                html += data;
            });

            res.on('end',function(){
                resolve(html);
            });

            res.on('error',function(err){
                reject(err);
                console.log('错误信息:' + err);
            })
        });
    })
}//接受一个爬取下来的网页内容,查找网页中需要的信息function filterChapter(html){
    const $ = cheerio.load(html);//所有章const chapters = $('.chapter');//课程的标题和学习人数let title = $('.hd>h2').text();
    let number = 0;//最后返回的数据//每个网页需要的内容的结构let courseData = {'title':title,'number':number,'videos':[]
    };

    chapters.each(function(item){
        let chapter = $(this);//文章标题let chapterTitle = Trim(chapter.find('strong').text(),'g');//每个章节的结构let chapterdata = {'chapterTitle':chapterTitle,'video':[]
        };//一个网页中的所有视频let videos = chapter.find('.video').children('li');
        videos.each(function(item){//视频标题let videoTitle = Trim($(this).find('a.J-media-item').text(),'g');//视频IDlet id = $(this).find('a').attr('href').split('video/')[1];
            chapterdata.video.push({'title':videoTitle,'id':id
            })
        });

        courseData.videos.push(chapterdata);

    });return courseData;
}//获取上课人数function getNumber(url){

    let datas = '';

    http.get(url,(res)=>{
        res.on('data',(chunk)=>{
            datas += chunk;
        });

        res.on('end',()=>{
            datas = JSON.parse(datas);
            courseMembers.push({'id':datas.data[0].id,'numbers':parseInt(datas.data[0].numbers,10)});
        });
    });
}//写入文件function writeFile(file,string) {
    fs.appendFileSync(file,string,(err)=>{if(err){
                console.log(err);
            }
        })
}//打印信息function printfData(coursesData){

    coursesData.forEach((courseData)=>{       // console.log(`${courseData.number}人学习过${courseData.title}\n`);       writeFile(outputFile,`\n\n${courseData.number}人学习过${courseData.title}\n\n`);

        courseData.videos.forEach(function(item){
            let chapterTitle = item.chapterTitle;// console.log(chapterTitle + '\n');            writeFile(outputFile,`\n  ${chapterTitle}\n`);

            item.video.forEach(function(item){// console.log('     【' + item.id + '】' + item.title + '\n');                writeFile(outputFile,`     【${item.id}】  ${item.title}\n`);
            })
        });

    });


}//所有页面爬取完后返回的Promise数组let courseArray = [];//循环所有的videosId,和baseUrl进行字符串拼接,爬取网页内容videosId.forEach((id)=>{//将爬取网页完毕后返回的Promise对象加入数组courseArray.push(getPageAsync(baseUrl + id));//获取学习的人数getNumber(baseNuUrl + id);
});

Promise//当所有网页的内容爬取完毕    .all(courseArray)
    .then((pages)=>{//所有页面需要的内容let courseData = [];//遍历每个网页提取出所需要的内容pages.forEach((html)=>{
            let courses = filterChapter(html);
            courseData.push(courses);
        });//给每个courseMenners.number赋值for(let i=0;i<videosId.length;i++){for(let j=0;j<videosId.length;j++){if(courseMembers[i].id +&#39;&#39; == videosId[j]){
                    courseData[j].number = courseMembers[i].numbers;
                }
            }
        }//对所需要的内容进行排序courseData.sort((a,b)=>{return a.number > b.number;
        });//在重新将爬取内容写入文件中前,清空文件fs.writeFileSync(outputFile,'###爬取慕课网课程信息###',(err)=>{if(err){
                console.log(err)
            }
        });
        printfData(courseData);
    });
###### ####

以上是爬取慕課網課程資訊實例教程的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn