Node.js爬虫-爬取慕课网课程信息

第一次学习Node.js爬虫，所以这时一个简单的爬虫，Node.js的好处就是可以并发的执行

这个爬虫主要就是获取慕课网的课程信息，并把获得的信息存储到一个文件中，其中要用到cheerio库，它可以让我们方便的操作HTML，就像是用jQ一样

开始前，记得

npm install cheerio

为了能够并发的进行爬取，用到了Promise对象

//接受一个url爬取整个网页，返回一个Promise对象

function getPageAsync(url){

    return new Promise((resolve,reject)=>{

        console.log(`正在爬取${url}的内容`);

        http.get(url,function(res){

            let html = '';

            res.on('data',function(data){

                html += data;

            });

            res.on('end',function(){

                resolve(html);

            });

            res.on('error',function(err){

                reject(err);

                console.log('错误信息：' + err);

            })

        });

    })

}

在慕课网中，每个课程都有一个ID，我们事先要把想要获取课程的ID写到一个数组中，而且每个课程的地址都是一个相同的地址加上ID，所以我们只要把地址和ID拼接起来就是课程的地址

const baseUrl = 'http://www.imooc.com/learn/';

const baseNuUrl = 'http://www.imooc.com/course/AjaxCourseMembers?ids=';

//获取课程的ID

const videosId = [773,371];

为了使获取每个课程内容时并发执行，要使用Promise中的all方法

Promise

    //当所有网页的内容爬取完毕

    .all(courseArray)

    .then((pages)=>{

        //所有页面需要的内容

        let courseData = [];

        //遍历每个网页提取出所需要的内容

        pages.forEach((html)=>{

            let courses = filterChapter(html);

            courseData.push(courses);

        });

        //给每个courseMenners.number赋值

        for(let i=0;i<videosId.length;i++){

            for(let j=0;j<videosId.length;j++){

                if(courseMembers[i].id +'' == videosId[j]){

                    courseData[j].number = courseMembers[i].numbers;

                }

            }

        }

        //对所需要的内容进行排序

        courseData.sort((a,b)=>{

            return a.number > b.number;

        });

        //在重新将爬取内容写入文件中前，清空文件

        fs.writeFileSync(outputFile,'###爬取慕课网课程信息###',(err)=>{

            if(err){

                console.log(err)

            }

        });

        printfData(courseData);

    });

在then方法中，pages是每个课程的HTML页面，我们还得从中提取出我们需要的信息，需要使用下面的函数

//接受一个爬取下来的网页内容，查找网页中需要的信息

function filterChapter(html){

    const $ = cheerio.load(html);

    //所有章

    const chapters = $('.chapter');

    //课程的标题和学习人数

    let title = $('.hd>h2').text();

    let number = 0;

    //最后返回的数据

    //每个网页需要的内容的结构

    let courseData = {

        'title':title,

        'number':number,

        'videos':[]

    };

    chapters.each(function(item){

        let chapter = $(this);

        //文章标题

        let chapterTitle = Trim(chapter.find('strong').text(),'g');

        //每个章节的结构

        let chapterdata = {

            'chapterTitle':chapterTitle,

            'video':[]

        };

        //一个网页中的所有视频

        let videos = chapter.find('.video').children('li');

        videos.each(function(item){

            //视频标题

            let videoTitle = Trim($(this).find('a.J-media-item').text(),'g');

            //视频ID

            let id = $(this).find('a').attr('href').split('video/')[1];

            chapterdata.video.push({

                'title':videoTitle,

                'id':id

            })

        });

        courseData.videos.push(chapterdata);

    });

    return courseData;

}

注意：在上面中将课程的学习人数设置为了0是因为学习课程人数是用Ajax动态获取，所以我在后面写了方法专门获取学习课程人数，其中用到的Trim()方法是去除文本中的空格

获取学习课程的人数：

//获取上课人数

function getNumber(url){

    let datas = '';

    http.get(url,(res)=>{

        res.on('data',(chunk)=>{

            datas += chunk;

        });

        res.on('end',()=>{

            datas = JSON.parse(datas);

            courseMembers.push({'id':datas.data[0].id,'numbers':parseInt(datas.data[0].numbers,10)});

        });

    });

}

这样就将想获取课程的学习人数都添加到了courseMembers数组中，在最后将学习课程的人数在赋值给相对应的课程

        //给每个courseMenners.number赋值

        for(let i=0;i<videosId.length;i++){

            for(let j=0;j<videosId.length;j++){

                if(courseMembers[i].id +'' == videosId[j]){

                    courseData[j].number = courseMembers[i].numbers;

                }

            }

        }

我们获取到了数据，就要把它按照一定的格式存到一个文件中

//写入文件

function writeFile(file,string) {

    fs.appendFileSync(file,string,(err)=>{

            if(err){

                console.log(err);

            }

        })

}

//打印信息

function printfData(coursesData){

    coursesData.forEach((courseData)=>{

       // console.log(`${courseData.number}人学习过${courseData.title}\n`);

       writeFile(outputFile,`\n\n${courseData.number}人学习过${courseData.title}\n\n`);

        courseData.videos.forEach(function(item){

            let chapterTitle = item.chapterTitle;

            // console.log(chapterTitle + '\n');

            writeFile(outputFile,`\n  ${chapterTitle}\n`);

            item.video.forEach(function(item){

                // console.log('     【' + item.id + '】' + item.title + '\n');

                writeFile(outputFile,`     【${item.id}】  ${item.title}\n`);

            })

        });

    });

}

最后获取到的数据：

源码：

/**

 * Created by hp-pc on 2017/6/7 0007.

 */

const http = require('http');

const fs = require('fs');

const cheerio = require('cheerio');

const baseUrl = 'http://www.imooc.com/learn/';

const baseNuUrl = 'http://www.imooc.com/course/AjaxCourseMembers?ids=';

//获取课程的ID

const videosId = [773,371];

//输出的文件

const outputFile = 'test.txt';

//记录学习课程的人数

let courseMembers = [];

//去除字符串中的空格

function Trim(str,is_global)

{

    let  result;

    result = str.replace(/(^\s+)|(\s+$)/g,"");

    if(is_global.toLowerCase()=="g")

    {

        result = result.replace(/\s/g,"");

    }

    return result;

}

//接受一个url爬取整个网页，返回一个Promise对象

function getPageAsync(url){

    return new Promise((resolve,reject)=>{

        console.log(`正在爬取${url}的内容`);

        http.get(url,function(res){

            let html = '';

            res.on('data',function(data){

                html += data;

            });

            res.on('end',function(){

                resolve(html);

            });

            res.on('error',function(err){

                reject(err);

                console.log('错误信息：' + err);

            })

        });

    })

}

//接受一个爬取下来的网页内容，查找网页中需要的信息

function filterChapter(html){

    const $ = cheerio.load(html);

    //所有章

    const chapters = $('.chapter');

    //课程的标题和学习人数

    let title = $('.hd>h2').text();

    let number = 0;

    //最后返回的数据

    //每个网页需要的内容的结构

    let courseData = {

        'title':title,

        'number':number,

        'videos':[]

    };

    chapters.each(function(item){

        let chapter = $(this);

        //文章标题

        let chapterTitle = Trim(chapter.find('strong').text(),'g');

        //每个章节的结构

        let chapterdata = {

            'chapterTitle':chapterTitle,

            'video':[]

        };

        //一个网页中的所有视频

        let videos = chapter.find('.video').children('li');

        videos.each(function(item){

            //视频标题

            let videoTitle = Trim($(this).find('a.J-media-item').text(),'g');

            //视频ID

            let id = $(this).find('a').attr('href').split('video/')[1];

            chapterdata.video.push({

                'title':videoTitle,

                'id':id

            })

        });

        courseData.videos.push(chapterdata);

    });

    return courseData;

}

//获取上课人数

function getNumber(url){

    let datas = '';

    http.get(url,(res)=>{

        res.on('data',(chunk)=>{

            datas += chunk;

        });

        res.on('end',()=>{

            datas = JSON.parse(datas);

            courseMembers.push({'id':datas.data[0].id,'numbers':parseInt(datas.data[0].numbers,10)});

        });

    });

}

//写入文件

function writeFile(file,string) {

    fs.appendFileSync(file,string,(err)=>{

            if(err){

                console.log(err);

            }

        })

}

//打印信息

function printfData(coursesData){

    coursesData.forEach((courseData)=>{

       // console.log(`${courseData.number}人学习过${courseData.title}\n`);

       writeFile(outputFile,`\n\n${courseData.number}人学习过${courseData.title}\n\n`);

        courseData.videos.forEach(function(item){

            let chapterTitle = item.chapterTitle;

            // console.log(chapterTitle + '\n');

            writeFile(outputFile,`\n  ${chapterTitle}\n`);

            item.video.forEach(function(item){

                // console.log('     【' + item.id + '】' + item.title + '\n');

                writeFile(outputFile,`     【${item.id}】  ${item.title}\n`);

            })

        });

    });

}

//所有页面爬取完后返回的Promise数组

let courseArray = [];

//循环所有的videosId,和baseUrl进行字符串拼接，爬取网页内容

videosId.forEach((id)=>{

    //将爬取网页完毕后返回的Promise对象加入数组

    courseArray.push(getPageAsync(baseUrl + id));

    //获取学习的人数

    getNumber(baseNuUrl + id);

});

Promise

    //当所有网页的内容爬取完毕

    .all(courseArray)

    .then((pages)=>{

        //所有页面需要的内容

        let courseData = [];

        //遍历每个网页提取出所需要的内容

        pages.forEach((html)=>{

            let courses = filterChapter(html);

            courseData.push(courses);

        });

        //给每个courseMenners.number赋值

        for(let i=0;i<videosId.length;i++){

            for(let j=0;j<videosId.length;j++){

                if(courseMembers[i].id +'' == videosId[j]){

                    courseData[j].number = courseMembers[i].numbers;

                }

            }

        }

        //对所需要的内容进行排序

        courseData.sort((a,b)=>{

            return a.number > b.number;

        });

        //在重新将爬取内容写入文件中前，清空文件

        fs.writeFileSync(outputFile,'###爬取慕课网课程信息###',(err)=>{

            if(err){

                console.log(err)

            }

        });

        printfData(courseData);

    });

Node.js爬虫-爬取慕课网课程信息的更多相关文章

养只爬虫当宠物（Node.js爬虫爬取58同城租房信息）
先上一个源代码吧. https://github.com/answershuto/Rental 欢迎指导交流. 效果图搭建Node.js环境及启动服务安装node以及npm,用express模块启 ...
Node.js 爬虫爬取电影信息
Node.js 爬虫爬取电影信息我的CSDN地址:https://blog.csdn.net/weixin_45580251/article/details/107669713 爬取的是1905电影 ...
Python爬虫之爬取慕课网课程评分
BS是什么? BeautifulSoup是一个基于标签的文本解析工具.可以根据标签提取想要的内容,很适合处理html和xml这类语言文本.如果你希望了解更多关于BS的介绍和用法,请看Beautiful ...
python爬虫:爬取慕课网视频
前段时间安装了一个慕课网app,发现不用注册就可以在线看其中的视频,就有了想爬取其中的视频,用来在电脑上学习.决定花两天时间用学了一段时间的python做一做.(我的新书<Python爬虫开发与 ...
手把手教你用Node.js爬虫爬取网站数据
个人网站 https://iiter.cn 程序员导航站开业啦,欢迎各位观众姥爷赏脸参观,如有意见或建议希望能够不吝赐教! 开始之前请先确保自己安装了Node.js环境,还没有安装的的童鞋请自行百度 ...
node.js爬虫爬取拉勾网职位信息
简介用node.js写了一个简单的小爬虫,用来爬取拉勾网上的招聘信息,共爬取了北京.上海.广州.深圳.杭州.西安.成都7个城市的数据,分别以前端.PHP.java.c++.python.Androi ...
node js 爬虫爬取静态页面，
先打一个简单的通用框子 //根据爬取网页的协议引入对应的协议, http||https var http = require('https'); //引入cheerio 简单点讲就是node中的jq ...
node：爬虫爬取网页图片
代码地址如下:http://www.demodashi.com/demo/13845.html 前言周末自己在家闲着没事,刷着微信,玩着手机,发现自己的微信头像该换了,就去网上找了一下头像,看着图片 ...
Python爬虫项目--爬取自如网房源信息
本次爬取自如网房源信息所用到的知识点: 1. requests get请求 2. lxml解析html 3. Xpath 4. MongoDB存储正文 1.分析目标站点 1. url: http:/ ...

随机推荐

SIP DB33标准笔记监控图像获取
实时监控图像的获取: a) 实时监控图像的获取过程应包括获取实时流.释放实时流.应使用 RFC 3261 中定义的方法INVITE 获取一个摄像机的实时监控视频流. 取消没有完成的连接应采用 CANC ...
【caffe-windows】 caffe-master 之训练自己数据集（图片转换成lmdb or leveldb）
前期准备: 文件夹train:此文件夹中按类别分好子文件夹,各子文件夹里存放相应图片文件夹test:同train,有多少类就有多少个子文件夹 trainlabels.txt : 存的是训练集的标签 ...
关于Java中volatile关键字笔记
volatile通常被认为是一种轻量级的synchronized,字面上它表示易变的,在并发编程中,它保证了共享变量的可见性.所谓可见性指的是,某个线程对变量进行操作后,其他线程能够读取到操作后的最新 ...
js继承与闭包（笔记）
1.一切引用类型都是对象,对象时属性的集合:typeof null === 'object'(例外): 2.对象都是通过函数创建来的,比如var obj = new Object();typeof O ...
读书笔记之JavaScript中的数据类型(1)
JavaScript严格意义上分为ECMAScript.DOM.BOM.ECMAScript是一门真正意义上的语言,独立于浏览器,浏览器只是它的一个宿主环境.DOM(文档对象模型),为ECMAScri ...
事件的preventDefault方法
事件有一个preventDefault()方法,该方法可以用来取消事件的默认行为.许多事件都有默认执行的关联行为.例如,如果用户在文本字段中键入一个字符,则默认行为就是在文本字段中显示该字符.由于可以 ...
[Oracle]LogMiner工具小结
(一)LogMiner工具的作用Logminer工具主要用来分析redo log和archive log文件.通过该工具,可以轻松获得Oracle redo log和archive log文件的具体内 ...
flex布局下，css设置文本不换行时，省略号不显示的解决办法
大致是有一个main容器是flex布局,左边一个logo固定宽高,右边content动态宽度. <div class="main"> <img alt=" ...
CI Weekly #18 | flow.ci iOS 最佳实践出炉，正式支持 Git@OSC 构建
如大家所期待,flow.ci 现已支持开源中国的代码仓库 - 码云,可以直接构建 Git@OSC 的项目了,点击创建项目-选择代码仓库-选择码云-绑定 OSChina 账户-选择要构建项目,教程看这里 ...
[周译见] C# 7 中的模范和实践
原文地址:https://www.infoq.com/articles/Patterns-Practices-CSharp-7 关键点遵循 .NET Framework 设计指南,时至今日,仍像十年 ...

Node.js爬虫-爬取慕课网课程信息

Node.js爬虫-爬取慕课网课程信息的更多相关文章

随机推荐

热门专题