node小爬虫

这一章主利用node的http模块制作一个网页的小爬虫来爬去网页信息，其中对于后端html的节点的获取采用了cheerio模块，这

/**

 * Created by Administrator on 2016/9/16.

 */

var http = require('http');

var cheerio = require('cheerio');

var url = 'http://www.imooc.com/learn/348';

function filterChapters(html){

      var $ = cheerio.load(html);// 要使用cheerio模块先要用npm install cheerio加载进来，然后再前面引入(var cheerio = require('cheerio');)

      var chapters = $('.chapter');

    var courseData = [];

    chapters.each(function(item){

        var chapter = $(this);

        var chapterTitle = chapter.find('strong').text();

        var videos = chapter.find('.video').children('li');

        var chapterData = {

            chapterTitle:chapterTitle,

            videos:[]

        }

        videos.each(function(item){

            var video = $(this).find('.J-media-item');

            var videoTitle = video.text();

            var id = video.attr('href').split('video/')[1];

            chapterData.videos.push({

                title:videoTitle,

                id:id,

            })

        })

        courseData.push(chapterData);

    })

    return courseData;

}

function printCourseInfo(courseData){

    courseData.forEach(function(item){

         var chapterTitle = item.chapterTitle;

        console.log(chapterTitle );

        item.videos.forEach(function(video){

            console.log(video.id)

            //console.log(' 【'+ video.id + '】 '+ video.title + '\n');

        })

    })

}

http.get(url,function(res){

    var html = '';

    res.on('data',function(data){ res会监听data事件的发生

        html += data;

    });

    res.on('end',function(){

        var courseData = filterChapters(html);

        printCourseInfo(courseData);

    })

}).on('error',function(){

    console.log('获取课程出错！')

})

个模块可以在后端获取html页面的元素

，获取方法类似于jquery

代码如下

node小爬虫的更多相关文章

【原】小玩node+express爬虫-2
上周写了一个node+experss的爬虫小入门.今天继续来学习一下,写一个爬虫2.0版本. 这次我们不再爬博客园了,咋玩点新的,爬爬电影天堂.因为每个周末都会在电影天堂下载一部电影来看看. talk ...
node.js 开发简易的小爬虫
node.js 开发简易的小爬虫最近公司开发一款医药类的软件,所以需要一些药品的基础数据,所以本人就用node.js写一个简易的小爬虫,并写记录这个Demo以供大家参考. 一.开发前的准备: 1, ...
Java豆瓣电影爬虫——小爬虫成长记（附源码）
以前也用过爬虫,比如使用nutch爬取指定种子,基于爬到的数据做搜索,还大致看过一些源码.当然,nutch对于爬虫考虑的是十分全面和细致的.每当看到屏幕上唰唰过去的爬取到的网页信息以及处理信息的时候, ...
node.js爬虫爬取拉勾网职位信息
简介用node.js写了一个简单的小爬虫,用来爬取拉勾网上的招聘信息,共爬取了北京.上海.广州.深圳.杭州.西安.成都7个城市的数据,分别以前端.PHP.java.c++.python.Androi ...
nodejs http小爬虫
本课程用nodejs写一个http小爬虫,首先科普一下,爬虫就是把网上的网页代码给弄下来,然后纳为己用.目前最大的爬虫:百度快照等的. 下面直接上代码示例一: var http = require( ...
nodejs .http模块, cheerio模块实现小爬虫.
代码: var http = require("http"); var cheerio = require("cheerio"); var url = 'htt ...
node：爬虫爬取网页图片
代码地址如下:http://www.demodashi.com/demo/13845.html 前言周末自己在家闲着没事,刷着微信,玩着手机,发现自己的微信头像该换了,就去网上找了一下头像,看着图片 ...
Node.js 爬虫批量下载美剧 from 人人影视 HR-HDTV
这两天发现了一个叫看知乎的站点.是知乎的苏莉安做的,当中爬虫使用的 Node.js.这里就针对上一篇博客中的美剧小爬虫,改用 nodejs 进行实现一下.体验一下强大的 Node.js. 假设之前没实 ...
放养的小爬虫--豆瓣电影入门级爬虫(mongodb使用教程~)
放养的小爬虫--豆瓣电影入门级爬虫(mongodb使用教程~) 笔者声明:只用于学习交流,不用于其他途径.源代码已上传github.githu地址:https://github.com/Erma-Wa ...

随机推荐

python 2.7 操作mysql数据库实例
create table msg(id int primary key auto_increment,title varchar(20),name varchar(60),content varcha ...
剑指Offer-21.栈的压入、弹出序列(C++/Java)
题目: 输入两个整数序列,第一个序列表示栈的压入顺序,请判断第二个序列是否可能为该栈的弹出顺序.假设压入栈的所有数字均不相等.例如序列1,2,3,4,5是某栈的压入顺序,序列4,5,3,2,1是该压栈 ...
剑指Offer-18.二叉树的镜像(C++/Java)
题目: 题目描述操作给定的二叉树,将其变换为源二叉树的镜像. 输入描述: 二叉树的镜像定义:源二叉树 8 / \ 6 10 / \ / \ 5 7 9 11 镜像二叉树 8 / \ 10 6 / \ ...
ASP.NET开发实战——（八）ASP.NET MVC 与数据库之MySQL
之前介绍了My Blog如何使用ADO.NET来访问SQL Server获取数据.本章将介绍如何使用My SQL来完成数据管理. 在使用My SQL之前需确保开发环境中安装了My SQL数据库和Con ...
hydra 常用命令解析
参数说明: Hydra v9.0 (c) 2019 by van Hauser/THC - Please do not use in military or secret service organi ...
vue 使用localstorage实现面包屑
mutation.js代码: changeRoute(state, val) { let routeList = state.routeList; let isFind = false; let fi ...
【shell脚本】检查内存使用情况===chenkMen.sh
检查内存使用情况,当内存可使用等于100时,释放缓存 [root@localhost thy]# cat checkMem.sh #!/bin/bash #防止内存溢出问题 used=`free -m ...
H3C 12508 收集诊断信息
案例:H3C 12508单板卡出现remove状态,需要配合研发收集诊断信息. (此文档只展示研发要求的诊断信息.) 总体:12500交换机返回三种文件----故障时诊断信息,主备单板的日志文 ...
pytest 常见用法
前言之前一篇文章简单介绍了 pytest 以及 fixture :https://www.cnblogs.com/shenh/p/11572657.html .实际在写自动化测试脚本中,还会有一些很 ...
python threading ThreadPoolExecutor
线程池,为什么要使用线程池:1. 线程中可以获取某一个线程的状态或者某一个任务的状态,以及返回值2. 当一个线程完成的时候我们主线程能立即知道3. futures可以让多线程和多进程编码接口一致获取 ...

node小爬虫

node小爬虫的更多相关文章

随机推荐

热门专题