node.js爬虫

这是一个简单的node.js爬虫项目，麻雀虽小五脏俱全。

本项目主要包含一下技术：

　　发送http抓取页面(http)、分析页面(cheerio)、中文乱码处理(bufferhelper)、异步并发流程控制（thenjs）

1、为什么选择http模块来发送Http请求下载页面

　　社区有很多封装好的Http请求模块，例如：request、needle、node-rest-client等，http有这些模块比拟不了的优势，可以监听抓取的字节流，我们知道要抓取的页面一般会含有汉字，一个汉字是3个字节（也有说4个字节），笔者在node中测试的是3个字节，一个英文字母是1个字节（见下图），node对中文的支持是不友好的，所以就需要借助bufferhelper来解决字节流问题，再使用 iconv-lite模块把buffer转化成utf8格式。

2、使用cheerio分析Html,让你感觉就像是在使用JQuery

3、虽说如今node上已经有异步控制的标准 async/await，但是thenjs，真的很好用，并且效率也不错，本项目主要用了它的异步并行控制 Then.each，了解更多thenjs介绍

4、本项目主要是抓取菜鸟教程的 HTML/CSS 下的8个页面，本项目先抓取 http://www.runoob.com 分析其Html，找到这8个页面的Url，再分别抓取这些页面的Html，写入到本地文件

代码 chong.js ：

var http = require('http');

var Then = require('thenjs');

var BufferHelper = require('bufferhelper');

var fs = require('fs');

var cheerio = require('cheerio'); // Html分析模块

var iconv = require('iconv-lite'); // 字符转码模块

var pageUrl = []; //Url集合

var pagesHtml = []; //所有Url获取的Html的集合

var baseUrl = 'http://www.runoob.com';

main();

function main() {

    console.log('Start');

    Then(cont => {

        grabPageAsync(baseUrl, cont)

    }).then((cont, html) => {

        var $ = cheerio.load(html);

        var $html = $('.codelist.codelist-desktop.cate1');

        var $aArr = $html.find('a');

        $aArr.each((i, u) => {

            pageUrl.push('http:' + $(u).attr('href'));

        })

        everyPage(cont);

    }).fin((cont, error, result) => {

        console.log(error ? error : JSON.stringify(result));

        console.log('End');

    })

}

//爬去每个Url

function everyPage(callback) {

    Then.each(pageUrl, (cont, item) => {

        grabPageAsync(item, cont);

    }).then((cont, args) => {

        pagesHtml = args;

        createHtml(cont);

    }).fin((cont, error, result) => {

        callback(error, result);

    })

}

//创建Html文件

function createHtml(callback) {

    Then.each(pagesHtml, (cont, item, index) => {

        var name = pageUrl[index].substr(pageUrl[index].lastIndexOf('/') + 1);

        fs.writeFile(__dirname + '/grapHtml/' + name, item, function(err) {

            err ? console.error(err) : console.log('写入成功：' + name);

            cont(err, index);

        });

    }).fin((cont, error, result) => {

        callback(error, result);

    })

}

// 异步爬取页面HTML

function grabPageAsync(url, callback) {

    http.get(url, function(res) {

        var bufferHelper = new BufferHelper();

        res.on('data', function(chunk) {

            bufferHelper.concat(chunk);

        });

        res.on('end', function() {

            console.log('爬取 ' + url + ' 成功');

            var fullBuffer = bufferHelper.toBuffer();

            var utf8Buffer = iconv.decode(fullBuffer, 'UTF-8');

            var html = utf8Buffer.toString()

            callback(null, html);

        });

    }).on('error', function(e) {

        // 爬取成功

        callback(e, null);

        console.log('爬取 ' + url + ' 失败');

    });

}

运行：

抓取的页面结果：

Github下载源代码

欢迎拍砖：)

本文原创转载请注明出处！

node.js爬虫的更多相关文章

Node.js爬虫-爬取慕课网课程信息
第一次学习Node.js爬虫,所以这时一个简单的爬虫,Node.js的好处就是可以并发的执行这个爬虫主要就是获取慕课网的课程信息,并把获得的信息存储到一个文件中,其中要用到cheerio库,它可以让 ...
Node.js aitaotu图片批量下载Node.js爬虫1.00版
即使是https网页,解析的方式也不是一致的,需要多试试. 代码: //====================================================== // aitaot ...
Node.js umei图片批量下载Node.js爬虫1.00
这个爬虫在abaike爬虫的基础上改改图片路径和下一页路径就出来了,代码如下: //====================================================== // ...
Node.js abaike图片批量下载Node.js爬虫1.01版
//====================================================== // abaike图片批量下载Node.js爬虫1.01 // 1.01 修正了输出目 ...
Node.js abaike图片批量下载Node.js爬虫1.00版
这个与前作的差别在于地址的不规律性,需要找到下一页的地址再爬过去找. //====================================================== // abaik ...
Node JS爬虫：爬取瀑布流网页高清图
原文链接:Node JS爬虫:爬取瀑布流网页高清图静态为主的网页往往用get方法就能获取页面所有内容.动态网页即异步请求数据的网页则需要用浏览器加载完成后再进行抓取.本文介绍了如何连续爬取瀑布流网页 ...
Node.js 爬虫爬取电影信息
Node.js 爬虫爬取电影信息我的CSDN地址:https://blog.csdn.net/weixin_45580251/article/details/107669713 爬取的是1905电影 ...
Node.js 爬虫初探
前言在学习慕课网视频和Cnode新手入门接触到爬虫,说是爬虫初探,其实并没有用到爬虫相关第三方类库,主要用了node.js基础模块http.网页分析工具cherrio. 使用http直接获取url路 ...
Node.js 爬虫，自动化抓取文章标题和正文
持续进行中... 目标: 动态User-Agent模拟浏览器 √ 支持Proxy设置,避免被服务器端拒绝 √ 支持多核模式,发挥多核CPU性能 √ 支持核内并发模式 √ 自动解码非英文站点,避免乱码出 ...

随机推荐

pandas.DataFrame学习系列1——定义及属性
定义: DataFrame是二维的.大小可变的.成分混合的.具有标签化坐标轴(行和列)的表数据结构.基于行和列标签进行计算.可以被看作是为序列对象(Series)提供的类似字典的一个容器,是panda ...
IOS 中的JS
文章摘自: http://www.cocoachina.com/ios/20150127/11037.html JSContext/JSValue JSContext 即JavaScript代码的 ...
Spring框架学习之高级依赖关系配置（二）
紧接着上篇内容,本篇文章将主要介绍XML Schema的简化配置和使用SpEL表达式语言来优化我们的配置文件. 一.基于XML Schema的简化配置方式从Spring2.0以来,Spring支持使 ...
Paint the Grid Reloaded（缩点，DFS+BFS）
Leo has a grid with N rows and M columns. All cells are painted with either black or white initially ...
Red and Black
Problem Description There is a rectangular room, covered with square tiles. Each tile is colored eit ...
一款超好用轻量级JS框架——Zepto.js(上)
前言絮叨絮叨之前我们介绍过JQuery怎么自定义一个插件,但没有详细介绍过JQuery,那么今天呢....我们还是不说JQuery,哈哈哈哈但是今天我们介绍一款和JQuery超级像的一 ...
C++图形编程之graphics.h头文件
graphics.h是Turbo C的针对DOS下的一个C语言图形库,如果要用的话应该用TC的编译器来编译,但是如果需要在vc及vs环境中使用graphics.h的功能,则可以选择下载EasyX图形库 ...
Linux 进程后台运行的几种方式（screen）
Ctrl+z/bg/nohup/setsid/& 在Linux中,如果要让进程在后台运行,一般情况下,我们在命令后面加上&即可,实际上,这样是将命令放入到一个作业队列中了: ./rsy ...
移动端车牌识别sdk开发包（可下载）
移动端车牌识别是一项基于OCR识别的应用技术.移动端车牌识别过程主要包含五个步骤,其中包括图像采集.图像预处理.车牌定位.字符分割.字符识别.输出结果等一系列计算机算法运算, 第一步[图像采集]:此步 ...
The Lisp Curse ／Lisp魔咒
The Lisp Curse /Lisp魔咒 http://winestockwebdesign.com/Essays/Lisp_Curse.html 英文出处 http://www.soimort. ...

node.js爬虫

node.js爬虫的更多相关文章

随机推荐

热门专题