基于nodejs 的多页面爬虫

前言

前端时间再回顾了一下node.js，于是顺势做了一个爬虫来加深自己对node的理解。
主要用的到是request，cheerio，async三个模块
request
用于请求地址和快速下载图片流。
https://github.com/request/request
cheerio
为服务器特别定制的，快速、灵活、实施的jQuery核心实现.
便于解析html代码。
https://www.npmjs.com/package/cheerio
async
异步调用，防止堵塞。
http://caolan.github.io/async/

核心思路

用request 发送一个请求。获取html代码，取得其中的img标签和a标签。
通过获取的a表情进行递归调用。不断获取img地址和a地址，继续递归
获取img地址通过request(photo).pipe(fs.createWriteStream(dir + “/” + filename));进行快速下载。

function requestall(url) {

  request({

    uri: url,

    headers: setting.header

  }, function (error, response, body) {

    if (error) {

      console.log(error);

    } else {

      console.log(response.statusCode);

      if (!error && response.statusCode == 200) {

        var $ = cheerio.load(body);

        var photos = [];

        $('img').each(function () {

          // 判断地址是否存在

          if ($(this).attr('src')) {

            var src = $(this).attr('src');

            var end = src.substr(-4, 4).toLowerCase();

            if (end == '.jpg' || end == '.png' || end == '.jpeg') {

              if (IsURL(src)) {

                photos.push(src);

              }

            }

          }

        });

        downloadImg(photos, dir, setting.download_v);

        // 递归爬虫

        $('a').each(function () {

          var murl = $(this).attr('href');

          if (IsURL(murl)) {

            setTimeout(function () {

              fetchre(murl);

            }, timeout);

            timeout += setting.ajax_timeout;

          } else {

            setTimeout(function () {

              fetchre("http://www.ivsky.com/" + murl);

            }, timeout);

            timeout += setting.ajax_timeout;

          }

        })

      }

    }

  });

}

防坑

1.在request通过图片地址下载时，绑定error事件防止爬虫异常的中断。
2.通过async的mapLimit限制并发。
3.加入请求报头，防止ip被屏蔽。
4.获取一些图片和超链接地址，可能是相对路径（待考虑解决是否有通过方法）。

function downloadImg(photos, dir, asyncNum) {

  console.log("即将异步并发下载图片，当前并发数为:" + asyncNum);

  async.mapLimit(photos, asyncNum, function (photo, callback) {

    var filename = (new Date().getTime()) + photo.substr(-4, 4);

    if (filename) {

      console.log('正在下载' + photo);

      // 默认

      // fs.createWriteStream(dir + "/" + filename)

      // 防止pipe错误

      request(photo)

        .on('error', function (err) {

          console.log(err);

        })

        .pipe(fs.createWriteStream(dir + "/" + filename));

      console.log('下载完成');

      callback(null, filename);

    }

  }, function (err, result) {

    if (err) {

      console.log(err);

    } else {

      console.log(" all right ! ");

      console.log(result);

    }

  })

}


测试：

可以感觉到速度还是比较快的。 
  

完整地址。https://github.com/hua1995116/node-crawler/

基于nodejs 的多页面爬虫的更多相关文章

浏览器自动刷新——基于Nodejs的Gulp LiveReload与VisualStudio完美结合。
本文版权桂博客园和作者吴双共同所有,转载和爬虫请注明原文地址 http://www.cnblogs.com/tdws/p/6016055.html 写在前面大家好我是博客园的蜗牛,博客园的蜗牛就是我 ...
一个基于NodeJS开发的APP管理CMS系统
花了大概3周独立开发了一个基于NodeJS的CMS系统,用于公司APP的内容管理( **公司APP?广告放在最后 ^_^ ** ,管理员请理解~~~ )晚上看了部电影还不想睡,闲着也是闲着就作下小小总 ...
基于NodeJS的全栈式开发
前言为了解决传统Web开发模式带来的各种问题,我们进行了许多尝试,但由于前/后端的物理鸿沟,尝试的方案都大同小异.痛定思痛,今天我们重新思考了“前后端”的定义,引入前端同学都熟悉的 NodeJS,试 ...
基于Nodejs生态圈的TypeScript+React开发入门教程
基于Nodejs生态圈的TypeScript+React开发入门教程概述本教程旨在为基于Nodejs npm生态圈的前端程序开发提供入门讲解. Nodejs是什么 Nodejs是一个高性能Ja ...
（转）也谈基于NodeJS的全栈式开发（基于NodeJS的前后端分离）
原文链接:http://ued.taobao.org/blog/2014/04/full-stack-development-with-nodejs/ 随着不同终端(pad/mobile/pc)的兴起 ...
也谈基于NodeJS的全栈式开发（基于NodeJS的前后端分离）
前言为了解决传统Web开发模式带来的各种问题,我们进行了许多尝试,但由于前/后端的物理鸿沟,尝试的方案都大同小异.痛定思痛,今天我们重新思考了“前后端”的定义,引入前端同学都熟悉的NodeJS,试图 ...
基于nodejs模拟浏览器post请求爬取json数据
今天想爬取某网站的后台传来的数据,中间遇到了很多阻碍,花了2个小时才请求到数据,所以我在此总结了一些经验. 首先,放上我所爬取的请求地址http://api.chuchujie.com/api/?v= ...
[转] 基于NodeJS的前后端分离的思考与实践（五）多终端适配
前言近年来各站点基于 Web 的多终端适配进行得如火如荼,行业间也发展出依赖各种技术的解决方案.有如基于浏览器原生 CSS3 Media Query 的响应式设计.基于云端智能重排的「云适配」方案等 ...
http-server 基于nodejs的http服务器
http-server所用场景: 作为前端的同学来说,想要运行一段代码,但又没有必要使用tomcat或是Apache http server,这个时候,一个简单的轻量的http-server就能搞定. ...

随机推荐

关于mysql的初步学习
1.在windows上使用CMD链接数据库这是原始用户表 users 这是通过语句插入而来的 user表和user2表结构相同 user2 的数据通过如下SQL语句从users表赋值过来: in ...
React组件实现越级传递属性
如果有这样一个结构:三级嵌套,分别是:一级父组件.二级子组件.三级孙子组件,且前者包含后者,结构如图: 如果把一个属性,比如color,从一级传递给三级,一般做法是使用props逐一向下传递,代码如下 ...
CHM文件无法打开或无法搜索
在确保CHM文件本身正常的前提下,检查c:\\windows\hh.exe和C:\\windows\system32\itss.dll和hhctrl.ocx三个文件是否存在. 如不存在,只需要从其他机 ...
基于 Haproxy 构建负载均衡集群
1.HAPROXY简介 HAProxy提供高可用性.负载均衡以及基于TCP和HTTP应用的代理,支持虚拟主机,它是免费.快速并且可靠的一种负载均衡解决方案.HAProxy特别适用于那些负载特大的web ...
交作业啊，python爬取58的页面
第一次写博文,好紧张啊,写这么烂怎么给别人看啊先做下总结: 刚开始学习python,自我感觉python写起来确实很方便,各种库,各种语法糖,不过刚接触,一下子记不下来这么多东西,总感觉乱乱的,用的多 ...
关于Java中String类的hashCode方法
首先来看一下String中hashCode方法的实现源码 public int hashCode() { int h = hash; if (h == 0 && value.lengt ...
频繁模式挖掘中Apriori、FP-Growth和Eclat算法的实现和对比
最近上数据挖掘的课程,其中学习到了频繁模式挖掘这一章,这章介绍了三种算法,Apriori.FP-Growth和Eclat算法:由于对于不同的数据来说,这三种算法的表现不同,所以我们本次就对这三种算法在 ...
PHP 手册
http://www.php.net/manual/zh/index.php 感谢中文翻译工作者. PHP 手册¶ by:Mehdi Achour Friedhelm Betz Antony Dovg ...
JMS学习篇《一》ActiveMQ消息中间件的简单介绍与用法-概念篇
原创说明:本篇博文为本人原创作品,转载请注明出处 1.何为消息中间件消息中间件是一种在分布式应用中互相交换信息的一种技术,常见的成熟消息中间件有:RabbitMQ.SonicMQ,activeMQ. ...

基于nodejs 的多页面爬虫

前言

核心思路

防坑

基于nodejs 的多页面爬虫的更多相关文章

随机推荐

热门专题