Nodejs爬虫进阶=>异步并发控制

之前写了个现在看来很不完美的小爬虫，很多地方没有处理好，比如说在知乎点开一个问题的时候，它的所有回答并不是全部加载好了的，当你拉到回答的尾部时，点击加载更多，回答才会再加载一部分，所以说如果直接发送一个问题的请求链接，取得的页面是不完整的。还有就是我们通过访问链接下载图片的时候，是一张一张来下的，如果图片数量太多的话，真的是会下到你睡完觉它还在下。

这次的的爬虫是上次那个的升级版，爬虫代码在我的github上可以找到=>NodeSpider。

整个爬虫的思路是这样的：在一开始我们通过请求问题的链接抓取到部分页面数据，接下来我们在代码中模拟ajax请求截取剩余页面的数据，当然在这里也是可以通过异步来实现并发的，对于小规模的异步流程控制，可以用这个模块=>eventproxy，但这里我就没有用啦！我们通过分析获取到的页面从中截取出所有图片的链接，再通过异步并发来实现对这些图片的批量下载。

抓取页面初始的数据很简单啊，这里就不做多解释了

 /*获取首屏所有图片链接*/

 var getInitUrlList=function(){

     request.get("https://www.zhihu.com/question/34937418")

             .end(function(err,res){

                 if(err){

                     console.log(err);

                 }else{

                     var $=cheerio.load(res.text);

                     var answerList=$(".zm-item-answer");

                     answerList.map(function(i,answer){

                         var images=$(answer).find('.zm-item-rich-text img');

                         images.map(function(i,image){

                             photos.push($(image).attr("src"));

                         });

                     });

                     console.log("已成功抓取"+photos.length+"张图片的链接");

                     getIAjaxUrlList(20);

                 }

             });

 }

模拟ajax请求获取完整页面

接下来就是怎么去模拟点击加载更多时发出的ajax请求了，去知乎看一下吧！

有了这些信息，就可以来模拟发送相同的请求来获得这些数据啦。

 /*每隔100毫秒模拟发送ajax请求，并获取请求结果中所有的图片链接*/

 var getIAjaxUrlList=function(offset){

     request.post("https://www.zhihu.com/node/QuestionAnswerListV2")

             .set(config)

                 .send("method=next&params=%7B%22url_token%22%3A34937418%2C%22pagesize%22%3A20%2C%22offset%22%3A" +offset+ "%7D&_xsrf=98360a2df02783902146dee374772e51")

                     .end(function(err,res){

                         if(err){

                             console.log(err);

                         }else{

                             var response=JSON.parse(res.text);/*想用json的话对json序列化即可，提交json的话需要对json进行反序列化*/

                             if(response.msg&&response.msg.length){

                                 var $=cheerio.load(response.msg.join(""));/*把所有的数组元素拼接在一起，以空白符分隔，不要这样join()，它会默认数组元素以逗号分隔*/

                                 var answerList=$(".zm-item-answer");

                                 answerList.map(function(i,answer){

                                     var images=$(answer).find('.zm-item-rich-text img');

                                     images.map(function(i,image){

                                         photos.push($(image).attr("src"));

                                     });

                                 });

                                 setTimeout(function(){

                                     offset+=20;

                                     console.log("已成功抓取"+photos.length+"张图片的链接");

                                     getIAjaxUrlList(offset);

                                 },100);

                             }else{

                                 console.log("图片链接全部获取完毕，一共有"+photos.length+"条图片链接");

                                 // console.log(photos);

                                 return downloadImg(50);

                             }

                         }

                     });

 }

在代码中post这条请求https://www.zhihu.com/node/QuestionAnswerListV2，把原请求头和请求参数复制下来，作为我们的请求头和请求参数，superagent的set方法可用来设置请求头，send方法可以用来发送请求参数。我们把请求参数中的offset初始为20，每隔一定时间offset再加20，再重新发送请求，这样就相当于我们每隔一定时间发送了一条ajax请求，获取到最新的20条数据，每获取到了数据，我们再对这些数据进行一定的处理，让它们变成一整段的html，便于后面的提取链接处理。

异步并发控制下载图片
再获取完了所有的图片链接之后，即判定response.msg为空时，我们就要对这些图片进行下载了，不可能一条一条下对不对，因为如你所看到的，我们的图片足足有

没错，2万多张，不过幸好nodejs拥有神奇的单线程异步特性，我们可以同时对这些图片进行下载。但这个时候问题来了，听说同时发送请求太多的话会被网站封ip的啊！所有我们肯定不能同时并发下载这两万多张图片，这个时候就需要对异步并发数量进行一些控制了。

在这里用到了一个神奇的模块=>async，它不仅能帮我们拜托难以维护的回调金字塔恶魔，还能轻松的帮我们进行异步流程的管理。具体看文档啦，这里就只用到了一个强大的async.mapLimit方法。

 var requestAndwrite=function(url,callback){

     request.get(url).end(function(err,res){

         if(err){

             console.log(err);

             console.log("有一张图片请求失败啦...");

         }else{

             var fileName=path.basename(url);

             fs.writeFile("./img1/"+fileName,res.body,function(err){

                 if(err){

                     console.log(err);

                     console.log("有一张图片写入失败啦...");

                 }else{

                     console.log("图片下载成功啦");

                     callback(null,"successful !");

                     /*callback貌似必须调用，第二个参数将传给下一个回调函数的result，result是一个数组*/

                 }

             });

         }

     });

 }

 var downloadImg=function(asyncNum){

     /*有一些图片链接地址不完整没有“http:”头部,帮它们拼接完整*/

     for(var i=0;i<photos.length;i++){

         if(photos[i].indexOf("http")===-1){

             photos[i]="http:"+photos[i];

         }

     }

     console.log("即将异步并发下载图片，当前并发数为:"+asyncNum);

     async.mapLimit(photos,asyncNum,function(photo,callback){

         console.log("已有"+asyncNum+"张图片进入下载队列");

         requestAndwrite(photo,callback);

     },function(err,result){

         if(err){

             console.log(err);

         }else{

             // console.log(result);<=会输出一个有2万多个“successful”字符串的数组

             console.log("全部已下载完毕！");

         }

     });

 };

先看这里=>

mapLimit方法的第一个参数photos是所有图片链接的数组，也是我们并发请求的对象，asyncNum是限制并发请求的数量。当我们有这个参数时，比如它的值是10，则它一次就只会帮我们从数组中取10条链接，执行并发的请求，这10条请求都得到响应后，再发送下10条请求。

结尾

哦哦~，明天就是除夕了~

Nodejs爬虫进阶=>异步并发控制的更多相关文章

Nodejs爬虫进阶教程之异步并发控制
Nodejs爬虫进阶教程之异步并发控制之前写了个现在看来很不完美的小爬虫,很多地方没有处理好,比如说在知乎点开一个问题的时候,它的所有回答并不是全部加载好了的,当你拉到回答的尾部时,点击加载更多,回 ...
Python爬虫进阶 | 异步协程
一.背景之前爬虫使用的是requests+多线程/多进程,后来随着前几天的深入了解,才发现,对于爬虫来说,真正的瓶颈并不是CPU的处理速度,而是对于网页抓取时候的往返时间,因为如果采用request ...
NodeJS 爬虫爬取LOL英雄联盟的英雄信息，批量下载英雄壁纸
工欲善其事,必先利其器,会用各种模块非常重要. 1.模块使用 (1)superagent:Nodejs中的http请求库(每个语言都有无数个,java的okhttp,OC的afnetworking) ...
NodeJS爬虫系统初探
NodeJS爬虫系统 NodeJS爬虫系统 0. 概论爬虫是一种自动获取网页内容的程序.是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上是针对爬虫而做出的优化. robots.txt是一个文本文 ...
nodejs爬虫——汽车之家所有车型数据
应用介绍项目Github地址:https://github.com/iNuanfeng/node-spider/ nodejs爬虫,爬取汽车之家(http://www.autohome.com.cn ...
【nodeJS爬虫】前端爬虫系列
写这篇 blog 其实一开始我是拒绝的,因为爬虫爬的就是cnblog博客园.搞不好编辑看到了就把我的账号给封了:). 言归正传,前端同学可能向来对爬虫不是很感冒,觉得爬虫需要用偏后端的语言,诸如 ph ...
Python爬虫进阶一之爬虫框架概述
综述爬虫入门之后,我们有两条路可以走. 一个是继续深入学习,以及关于设计模式的一些知识,强化Python相关知识,自己动手造轮子,继续为自己的爬虫增加分布式,多线程等功能扩展.另一条路便是学习一些优 ...
Python进阶----异步同步,阻塞非阻塞,线程池(进程池)的异步+回调机制实行并发, 线程队列(Queue, LifoQueue,PriorityQueue), 事件Event,线程的三个状态(就绪,挂起,运行) ,***协程概念,yield模拟并发(有缺陷),Greenlet模块(手动切换),Gevent(协程并发)
Python进阶----异步同步,阻塞非阻塞,线程池(进程池)的异步+回调机制实行并发, 线程队列(Queue, LifoQueue,PriorityQueue), 事件Event,线程的三个状态(就 ...
nodejs爬虫--抓取CSDN某用户全部文章
最近正在学习node.js,就像搞一些东西来玩玩,于是这个简单的爬虫就诞生了. 准备工作 node.js爬虫肯定要先安装node.js环境创建一个文件夹在该文件夹打开命令行,执行npm init初 ...

随机推荐

Maven详细介绍
Maven 目录 1 什么是Maven? 2 Maven 的好处 3 获取和安装 3.1 获取 3.2 安装 3.2.1 环境变量的配置 4 设置本地仓库 5 创建简单的Maven实例 5.1 使用骨 ...
Runtime.exec() sucks!!!!
自己项目中使用到了 Runtime rt = Runtime.getRuntime(); Process p = rt.exec("query session");p.waitFo ...
Mysql数据库上修改日期-->造数据
这次要给客户安装测试ineedle设备,但是安装后不会立刻有数据显示,不能够全面的展示给用户web界面的一些信息.此时需要有一个公网服务器能够展示一下ineedle统计数据,但是公司58设备上没有流量 ...
android Eclipse执行项目提示错误： unable to execute dex: GC orerhead limit exceeded
Eclipse执行项目提示错误: unable to execute dex: GC orerhead limit exceeded 解决方法: 找到Eclipse安装目录的文件,\eclipse\e ...
[转]大白话系列之C#委托与事件讲解(三)
本文转自:http://www.cnblogs.com/wudiwushen/archive/2010/04/21/1717378.html [我希望大家在看完文章的时候,多做做练习,自己也可以想个场 ...
基本开题的感觉是了-MySQL继续继续（自定义函数&存储过程）
hi 感觉论文开题基本确定了,凯森 1.MySQL -----自定义函数----- ----基本两个必要条件:参数和返回值(两者没有必然联系,参数不一定有,返回一定有) 函数体:合法的SQL语句:以 ...
Hacker communities collection
Copy from E安全 Hack Forums: Hack Forums是目前最为理想的黑客技术学习根据地.该论坛不仅在设计上面向黑客群体,同时也适用于开发人员.博主.游戏开发者.程序员.图形设计 ...
oracle：sql函数
Oracle将函数大致分为单行函数,聚合函数和分析函数. 单行函数分为字符函数,日期函数,转换函数,数字函数,通用函数,decode函数一.字符函数 1)大小写控制函数 01.Lower() 全部小 ...
I/O工作机制
I/O问题是任何编程语言都无法回避的问题,可以说I/O是整个人机交互的核心问题,因为I/O是机器获取和交换信息的主要渠道.java的I/O操作类在包java.io下,大概有将近80个类,这些类大概可以 ...
解决编译apache出现的问题：configure: error: APR not found . Please read the documentation
今日编译apache时出错: #./configure --prefix……检查编辑环境时出现: checking for APR... no configure: error: APR not fo ...

Nodejs爬虫进阶=>异步并发控制

Nodejs爬虫进阶=>异步并发控制的更多相关文章

随机推荐

热门专题