[js高手之路]Node.js实现简易的爬虫-抓取博客所有文章列表信息

抓取目标：就是我自己的博客：http://www.cnblogs.com/ghostwu/

需要实现的功能：

抓取博客所有的文章标题，超链接，文章摘要，发布时间

需要用到的库：

node.js自带的http库

第三方库:cheerio，这个库就是用来处理dom节点的，他的用法几乎跟jquery用法一模一样，所以有了这个利器，写一个爬虫就非常简单

准备工作：

1，npm init --yes 初始化package.json

2，安装cheerio:npm install cheerio --save-dev

实现的目标，是要把每篇文章需要抓取的部分( 抓取文章标题，超链接，文章摘要，发布时间 )整理成一个对象，放在数组中，如:

[ { title: '[置顶][js高手之路]从零开始打造一个javascript开源框架gdom与插件开发免费视频教程

连载中',

    url: 'http://www.cnblogs.com/ghostwu/p/7470038.html',

    entry: '摘要: 百度网盘下载地址：https://pan.baidu.com/s/1kULNXOF 优酷土豆观看地址：htt

p://v.youku.com/v_show/id_XMzAwNTY2MTE0MA==.html?spm=a2h0j.8191423.playlist_content.5!3~5~

5~A&&f',

    listTime: '2017-09-05 17:08' },

  { title: '[js高手之路]Vue2.0基于vue-cli+webpack Vuex用法详解',

    url: 'http://www.cnblogs.com/ghostwu/p/7521097.html',

    entry: '摘要: 在这之前，我已经分享过组件与组件的通信机制以及父子组件之间的通信机制，而

我们的vuex就是为了解决组件通信问题的 vuex是什么东东呢？ 组件通信的本质其实就是在组件之间传

递数据或组件的状态（这里将数据和状态统称为状态），但可以看到如果我们通过最基本的方式来进行

通信，一旦需要管理的状态多了，代码就会',

    listTime: '2017-09-14 15:51' },

  { title: '[js高手之路]Vue2.0基于vue-cli+webpack同级组件之间的通信教程',

    url: 'http://www.cnblogs.com/ghostwu/p/7518158.html',

    entry: '摘要: 我们接着上文继续，本文我们讲解兄弟组件的通信，项目结构还是跟上文一样. 在

src/assets目录下建立文件EventHandler.js，该文件的作用在于给同级组件之间传递事件 EventHandl

er.js代码: 2，在Components目录下新建一个组件Brother1.vue 。通过Eve',

    listTime: '2017-09-13 22:49' },

   ]

思路讲解：

1，获取目标地址：http://www.cnblogs.com/ghostwu/ 所有的html内容

2，提取所有的文章html内容

3，提取每篇文章下面对应的( 文章标题，超链接，文章摘要，发布时间 )

 var http = require('http');

 var cheerio = require('cheerio');

 var url = 'http://www.cnblogs.com/ghostwu/';

 function filterHtml(html) {

     var $ = cheerio.load(html);

     var arcList = [];

     var aPost = $("#content").find(".post-list-item");

     aPost.each(function () {

         var ele = $(this);

         var title = ele.find("h2 a").text();

         var url = ele.find("h2 a").attr("href");

         ele.find(".c_b_p_desc a").remove();

         var entry = ele.find(".c_b_p_desc").text();

         ele.find("small a").remove();

         var listTime = ele.find("small").text();

         var re = /\d{4}-\d{2}-\d{2}\s*\d{2}[:]\d{2}/;

         listTime = listTime.match( re )[0];

         arcList.push({

             title: title,

             url: url,

             entry: entry,

             listTime: listTime

         });

     });

     return arcList;

 }

 http.get(url, function (res) {

     var html = '';

     var arcList = [];

     // var arcInfo = {};

     res.on('data', function (chunk) {

         html += chunk;

     });

     res.on('end', function () {

         arcList = filterHtml( html );

         console.log( arcList );

     });

 });

有几个关键的地方要讲解下：

1，res.on( 'data', function(){} )

http模块发送get请求之后，就会源源不断的抓取目标网页的源代码内容, 所以，我在on中监听data事件， chunk就是传输的数据，把这些数据累加到html这个变量，当数据传输完之后就会触发end事件，你可以在end事件中打印一下console.log( html ) 就能发现，他就是目标地址的所有html源代码，这样就解决了我们的第一个问题：获取目标地址：http://www.cnblogs.com/ghostwu/ 所有的html内容

2，有了完整的html内容之后，接下来我封装了一个函数filterHTML用来过滤我所需要的结果( 每篇文章的信息 )

3，var $ = cheerio.load(html); 把html内容通过cheerio的load方法加载进来，就可以用cheerio的节点操作了，为了亲和jquery的操作，我用美元符号$保存了这个文档对象

4，var aPost = $("#content").find(".post-list-item"); 这个是所有的文章节点信息，拿到之后，通过each方法挨个遍历并抓取需要的信息，整理成对象，然后放在一个数组中

  arcList.push({

 21             title: title,

 22             url: url,

 23             entry: entry,

 24             listTime: listTime

 25         });

这样就处理完了，结果已经在上面展示了，如果博客样式跟我的博客样式一样，应该都能抓取了,

接着完善分页抓取，这样就能把整个博客爬下来了

 var http = require('http');

 var cheerio = require('cheerio');

 var url = 'http://www.cnblogs.com/ghostwu/';

 function filterHtml(html) {

     var $ = cheerio.load(html);

     var arcList = [];

     var aPost = $("#content").find(".post-list-item");

     aPost.each(function () {

         var ele = $(this);

         var title = ele.find("h2 a").text();

         var url = ele.find("h2 a").attr("href");

         ele.find(".c_b_p_desc a").remove();

         var entry = ele.find(".c_b_p_desc").text();

         ele.find("small a").remove();

         var listTime = ele.find("small").text();

         var re = /\d{4}-\d{2}-\d{2}\s*\d{2}[:]\d{2}/;

         listTime = listTime.match(re)[0];

         arcList.push({

             title: title,

             url: url,

             entry: entry,

             listTime: listTime

         });

     });

     return arcList;

 }

 function nextPage( html ){

     var $ = cheerio.load(html);

     var nextUrl = $("#pager a:last-child").attr('href');

     if ( !nextUrl ) return ;

     var curPage = $("#pager .current").text();

     if( !curPage ) curPage = 1;

     var nextPage = nextUrl.substring( nextUrl.indexOf( '=' ) + 1 );

     if ( curPage < nextPage ) crawler( nextUrl );

 }

 function crawler(url) {

     http.get(url, function (res) {

         var html = '';

         var arcList = [];

         res.on('data', function (chunk) {

             html += chunk;

         });

         res.on('end', function () {

             arcList = filterHtml(html);

             console.log( arcList );

             nextPage( html );

         });

     });

 }

 crawler( url );

[js高手之路]Node.js实现简易的爬虫-抓取博客所有文章列表信息的更多相关文章

[js高手之路]Node.js实现简易的爬虫-抓取博客文章列表信息
抓取目标:就是我自己的博客:http://www.cnblogs.com/ghostwu/ 需要实现的功能: 抓取文章标题,超链接,文章摘要,发布时间需要用到的库: node.js自带的http库 ...
[js高手之路]Node.js+jade抓取博客所有文章生成静态html文件
这个周末,恶补了一下jade模板引擎,就为生成静态html文件,这篇文章需要知道jade以及看过我的上篇文章,我先给出他们的参考链接: [js高手之路]Node.js模板引擎教程-jade速学与实战1 ...
[js高手之路]Node.js+jade+mongoose实战todolist(分页,ajax编辑,删除)
该系列文章索引: [js高手之路]node js系列课程-创建简易web服务器与文件读写 [js高手之路]node js系列课程-图解express+supervisor+ejs用法 [js高手之路] ...
[js高手之路]Node.js+jade+mongodb+mongoose实现爬虫分离入库与生成静态文件
接着这篇文章[js高手之路]Node.js+jade抓取博客所有文章生成静态html文件继续,在这篇文章中实现了采集与静态文件的生成,在实际的采集项目中, 应该是先入库再选择性的生成静态文件.那么我选 ...
[js高手之路]Node.js+jade+express+mongodb+mongoose+promise实现todolist
promise主要是用来解决异步回调问题,其实还有好几种比promise更好的方案,后面再说,这节,我们先用promise来改造下,我以前写的一篇文章[js高手之路]javascript腾讯面试题学习 ...
[js高手之路]node js系列课程-创建简易web服务器与文件读写
web服务器至少有以下几个特点: 1.24小时不停止的工作,也就是说这个进程要常驻在内存中 2.24小时在某一端口监听,如: http://localhost:8080, www服务器默认端口80 3 ...
[js高手之路]node js系列课程-图解express+supervisor+ejs用法
上文通过node js自带的http模块搭建了一个简易的服务器,实际在开发中,一般用的是express框架,本文我们就来讲讲项目开发中必备不可少的几样东西: 服务器( express ) 路由( ex ...
[js高手之路]Node.js模板引擎教程-jade速学与实战2-流程控制,转义与非转义
一.转义与非转义 jade模板文件代码: doctype html html head meta(charset='utf-8') title jade学习-by ghostwu body h3 转义 ...
[js高手之路]Node.js模板引擎教程-jade速学与实战4-模板引用,继承,插件使用
一.block 模块复用把需要复用的模块用block定义 block后面跟上模块的名字,引用一次block 内容就会被复用一次编译之后的结果: 二,继承模板(extends) 在实际开发中,网站的 ...

随机推荐

biz_platform项目过程
1.前台界面主要采用React框架.通过Ajax方式将数据与tornado服务器交互.以下代码为请求后台数据. var ThisPage = React.createClass({ render: f ...
Swift 里字符串（三）small String
small string, 只有两个 UInt64 的字,这里面存储了所有的信息. 内存布局如下: 第二个 UInt64 存储了标记位和长度信息,以及部分字符串的值 // Get an int ...
安装vue后报错 bash: vue: command not found
今天参照之前写的vue的环境搭建一个新的项目 http://www.cnblogs.com/stella1024/p/7570884.html 安装完vue,并提示成功: $ npm install ...
Java之集合(八)HashMap
转载请注明源出处:http://www.cnblogs.com/lighten/p/7338372.html 1.前言本章介绍Java中最常用的一个集合类HashMap,此类在不同的JDK版本有不同 ...
spring自定义注解拦截器的配置
1.创建注解文件 (文件格式为注解) 这里面什么都不需要写文件名就是注解名称如下是@anno package com.ABC123.anno; import java.lang.annotati ...
【C#小知识】C#中一些易混淆概念总结（二）--------构造函数，this关键字，部分类，枚举分类： C# 2014-02-03 01:24 1576人阅读评论(0) 收藏
目录: [C#小知识]C#中一些易混淆概念总结--------数据类型存储位置,方法调用,out和ref参数的使用继上篇对一些C#概念问题进行细节的剖析以后,收获颇多.以前,读书的时候,一句话一掠而 ...
Android 开发工具类 06_NetUtils
跟网络相关的工具类: 1.判断网络是否连接: 2.判断是否是 wifi 连接: 3.打开网络设置界面: import android.app.Activity; import android.cont ...
如何删除Eclipse里某个工作空间？
很多时候,一个Eclipse中或多或少的都会有那么几个工作空间(workspace),但是久而久之你会发现有些工作空间你觉得不再需要了或者觉得碍眼,怎么办? 其实很简单,方法有两种. 1.打开你的Ec ...
基于TrueLicense实现产品License验证功能
受朋友所托,需要给产品加上License验证功能,进行试用期授权,在试用期过后,产品不再可用. 通过研究调查,可以利用Truelicense开源框架实现,下面分享一下如何利用Truelicense实现 ...
Smali 语法文档
可以选择保存成pdf格式,查询起来挺方便的 if v0==0 go cond_0 if-eqz v0, :cond_0 if v0!=0 go cond_0 if-nez v0, :cond_0 ...

[js高手之路]Node.js实现简易的爬虫-抓取博客所有文章列表信息

[js高手之路]Node.js实现简易的爬虫-抓取博客所有文章列表信息的更多相关文章

随机推荐

热门专题