nodejs写的一个网页爬虫例子（坏链率）

因为工作需要，用nodejs写了个简单的爬虫例子，之前也没用过nodejs，连搭环境加写大概用了5天左右，so。。。要多简陋有多简陋，放这里给以后的自己看~~

整体需求是：给一个有效的URL地址，返回该网页上所有无效链接的百分比（坏链率）

第一个文件：计算环链率 urlSpider.js

 /*================================================

 @author MissUU

 链接抓取思路：

 1. 获取页面内容

 2. 正则取得所有<a>

 3. 进一步取得href属性值，如果首位是“则剔除，不是http开头加上域名（javascript开头除外）

 4.正则验证是否是常见URL格式

 ================================================*/

 var http = require('http');

 var async = require('async');

 var dbHandle = require('./dbHandle.js');

 //主程序

 var runUrlSpider = function(obj, callback){

     //10s timeout

     var request_timer = setTimeout(function() {

                         req.abort();

                         console.log('Request Timeout.');

                         }, 10000);

     var urlBadLink = new UrlBadLink();

     var html='';

     var req = http.get(obj.url, function(res) {

         clearTimeout(request_timer);

         res.setEncoding('utf8');

         res.on('data', function (chunk) {

         html += chunk;

         }).on('end', function(){

            console.log('*******开始提取有效链接地址******');

            console.log(new Date().toLocaleString());

            console.log(obj.url);

            urlBadLink.host = obj.url;

            urlBadLink.id = obj.id;

            matchURL(html, urlBadLink, function(){

                callback();

            });

            });

      });

      req.on('error', function(e) {

          console.log('problem with request: ' + e.message);

          callback();

      });

 }

 //this is the entrance of code

 var main = function(){

      var urlArray = dbHandle.showUrls(1, function(result){

      async.eachSeries(result, runUrlSpider, function(err){

          console.log('******this is the end, haha*******');

     });

    });

   //  console.log(urlArray);

 };

 main();

 /*

 * 用于异步放送get请求

 *

 * @param {string} content 原始页面信息

 * @param {string} host 主域名

 */

 function matchURL(content, urlBadLink, callend){

    var host = urlBadLink.host;

    var anchor = /<a\s[^>]*>/g;

    var matches = content.match(anchor);

    var badLink = 0;

    var flag = 0;

    var HttpGet = function(url,callback){

         //10s timeout

        var request_timer = setTimeout(function() {

                            req.abort();

                            console.log('Request Timeout.');

                            }, 10000);

        var req = http.get(url, function(res) {

             clearTimeout(request_timer);

             res.on('data', function () {

             }).on('end', function(){

                console.log(++flag + ": " + url + ' response status: ' + res.statusCode);

                if(!(res.statusCode >= 200 && res.statusCode < 400)){

                console.log('-----------------------');

                badLink++;

                }

                callback();

               });

              });

             req.on('error', function(err){

                console.log(++flag + ": " + 'problem with request: ' + err.message);

                badLink++;

                callback();

            });

       };

    var urls = filterUrl(matches,host);

    if(urls !== null){

       var totalLink = urls.length;

    //console.log(urls);

       async.eachSeries(urls, HttpGet, function(err){

      // var urlBadLink = new UrlBadLink(host,totalLink, badLink);

      // console.log("坏链个数为: " + urlBadLink.badCounts);

      // console.log("坏链率为: " + urlBadLink.getRate());

            urlBadLink.total = totalLink;

            urlBadLink.badCounts = badLink;

       //data store puts here

            dbHandle.updateBadLink(urlBadLink);

            callend();

    });

   }else{

         console.log('no links found');

         urlBadLink.total = 10;

         urlBadLink.badCounts = 0;

         dbHandle.updateBadLink(urlBadLink);

         callend();

   }

 }

 //正则取得href属性值

 function URLFommat(strUrl,host){

    var urlPatten = /href=[\'\"]?([^\'\"]*)[\'\"]?/i;

    var temp = urlPatten.exec(strUrl);

    if(temp!= null){

    var url = temp[0].substring(6,temp[0].length-1).trim();

       if(url.indexOf("\"") != -1){

          url = url.slice(url.indexOf("\"") + 1);

       }

       if(url.charAt(0) == "/"){

          url = url.slice(1);

          return host + url;

       }else if((url.indexOf("http") == -1)&&

           (url.indexOf("javascript") == -1)){

          return host + url;

           }else

               return url;

    }else

      return null;

 }

  //test URLFommat

  //var test = "http://baidu.com";

 // var test1 = " \"http://baidu.com";

  //var test2 = "/wenhao";

 //console.log(URLFommat(test,"www.sina.com.cn"));

  //console.log(URLFommat(test1,"www.sina.com.cn"));

  //console.log(URLFommat(test2,"www.sina.com.cn"));

 //测试是否为常见url格式

 function IsURL(strUrl) {

    if(strUrl != null){

     var regular = /^\b(((http?|ftp):\/\/)?[-a-z0-9]+(\.[-a-z0-9]+)*\.(?:com|edu|gov|int|mil|net|org|biz|info|name|museum|asia|coop|aero|[a-z][a-z]|((25[0-5])|(2[0-4]\d)|(1\d\d)|([1-9]\d)|\d))\b(\/[-a-z0-9_:\@&?=+,.!\/~%\$]*)?)$/i;

     if (regular.test(strUrl)) {

         return true;

     }

     else {

         return false;

     }

    }else

         return false;

 }

 //对象

 function UrlBadLink(id, host, total, badCounts){

     this.id = id;

     this.host = host;

     this.total = total;

     this.badCounts = badCounts;

     if(typeof this.getRate != "function"){

        UrlBadLink.prototype.getRate = function(){

          var output = Number(Math.round(this.badCounts/this.total*10000)/100).toFixed(2)+'%';

          return output;

        };

     }

 }

 function filterUrl(arr,host){

      if(arr === null)

         return null;

      var output = [];

      arr.forEach(function(item,index,array){

        //console.log(item);

        var formatURL = URLFommat(item,host);

        if(IsURL(formatURL)){

         output.push(formatURL);

         }//if

      });//forEach

      return output;

 }

第二个文件：将数据存库，dbHandle.js

/**

 * @author MissUU

 * @des MySql基本操作

 * API:     https://github.com/felixge/node-mysql

 */  

var mysql = require('mysql');  

mysql.createConnection('mysql://root:apple@localhost/test?debug=false');  

var pool  = mysql.createPool({

  host     : '10.102.1.00',

  user     : 'root',

  password : 'root',

  database : 'test',

  connectionLimit: 15

});  

//读取urls

exports.showUrls = function (groupId, callback){

  console.log('this is showUrl()');

  pool.getConnection(function(err, conn){

      if (err) {

        console.log("connection error!");

        console.log(err);

      }

      conn.query('SELECT id,realurl as url FROM t_site WHERE siteGroupId = ?',groupId, function(err, result){

          if(err){

             console.log(err.message);

          }

          conn.release();

          if(result.length){

            // console.log(result instanceof Array);

              callback(result);

              return true;

          }else{

             callback('');

             return false;

          }

      });

  });

}; 

exports.updateBadLink = function (urlBadLink){

  //若不含数据则不插入

  if (!!urlBadLink) {

     pool.getConnection(function(err, conn){

     if (err) {

        console.log("connection error!");

        console.log(err);

      }

      var updateSql = "UPDATE a_qualityinfo SET brokenRate = '"+ urlBadLink.getRate() +"' WHERE siteId = " + urlBadLink.id;

      console.log(updateSql);

      conn.query(updateSql, function(err, result){

          if(err){

             console.log(err.message);

             console.log('update fail');

          }

          conn.release();

          console.log('update success');

      });// conn.query

     });//pool.getConnection

  }

};

代码后期还会改动，这里有几点需要注意的：

1、http.get有时会一直等待响应，所以一定要判断下，超时则认为出错，要不程序就卡住了。。。= =！

2、注意callback的使用，要不然很难规范执行顺序的，用过nodejs的都懂得。。。

nodejs写的一个网页爬虫例子（坏链率）的更多相关文章

用go iris 写的一个网页版文件共享应用（webapp）
主要演示文件拖拽上传或点击上传到不同的目录中,提供下载和删除功能. 目录结构: -main.go --share(用于分类存放上传文件的目录) --v(视图目录) ---share.html main ...
用Python写一个小爬虫吧！
学习了一段时间的web前端,感觉有点看不清前进的方向,于是就写了一个小爬虫,爬了51job上前端相关的岗位,看看招聘方对技术方面的需求,再有针对性的学习. 我在此之前接触过Python,也写过一些小脚 ...
Jmeter_ForEach控制器实现网页爬虫
一直以来,爬虫似乎都是写代码去实现的,今天像大家介绍一下Jmeter如何实现一个网页爬虫! Jmeter的爬虫原理其实很简单,就是对网页提交一个请求,然后把返回的所有href提取出来,利用ForEac ...
Jmeter(十九)_ForEach控制器实现网页爬虫
一直以来,爬虫似乎都是写代码去实现的,今天像大家介绍一下Jmeter如何实现一个网页爬虫! 龙渊阁测试开发家园 317765580 Jmeter的爬虫原理其实很简单,就是对网页提交一个请求,然后把返回 ...
c#网页爬虫初探
一个简单的网页爬虫例子! html代码: <head runat="server"> <title>c#爬网</title> </head ...
网页爬虫的设计与实现（Java版）
网页爬虫的设计与实现(Java版) 最近为了练手而且对网页爬虫也挺感兴趣,决定自己写一个网页爬虫程序. 首先看看爬虫都应该有哪些功能. 内容来自(http://www.ibm.com/deve ...
网页抓取：PHP实现网页爬虫方式小结
来源:http://www.ido321.com/1158.html 抓取某一个网页中的内容,需要对DOM树进行解析,找到指定节点后,再抓取我们需要的内容,过程有点繁琐.LZ总结了几种常用的.易于实现 ...
Python网页爬虫（一）
很多时候我们想要获得网站的数据,但是网站并没有提供相应的API调用,这时候应该怎么办呢?还有的时候我们需要模拟人的一些行为,例如点击网页上的按钮等,又有什么好的解决方法吗?这些正是python和网页爬 ...
PHP实现网页爬虫
抓取某一个网页中的内容,需要对DOM树进行解析,找到指定节点后,再抓取我们需要的内容,过程有点繁琐.LZ总结了几种常用的.易于实现的网页抓取方式,如果熟悉JQuery选择器,这几种框架会相当简单. 一 ...

随机推荐

Filter(过滤器)常见应用
孤傲苍狼只为成功找方法,不为失败找借口! javaweb学习总结(四十六)——Filter(过滤器)常见应用一.统一全站字符编码通过配置参数charset指明使用何种字符编码,以处理Html F ...
Linux中断（interrupt）子系统
Linux中断(interrupt)子系统之一:中断系统基本原理 Linux中断(interrupt)子系统之二:arch相关的硬件封装层 Linux中断(interrupt)子系统之三:中断流控处理 ...
React表单组件自定义-可控及不可控组件
一.可控组件 <!DOCTYPE html> <html lang="zh-cn"> <head> <meta charset=" ...
网上图书商城项目学习笔记-011Book模块查询(分页)
一.流程分析 1.图书模块 2.分布分析二.代码 1.view层 1)list.jsp <%@ page language="java" import="java ...
255. Verify Preorder Sequence in Binary Search Tree
题目: Given an array of numbers, verify whether it is the correct preorder traversal sequence of a bin ...
Android 拦截短信
public class SMSMess extends BroadcastReceiver { @Override public void onReceive(Context arg0, Inten ...
Spring配置概述
1.Spring容器 1)要使应用程序中的Spring容器成功启动,需要以下三方面的条件都具备: · Spring架构的类包都已经放在应用程序的类路径下: · 应用程序为Spring提供完备的Bean ...
ios7 webapp touch bug
// ios7 touchstart bug if(navigator.userAgent.indexOf("iPhone OS 7") != -1){ var startX = ...
YCM安装与配置
1.重新编译vim 2.通过vundle安装YCM 3.安装CMake 4.下载预先编译好的llvm+clang 5.看官网的命令,生成CMake的编译文件并编译配置YCM: 要额外配置ycm_ex ...
Vim的可视模式
可视模式可以看到选中的字符串, 并对其进行操作 v:进入字符选择模式 V:进入行选择模式 ctrl-v(Window是ctrl-q):进入block选择模式 o:移动光标到选择的另一端 O:移动光标到 ...

nodejs写的一个网页爬虫例子（坏链率）

nodejs写的一个网页爬虫例子（坏链率）的更多相关文章

随机推荐

热门专题