使用node.js抓取有路网图书信息（原创）

之前写过使用python抓取有路网图书信息，见http://www.cnblogs.com/dyf6372/p/3529703.html。

最近想学习一下Node.js，所以想试试手，比较一下http抓取上的性能，采用事件驱动的Node.js比python好一些，以下上代码（刚学还未优化）：

var http = require('http');

var iconv = require('iconv-lite');

var url = require('./gb2312_url_encode.js');

function getHtmlOptions(path){

    return  {

        hostname : 'www.youlu.net',

        port : 80,

        path : path,

        method : 'GET',

        headers : {

            'User-Agent' : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.77 Safari/537.36'

        }

    }

}

function getAllNumber(str){

    var re = /共有图书数量\r\n\s*[0-9]*/;

    var n_str = str.match(re)[0];

    re = /[0-9]{1,}/;

    return n_str.match(re)[0];

}

function getDetailList(str){

    var re = /\"\/\d+.*"/g;

    var n_array = str.match(re);

    //console.log(n_array);

    var result_array = [];

    if(n_array == null){

        return [];

    }

    for(var i=0;i<n_array.length;i++){

        var tmp = n_array[i];

        re = /\d+/;

        var tmp_item = tmp.match(re);

        //console.log(tmp_item[0]);

        if(result_array.indexOf(tmp_item[0])<0){

            re = /alt=\".*\"/;

            var n_tmp_item = tmp.match(re);

            if(n_tmp_item == null) continue;

            var book_name = n_tmp_item[0].substring(5);

            book_name = book_name.substring(0,book_name.length-1);

            result_array.push(tmp_item[0]);

            searchDetail(tmp_item[0],book_name);

        }

    }

    return result_array;

}

function getRealBookNumber(str,book_name,url){

    re = /startRequestBookBuyLink(.*)/;

    n_array = str.match(re);

    var num = n_array[0].split(',')[3];

    num = num.substring(2,num.length-1);

    if(num > 0){

        console.log("------------------------------------");

        console.log(book_name);

        console.log("数目:"+num+" url:"+url);

    }

}

function firstSearch(query_book_name){

    var options = getHtmlOptions('/search/result/default.aspx?isbn=&publisherName=&author=&bookName='+query_book_name);

    var req = http.request(options,function(res){

        if(res.statusCode != 200){

            console.log("请求/search/result/default.aspx?isbn=&publisherName=&author=&bookName="+query_book_name+"发生错误了：请求返回非200，返回码："+res.statusCode+"\n");

            return;

        }

        var chunks = [];

        var size = 0;

        res.on('data',function(chunk){

            chunks.push(chunk);

            size += chunk.length;

        });

        res.on('end',function(){

            var returnMsg = Buffer.concat(chunks,size);

            var nreturnMsg = iconv.decode(returnMsg,'gb2312');

            var allNumber = getAllNumber(nreturnMsg);

            if(allNumber>0){

                var allPage = (allNumber/20+0.5).toFixed(0);

                console.log("该图书数目为:"+allNumber);

                console.log("共有页数:"+allPage);

                for(var i = 1; i<=allPage; i++){

                    searchEachPage(query_book_name,i,allNumber);

                }

            }else{

                console.log("该图书数目为0."+"\n");

            }

        });

    });

    req.on('error', function(e) {

        console.log('problem with request: ' + e.message);

    });

    req.end();

}

function searchEachPage(query_book_name,pageIndex,rowCount){

    var options = getHtmlOptions("/search/result/?isbn=&publisherName=&author=&bookName="+query_book_name+"&pageIndex="+pageIndex+"&rowCount="+rowCount+"&searchIn=");

    var req = http.request(options,function(res){

        if(res.statusCode != 200){

            console.log("请求"+"/search/result/?isbn=&publisherName=&author=&bookName="+query_book_name+"&pageIndex="+pageIndex+"&rowCount="+rowCount+"&searchIn="+"发生错误了：请求返回非200，返回码："+res.statusCode+"\n");

            return;

        }

        var chunks = [];

        var size = 0;

        res.on('data',function(chunk){

            chunks.push(chunk);

            size += chunk.length;

        });

        res.on('end',function(){

            var returnMsg = Buffer.concat(chunks,size);

            var nreturnMsg = iconv.decode(returnMsg,'gb2312');

            getDetailList(nreturnMsg);

        });

    });

    req.on('error', function(e) {

        console.log('problem with request: ' + e.message);

    });

    req.end();

}

function searchDetail(detail_number,book_name){

    var options = getHtmlOptions("/"+detail_number);

    var req = http.request(options,function(res){

        if(res.statusCode != 200){

            console.log("请求"+"/"+detail_number+"发生错误了：请求返回非200，返回码："+res.statusCode+"\n");

            return;

        }

        var chunks = [];

        var size = 0;

        res.on('data',function(chunk){

            chunks.push(chunk);

            size += chunk.length;

        });

        res.on('end',function(){

            var returnMsg = Buffer.concat(chunks,size);

            var nreturnMsg = iconv.decode(returnMsg,'gb2312');

            getRealBookNumber(nreturnMsg,book_name,"http://www.youlu.net/"+detail_number);

        });

    });

    req.on('error', function(e) {

        console.log('problem with request: ' + e.message);

    });

    req.end();

}

var query_book_name= url.URLEncode('java');

firstSearch(query_book_name);

使用node.js抓取有路网图书信息（原创）的更多相关文章

使用python抓取有路网图书信息（原创）
以前挺喜欢去有路网买二手书的,但是有路网有个缺陷,就是放在图书列表中的书很多都没货了,尤其是一些热门的方向,比如android,在列表中的书大多都没有货了,你必须一个一个点进入查看详细信息才能得知图书 ...
Node.js 抓取电影天堂新上电影节目单及ftp链接
代码地址如下:http://www.demodashi.com/demo/12368.html 1 概述本实例主要使用Node.js去抓取电影的节目单,方便大家使用下载. 2 node packag ...
Node.js抓取网页
前几天四六级成绩出来(然而我没考),用Node.js做了一个模拟表单提交并抓取数据的Web 总结一下用到的知识,简单的网页抓取大概就是这个流程了发送Get或Post请求表单提交,首先弄到原网页提交 ...
node.js抓取数据（fake小爬虫）
在node.js中,有了 cheerio 模块.request 模块,抓取特定URL页面的数据已经非常方便. 一个简单的就如下 var request = require('request'); va ...
node.js 抓取网页数据
var $ = require('jquery'); var request = require('request'); request({ url: 'http:\\www.baidu.com',/ ...
Vue+node.js+express+mysql实例---对图书信息进行管理
一个简单的 CURD 实例 ---对图书信息进行管理目录 1 开发环境 1.1 前端开发环境 1.2 后端开发环境 2 数据库设计和创建 2.1 数据库和表设计 2.2 book 表设计 2.3 s ...
node.js 抓取
http://blog.csdn.net/youyudehexie/article/details/11910465 http://www.tuicool.com/articles/z2YbAr ht ...
node.js抓取网上图片保存到本地
用到两个模块,http和fs var http = require("http");var fs = require("fs"); var server = h ...
爬虫：selenium + phantomjs 解决js抓取问题(一)
selenium模块主要用来做测试,模拟键盘.鼠标来操作浏览器. phantomjs 就像一个无界面的浏览器一样. 两个结合能很好的解决js抓取的问题. 测试代码: #coding=utf-8 fro ...

随机推荐

PHP下获取上个月、下个月、本月的日期(strtotime,date)
今天写程序的时候,突然发现了很早以前写的获取月份天数的函数,经典的switch版,但是获得上月天数的时候,我只是把月份-1了,估计当时太困了吧,再看到有种毛骨悚然的感觉,本来是想再处理一下的,但是一想 ...
内核工具 – Sparse 简介
转载:http://www.cnblogs.com/wang_yb/p/3575039.html Sparse是内核代码静态分析工具, 能够帮助我们找出代码中的隐患. 主要内容: Sparse 介绍 ...
Asp.Net 之使用Form认证实现用户登录 (LoginView的使用)
1. 创建一个WebSite,新建一个页面命名为SignIn.aspx,然后在页面中添加如下的代码 <div class="div_logView"> <asp: ...
Android（java）学习笔记98:关于string类型的面试题
package cn.itcast_02; /* * String s = new String(“hello”)和String s = “hello”;的区别? * 有.前者会创建2个对象,后者创建 ...
set_ip_pool
#! /usr/bin/env python# -*- coding: utf-8 -*- import redisimport urllib2class RedisConnect: #clas ...
[改善Java代码]性能考虑，数组是首选
建议60:性能考虑,数组是首选一.分析数组在实际的系统开发中使用的越来越少,我们通常只有在阅读一些开源项目时才会看到它们的身影,在Java中它确实没有List.Set.Map这些集合使用起来方便 ...
关于修改Eclipse工作空间对应的文件夹名称之后的处理.
把文件夹名字从"xhkong"变成"xhkong(maintenance5.6)"之后打开这个工作空间. 导入git仓库我发现了一个之前没有发现的小技巧. 导入 ...
Android自动化测试介绍
1.随机事件测试.通过adb命令执行测试Monkey 就是SDK中附带的一个工具, 用来做压力测试.应用程序crash 和 ANR时会产生日志. 然后根据关键字分析,就可以把应用出现的问题抓出来. 2 ...
屏蔽cBox广告的方法无需安装软件
在hosts文件中加入两句代码: 127.0.0.1 games.cntv.cn 127.0.0.1 d.cntv.cn
HDOJ2007平方和与立方和
平方和与立方和 Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others)Total Sub ...

使用node.js抓取有路网图书信息（原创）

之前写过使用python抓取有路网图书信息，见http://www.cnblogs.com/dyf6372/p/3529703.html。

最近想学习一下Node.js，所以想试试手，比较一下http抓取上的性能，采用事件驱动的Node.js比python好一些，以下上代码（刚学还未优化）：

使用node.js抓取有路网图书信息（原创）的更多相关文章

随机推荐

热门专题