功能:从天涯帖子中下载楼主发言到一个文本文件中

实验对象:http://bbs.tianya.cn/post-no05-308123-1.shtml  《鹿鼎记中计》 柳成萌著

爬取效果:除第一个贴需要手动下载外,其它均可自动完成,并有断点续传功能。

爬取结果下载:https://files.cnblogs.com/files/xiandedanteng/ludingjizhongji.zip   这是篇好文章,值得一读。

代码:

//======================================================
// 天涯帖子下载爬虫1.00
// 目标:http://bbs.tianya.cn/post-no05-308123-1.shtml
// 2018年3月22日
//======================================================

// 内置https模块
var https=require("https");

// 内置http模块
var http=require("http");

// 用于解析gzip网页(ungzip,https得到的网页是用gzip进行压缩的)
var zlib = require('zlib'); 

// 内置文件处理模块,用于创建目录和图片文件
var fs=require('fs');

// 用于转码。非Utf8的网页如gb2132会有乱码问题,需要iconv将其转码
var iconv = require('iconv-lite');

// cheerio模块,提供了类似jQuery的功能,用于从HTML code中查找图片地址和下一页
var cheerio = require("cheerio");

// 请求参数,JSON格式,http和https都有使用
var options;

// request请求
var req;

// 数据数组,找到的帖子时间和内容会放到这里
var datas=[];

//--------------------------------------
// 爬取网页,找帖子内容,再爬
// pageUrl sample:http://bbs.tianya.cn/post-no05-308123-1.shtml
//--------------------------------------
function crawl(pageUrl){
    console.log("Current page="+pageUrl);

    // 得到hostname和path
    var currUrl=pageUrl.replace("http://","");
    var pos=currUrl.indexOf("/");
    var hostname=currUrl.slice(0,pos);
    //console.log("hostname="+hostname);
    var path=currUrl.slice(pos);
    //console.log("path="+path);
    pos=currUrl.lastIndexOf("/");
    var dir="http://"+currUrl.slice(0,pos);
    //console.log("dir="+dir);

    // 初始化options
    options={
        hostname:hostname,
            port:80,
            path:path,// 子路径
          method:'GET',
    };

    req=http.request(options,function(resp){
        var html = [];

        resp.on("data", function(data) {
            html.push(data);
        })
        resp.on("end", function() {
            var buffer = Buffer.concat(html);

            var body = buffer.toString();// http://bbs.tianya.cn/post-no05-308123-1.shtml 无需解码
            //console.log("body="+body);

            var $ = cheerio.load(body);
            var count=0;

            // 由于天涯帖子的特殊格式,开篇只好略过,读者请自行添加
            /*
            $(".atl-main .atl-item .bbs-content").each(function(index,element){
                var content=$(element).text();

                var obj=new Object;
                obj.user="楼主";
                obj.time="开篇";
                obj.content=content;

                datas.push(obj); 

                count++;

            })
            */

            // 找帖子内容放入数组
            $(".atl-item").each(function(index,element){
                var user=$(element).attr("js_username");
                //console.log("user="+user);

                if(user=="柳成萌"){// 柳成荫是楼主ID
                    var innerHtml=$(element).html();
                    //console.log("innerHtml="+innerHtml);

                    // 找时间
                    var topicTime=null;
                    var $1=cheerio.load(innerHtml);
                    $1(".atl-info span").each(function(index1,element){                        

                        if(index1==1){
                            topicTime=$1(element).text();
                            //console.log("topicTime="+topicTime);
                        }
                    });

                    // 找内容
                    var topicContent=null;
                    //var $1=cheerio.load(innerHtml);
                    $1(".bbs-content").each(function(index1,element){
                        topicContent=$1(element).text().trim();
                        //console.log("topicContent="+topicContent);
                    });

                    // 内容和时间都找到了再放入数组
                    if(topicTime!=null && topicContent!=null){
                        // 先看有没有
                        var isFound=false;
                        for(var i=0;i<datas.length;i++){
                            var value=datas[i];

                            if(value.time==topicTime){
                                isFound=true;
                                break;
                            }
                        }

                        // 没有再往里放
                        if(isFound==false){
                            var obj=new Object;
                            obj.user=user;
                            obj.time=topicTime;
                            obj.content=topicContent;

                            datas.push(obj);
                            console.log("user="+obj.user+" "+obj.time);    

                            count++;
                        }
                    }
                }
            })
            console.log("找到帖子"+count+"条.");                

            // 找下一页
            var nextPageUrl=null;
            $(".js-keyboard-next").each(function(index,element){
                var text=$(element).text();

                if(text.indexOf('下页')!=-1){
                    nextPageUrl=dir+$(element).attr("href");
                    //console.log("找到下一页.="+nextPageUrl);
                }
            })

            if(nextPageUrl==null){
                console.log(pageUrl+"已经是最后一页了.\n");
                saveFile(pageUrl,datas);// 保存
                download(datas);
            }else{
                console.log("继续下一页");
                crawl(nextPageUrl);
            }       

        }).on("error", function() {
            saveFile(pageUrl,datas);// 保存
            console.log("crawl函数失败,请进入断点续传模式继续进行");
        })
    });

    // 超时处理
    req.setTimeout(7500,function(){
        req.abort();
    });

    // 出错处理
    req.on('error',function(err){
        console.log('请求发生错误'+err);
        saveFile(pageUrl,datas);// 保存
        console.log("crawl函数失败,请进入断点续传模式继续进行");
    });

    // 请求结束
    req.end();
}

//--------------------------------------
// 下载内容
//--------------------------------------
function download(datas){

    var total=datas.length;
    console.log("总计有"+total+"条帖子将被下载.");

    // 合并内容
    var space = '____';
    var newLine = '\n';
    var chunks = [];
    var length = 0;

    for(var i=0;i<datas.length;i++){
        var data=datas[i];

        var value = space+data.content+newLine;// data.time也可以加入
        var buffer = new Buffer(value);
        chunks.push(buffer);
        length += buffer.length;
    }

    var resultBuffer = new Buffer(length);
    for(var i=0,size=chunks.length,pos=0;i<size;i++){
        chunks[i].copy(resultBuffer,pos);
        pos += chunks[i].length;
    }

    // 写入文件
    var fileName='result'+getNowFormatDate()+".txt";
    fs.appendFile('./'+fileName, resultBuffer, function (err) {
        if(err){
            console.log("不能写入文件"+fileName);
            console.log(err);
        }
    });

    console.log("写入文件"+fileName+"完成");
}

//--------------------------------------
// 取得当前时间
//--------------------------------------
function getNowFormatDate() {
    var date = new Date();
    var seperator1 = "-";
    var seperator2 = "_";
    var month = date.getMonth() + 1;
    var strDate = date.getDate();
    if (month >= 1 && month <= 9) {
        month = "0" + month;
    }
    if (strDate >= 0 && strDate <= 9) {
        strDate = "0" + strDate;
    }
    var currentdate =date.getFullYear() + seperator1 + month + seperator1 + strDate
            + " " + date.getHours() + seperator2 + date.getMinutes()
            + seperator2 + date.getSeconds();
    return currentdate;
}

//--------------------------------------
// 程序入口
//--------------------------------------
function getInput(){
    process.stdin.resume();
    process.stdout.write("\033[33m 新建模式输入第一页URL,断点续传模式输入0,请输入: \033[39m");// 草黄色
    process.stdin.setEncoding('utf8');

    process.stdin.on('data',function(text){
        var input=text.trim();
        process.stdin.end();// 退出输入状态    

        if(text.trim()=='0'){
            process.stdout.write("\033[36m 进入断点续传模式. \033[39m");    // 蓝绿色

            // Read File
            fs.readFile('./save.dat','utf8',function(err,data){
                if(err){
                    console.log('读取文件save.dat失败,因为'+err);
                }else{
                    //console.log(data);
                    var obj=JSON.parse(data);

                    datas=obj.datas;
                    console.log('提取原有数据'+datas.length+'条');

                    crawl(obj.url);
                }
            });

            // Resume crawl
        }else{
            process.stdout.write("\033[35m 进入新建模式. \033[039m");    //紫色

            crawl(input);
        }
    });
}

//--------------------------------------
// 将爬行中信息存入数据文件
//--------------------------------------
function saveFile(url,datas){
    var obj=new Object;
    obj.url=url;
    obj.datas=datas;

    var text=JSON.stringify(obj);
    fs.writeFile('./save.dat',text,function(err){
        if(err){
            console.log('写入文件save.dat失败,因为'+err);
        }
    });
}

// 调用getInput函数,程序开始
getInput();

下载文本截图:

Nodejs 天涯帖子《鹿鼎记中计》 柳成萌著 下载爬虫的更多相关文章

  1. 【nodejs】理想论坛帖子下载爬虫1.06

    //====================================================== // 理想论坛帖子下载爬虫1.06 // 循环改成了递归,但最多下载千余文件就崩了 / ...

  2. 【nodejs】理想论坛帖子下载爬虫1.08

    //====================================================== // 理想论坛帖子下载爬虫1.09 // 使用断点续传模式,因为网络传输会因各种原因中 ...

  3. 【nodejs】理想论坛帖子下载爬虫1.07 使用request模块后稳定多了

    在1.06版本时,访问网页采用的时http.request,但调用次数多以后就问题来了. 寻找别的方案时看到了https://cnodejs.org/topic/53142ef833dbcb076d0 ...

  4. C# 中DataTable转成模型List

    C# 中DataTable转成模型List 引入using System.Reflection; 命名空间 使用注意实体类的属性名必须和DataTable的列名一致 使用: DBList<Sto ...

  5. 将包含经纬度点位信息的Excel表格数据导入到ArcMap中并输出成shapefile

    将包含经纬信息的Excel表格数据,导入到ArcMap中并输出成shapefile,再进行后面的操作.使用这种方法可以将每一个包含经纬信息的数据在ArcMap中点出来. 一.准备数据 新建Excel表 ...

  6. sql 表值函数-将一个传入的字符串用2中分隔符拆分成临时表

    USE [tms]GO/****** Object: UserDefinedFunction [dbo].[fn_StrToTable_Double] Script Date: 2017/4/26 9 ...

  7. js中时间戳转换成时间格式

    js中时间戳转换成时间格式, // 时间戳转换成时间格式 var formatDate = function(date){ date = new Date(date); var y=date.getF ...

  8. Unity中资源打包成Assetsbundle的资料整理

    最近在研究Unity中关于资源打包的东西,网上看了一堆资料,这里做个整合,说整合,其实也就是Ctrl-C + Ctrl-V,不是原创 首先为了尊重原创,先贴出原创者的文章地址: http://blog ...

  9. AS3中String转换成Boolean

    AS3中, 对布尔值的转换, 规定所有的非空字符串都是true. 下面都不行: var f:Boolean = new Boolean(str); var f:Boolean = str as Boo ...

随机推荐

  1. navicat for mysql 快捷键

    1.ctrl+q           打开查询窗口2.ctrl+/            注释sql语句3.ctrl+shift +/  解除注释4.ctrl+r           运行查询窗口的s ...

  2. 【LeetCode】shell

    195. Tenth Line 输出file.txt中的第十行 答案: # Read from the file file.txt and output the tenth line to stdou ...

  3. MAC OS 10.10.5虚拟机免费下载(可安装Xcode7)

    MAC OS 10.10.5虚拟机免费下载(可安装Xcode7)   MAC OS 10.10.5虚拟机免费(可安装Xcode7)下载地址:链接: http://pan.baidu.com/s/1dD ...

  4. Codeforces 493 E.Devu and Birthday Celebration

    \(>Codeforces \space 493\ E.Devu\ and\ Birthday\ Celebration<\) 题目大意 : 有 \(q\) 组询问,每次有 \(n\) 小 ...

  5. [APIO2014]序列分割 --- 斜率优化DP

    [APIO2014]序列分割 题目大意: 你正在玩一个关于长度为\(n\)的非负整数序列的游戏.这个游戏中你需要把序列分成\(k+1\)个非空的块.为了得到\(k+1\)块,你需要重复下面的操作\(k ...

  6. [HAOI2015]数组游戏

    题目大意: 有一排n个格子,每个格子上都有一个白子或黑子,在上面进行游戏,规则如下: 选择一个含白子的格子x,并选择一个数k,翻转x,2x,...,kx格子上的子. 不能操作者负. 思路: 将“某个格 ...

  7. S数

    题目大意: 定义f(x)为x各位数字之和,问[l,r]区间内有多少数满足f(x)*f(x)=f(x*x). 思路: 刚开始暴力打表,发现所有数的位都在0..3之间,然后直接枚举每一位,最坏情况下运算规 ...

  8. bzoj1798 维护序列

    Description 老师交给小可可一个维护数列的任务,现在小可可希望你来帮他完成. 有长为N的数列,不妨设为a1,a2,…,aN .有如下三种操作形式: (1)把数列中的一段数全部乘一个值; (2 ...

  9. WICED™ <SMART> Software Development Kit

    WICED™ Software Development Kit The WICED™ SDK includes the tools and software needed to create Wi-F ...

  10. R类

    资源文件的使用分为在代码中使用和在其他资源文件中引用该资源文件.在我们编译一个Android应用时,Android会自动生成一个R类,在该类中根据不同的资源类型又生成了相应的内部类,该类包含了系统中使 ...