Nodejs 天涯帖子《鹿鼎记中计》 柳成萌著 下载爬虫
功能:从天涯帖子中下载楼主发言到一个文本文件中
实验对象:http://bbs.tianya.cn/post-no05-308123-1.shtml 《鹿鼎记中计》 柳成萌著
爬取效果:除第一个贴需要手动下载外,其它均可自动完成,并有断点续传功能。
爬取结果下载:https://files.cnblogs.com/files/xiandedanteng/ludingjizhongji.zip 这是篇好文章,值得一读。
代码:
//======================================================
// 天涯帖子下载爬虫1.00
// 目标:http://bbs.tianya.cn/post-no05-308123-1.shtml
// 2018年3月22日
//======================================================
// 内置https模块
var https=require("https");
// 内置http模块
var http=require("http");
// 用于解析gzip网页(ungzip,https得到的网页是用gzip进行压缩的)
var zlib = require('zlib');
// 内置文件处理模块,用于创建目录和图片文件
var fs=require('fs');
// 用于转码。非Utf8的网页如gb2132会有乱码问题,需要iconv将其转码
var iconv = require('iconv-lite');
// cheerio模块,提供了类似jQuery的功能,用于从HTML code中查找图片地址和下一页
var cheerio = require("cheerio");
// 请求参数,JSON格式,http和https都有使用
var options;
// request请求
var req;
// 数据数组,找到的帖子时间和内容会放到这里
var datas=[];
//--------------------------------------
// 爬取网页,找帖子内容,再爬
// pageUrl sample:http://bbs.tianya.cn/post-no05-308123-1.shtml
//--------------------------------------
function crawl(pageUrl){
console.log("Current page="+pageUrl);
// 得到hostname和path
var currUrl=pageUrl.replace("http://","");
var pos=currUrl.indexOf("/");
var hostname=currUrl.slice(0,pos);
//console.log("hostname="+hostname);
var path=currUrl.slice(pos);
//console.log("path="+path);
pos=currUrl.lastIndexOf("/");
var dir="http://"+currUrl.slice(0,pos);
//console.log("dir="+dir);
// 初始化options
options={
hostname:hostname,
port:80,
path:path,// 子路径
method:'GET',
};
req=http.request(options,function(resp){
var html = [];
resp.on("data", function(data) {
html.push(data);
})
resp.on("end", function() {
var buffer = Buffer.concat(html);
var body = buffer.toString();// http://bbs.tianya.cn/post-no05-308123-1.shtml 无需解码
//console.log("body="+body);
var $ = cheerio.load(body);
var count=0;
// 由于天涯帖子的特殊格式,开篇只好略过,读者请自行添加
/*
$(".atl-main .atl-item .bbs-content").each(function(index,element){
var content=$(element).text();
var obj=new Object;
obj.user="楼主";
obj.time="开篇";
obj.content=content;
datas.push(obj);
count++;
})
*/
// 找帖子内容放入数组
$(".atl-item").each(function(index,element){
var user=$(element).attr("js_username");
//console.log("user="+user);
if(user=="柳成萌"){// 柳成荫是楼主ID
var innerHtml=$(element).html();
//console.log("innerHtml="+innerHtml);
// 找时间
var topicTime=null;
var $1=cheerio.load(innerHtml);
$1(".atl-info span").each(function(index1,element){
if(index1==1){
topicTime=$1(element).text();
//console.log("topicTime="+topicTime);
}
});
// 找内容
var topicContent=null;
//var $1=cheerio.load(innerHtml);
$1(".bbs-content").each(function(index1,element){
topicContent=$1(element).text().trim();
//console.log("topicContent="+topicContent);
});
// 内容和时间都找到了再放入数组
if(topicTime!=null && topicContent!=null){
// 先看有没有
var isFound=false;
for(var i=0;i<datas.length;i++){
var value=datas[i];
if(value.time==topicTime){
isFound=true;
break;
}
}
// 没有再往里放
if(isFound==false){
var obj=new Object;
obj.user=user;
obj.time=topicTime;
obj.content=topicContent;
datas.push(obj);
console.log("user="+obj.user+" "+obj.time);
count++;
}
}
}
})
console.log("找到帖子"+count+"条.");
// 找下一页
var nextPageUrl=null;
$(".js-keyboard-next").each(function(index,element){
var text=$(element).text();
if(text.indexOf('下页')!=-1){
nextPageUrl=dir+$(element).attr("href");
//console.log("找到下一页.="+nextPageUrl);
}
})
if(nextPageUrl==null){
console.log(pageUrl+"已经是最后一页了.\n");
saveFile(pageUrl,datas);// 保存
download(datas);
}else{
console.log("继续下一页");
crawl(nextPageUrl);
}
}).on("error", function() {
saveFile(pageUrl,datas);// 保存
console.log("crawl函数失败,请进入断点续传模式继续进行");
})
});
// 超时处理
req.setTimeout(7500,function(){
req.abort();
});
// 出错处理
req.on('error',function(err){
console.log('请求发生错误'+err);
saveFile(pageUrl,datas);// 保存
console.log("crawl函数失败,请进入断点续传模式继续进行");
});
// 请求结束
req.end();
}
//--------------------------------------
// 下载内容
//--------------------------------------
function download(datas){
var total=datas.length;
console.log("总计有"+total+"条帖子将被下载.");
// 合并内容
var space = '____';
var newLine = '\n';
var chunks = [];
var length = 0;
for(var i=0;i<datas.length;i++){
var data=datas[i];
var value = space+data.content+newLine;// data.time也可以加入
var buffer = new Buffer(value);
chunks.push(buffer);
length += buffer.length;
}
var resultBuffer = new Buffer(length);
for(var i=0,size=chunks.length,pos=0;i<size;i++){
chunks[i].copy(resultBuffer,pos);
pos += chunks[i].length;
}
// 写入文件
var fileName='result'+getNowFormatDate()+".txt";
fs.appendFile('./'+fileName, resultBuffer, function (err) {
if(err){
console.log("不能写入文件"+fileName);
console.log(err);
}
});
console.log("写入文件"+fileName+"完成");
}
//--------------------------------------
// 取得当前时间
//--------------------------------------
function getNowFormatDate() {
var date = new Date();
var seperator1 = "-";
var seperator2 = "_";
var month = date.getMonth() + 1;
var strDate = date.getDate();
if (month >= 1 && month <= 9) {
month = "0" + month;
}
if (strDate >= 0 && strDate <= 9) {
strDate = "0" + strDate;
}
var currentdate =date.getFullYear() + seperator1 + month + seperator1 + strDate
+ " " + date.getHours() + seperator2 + date.getMinutes()
+ seperator2 + date.getSeconds();
return currentdate;
}
//--------------------------------------
// 程序入口
//--------------------------------------
function getInput(){
process.stdin.resume();
process.stdout.write("\033[33m 新建模式输入第一页URL,断点续传模式输入0,请输入: \033[39m");// 草黄色
process.stdin.setEncoding('utf8');
process.stdin.on('data',function(text){
var input=text.trim();
process.stdin.end();// 退出输入状态
if(text.trim()=='0'){
process.stdout.write("\033[36m 进入断点续传模式. \033[39m"); // 蓝绿色
// Read File
fs.readFile('./save.dat','utf8',function(err,data){
if(err){
console.log('读取文件save.dat失败,因为'+err);
}else{
//console.log(data);
var obj=JSON.parse(data);
datas=obj.datas;
console.log('提取原有数据'+datas.length+'条');
crawl(obj.url);
}
});
// Resume crawl
}else{
process.stdout.write("\033[35m 进入新建模式. \033[039m"); //紫色
crawl(input);
}
});
}
//--------------------------------------
// 将爬行中信息存入数据文件
//--------------------------------------
function saveFile(url,datas){
var obj=new Object;
obj.url=url;
obj.datas=datas;
var text=JSON.stringify(obj);
fs.writeFile('./save.dat',text,function(err){
if(err){
console.log('写入文件save.dat失败,因为'+err);
}
});
}
// 调用getInput函数,程序开始
getInput();
下载文本截图:

Nodejs 天涯帖子《鹿鼎记中计》 柳成萌著 下载爬虫的更多相关文章
- 【nodejs】理想论坛帖子下载爬虫1.06
//====================================================== // 理想论坛帖子下载爬虫1.06 // 循环改成了递归,但最多下载千余文件就崩了 / ...
- 【nodejs】理想论坛帖子下载爬虫1.08
//====================================================== // 理想论坛帖子下载爬虫1.09 // 使用断点续传模式,因为网络传输会因各种原因中 ...
- 【nodejs】理想论坛帖子下载爬虫1.07 使用request模块后稳定多了
在1.06版本时,访问网页采用的时http.request,但调用次数多以后就问题来了. 寻找别的方案时看到了https://cnodejs.org/topic/53142ef833dbcb076d0 ...
- C# 中DataTable转成模型List
C# 中DataTable转成模型List 引入using System.Reflection; 命名空间 使用注意实体类的属性名必须和DataTable的列名一致 使用: DBList<Sto ...
- 将包含经纬度点位信息的Excel表格数据导入到ArcMap中并输出成shapefile
将包含经纬信息的Excel表格数据,导入到ArcMap中并输出成shapefile,再进行后面的操作.使用这种方法可以将每一个包含经纬信息的数据在ArcMap中点出来. 一.准备数据 新建Excel表 ...
- sql 表值函数-将一个传入的字符串用2中分隔符拆分成临时表
USE [tms]GO/****** Object: UserDefinedFunction [dbo].[fn_StrToTable_Double] Script Date: 2017/4/26 9 ...
- js中时间戳转换成时间格式
js中时间戳转换成时间格式, // 时间戳转换成时间格式 var formatDate = function(date){ date = new Date(date); var y=date.getF ...
- Unity中资源打包成Assetsbundle的资料整理
最近在研究Unity中关于资源打包的东西,网上看了一堆资料,这里做个整合,说整合,其实也就是Ctrl-C + Ctrl-V,不是原创 首先为了尊重原创,先贴出原创者的文章地址: http://blog ...
- AS3中String转换成Boolean
AS3中, 对布尔值的转换, 规定所有的非空字符串都是true. 下面都不行: var f:Boolean = new Boolean(str); var f:Boolean = str as Boo ...
随机推荐
- python每天定时发送短信脚本
最近业务上需要每天解析txt文本或者excel文件,读取内容发送短信,发送的时间段可控,用python实现 安装pip依赖 pip install -r requirement.txt xlrd Py ...
- Ubuntu下查看软件版本及安装位置
查看软件版本: XXX --version 或 aptitude show xxx 也可用apt-show-versions (要先安装sudo apt-get install apt-show-ve ...
- FastReport.Net使用:[14]文本控件使用
文本控件(Text)是FastReport中最常用的控件了,它可以是一行\多行文本.数据源的列.报表参数.汇总值.表达式,它还可以是以上任何元素的组合. 如何使用文本编辑器 1.双击文本框进入文本编辑 ...
- [ZROI #316] ZYB玩字符串
Introduction 每次在一开始为空的串$S$的任意位置插入串$p$ 给出最终的$S$,求长度最短(相同时字典序最小)的串$p$ Solution: 样例出锅差评啊,让我这种直接看样例选手挂掉5 ...
- Service里面启动Activity和Alertdialog
启动Activity源码:(记得要加上Intent.FLAG_ACTIVITY_NEW_TASK) Intent intent = new Intent(); intent.setFlags(Inte ...
- [bzoj1022][SHOI2008]小约翰的游戏 John (博弈论)
Description 小约翰经常和他的哥哥玩一个非常有趣的游戏:桌子上有n堆石子,小约翰和他的哥哥轮流取石子,每个人取的时候,可以随意选择一堆石子,在这堆石子中取走任意多的石子,但不能一粒石子也不取 ...
- 80.Vigenère密码(模拟)
Vigenère密码(文件名vigenere.cpp vigenere.in vigenere.out) 题目描述 Description 16 世纪法国外交家Blaise de Vigen ...
- poj 3468 A Simple Problem with Integers 线段树区间加,区间查询和
A Simple Problem with Integers Time Limit: 1 Sec Memory Limit: 256 MB 题目连接 http://poj.org/problem?i ...
- Linux知识(2)----中文输入法安装
Ubantu14.04在English的环境下,没有中文输入法,自带的ibus不完整.现在基于ibus框架,有几个比较好用的输入法,如sunpingyin和google pinying,还有五笔的输入 ...
- java 高并发 订单编号递增(解决方案)
业务描述: 首先从数据中查找最近的一条订单数据,然后将之前的订单号码+1作为新的订单号码,插入到数据库当中.(需求不能改变) 当出现并发操作时,A从数据库中获取最近一条订单的订单号为N,这是A还没有完 ...