NodeJS简单爬虫

最近一直在追火星的一本书，然后每次都要去网站看，感觉很麻烦，于是，想起用爬虫爬取章节，务实派，说干就干！

爬取思路

1、该网站的页面呈现出一定的规律
2、使用NodeJS的request模块发起请求
3、对获取到的数据进行处理
4、使用NodeJS的fs模块将数据写入文件

源码说明

//声明需要的模块

var request = require('request');

var fs=require("fs");

//小说章节的标题

var title="";

//小说章节的内容

var article="";

//对应的网页序号

var i=1;

//写入流

var ws;

var get=()=>{

	//发起请求

	request('http://www.nitianxieshen.com/'+i+'.html', function (error, response, body) {

		try{

			if (!error && response.statusCode == 200) {

				//截取标题与段落

			    title = body.match(/<div class="post_title">([\s\S]*)<\/h1>/i)[0].split("</div>")[0];

			    article = body.match(/<div class="post_entry">([\s\S]*)<\/div>/i)[0].split("</div>")[0];

			    //去除多余的符号

			    title=title.replace("h1", "").replace("h1", "").replace(/[</a-z_"=>\r\n ]/g, "");

			    article=article.replace(/br/g, "\r\n").replace(/[</a-z1=_".:&;>]/g, "");

			    ws=fs.createWriteStream(title+".txt");

				ws.write(title+"\r\n\r\n","utf8");

				ws.write(article,"utf8");

				ws.end();

				console.log(title+".txt"+" 正在写入...");

				ws.on("finish", ()=>console.log("写入完成！"));

				ws.on("error", ()=>console.log("写入错误！"));

			}

		}catch(err){

			//部分章节的序号不连续，不要停止，等待自动爬取完就好，打印出该log后自动无视掉

			//好吧，其实后面有一段挺长的不连续的...有兴趣的可以再加个判断条件

			console.log("本次爬取失败");

			//目前更新的最新章节序号未到2900，确保能爬取完

			if(i>2900) clearInterval(timer);

		}

	})

}

var timer=setInterval(function(){

	get();

	i++;

}, 2000);//爬取的间隔时间不建议太短，1~2秒比较保险

效果

声明

本文章仅供学习，爬取的资源请在爬取后的24小时内删除，勿将爬取到的东西商用，喜欢火星的可以支持火星哈。

NodeJS简单爬虫的更多相关文章

nodejs的简单爬虫
闲聊好久没写博客了,前几天小颖在朋友的博客里看到了用nodejs的简单爬虫.所以小颖就自己试着做了个爬博客园数据的demo.嘻嘻...... 小颖最近养了条泰日天,自从养了我家 ...
nodejs实现简单爬虫
nodejs结合cheerio实现简单爬虫 let cheerio = require("cheerio"), fs = require("fs"), util ...
NodeJS制作爬虫全过程
这篇文章主要介绍了NodeJS制作爬虫的全过程,包括项目建立,目标网站分析.使用superagent获取源数据.使用cheerio解析.使用eventproxy来并发抓取每个主题的内容等方面,有需要的 ...
Python简单爬虫入门三
我们继续研究BeautifulSoup分类打印输出 Python简单爬虫入门一 Python简单爬虫入门二前两部主要讲述我们如何用BeautifulSoup怎去抓取网页信息以及获取相应的图片标题等信 ...
[Java]使用HttpClient实现一个简单爬虫，抓取煎蛋妹子图
第一篇文章,就从一个简单爬虫开始吧. 这只虫子的功能很简单,抓取到”煎蛋网xxoo”网页(http://jandan.net/ooxx/page-1537),解析出其中的妹子图,保存至本地. 先放结果 ...
简单爬虫，突破IP访问限制和复杂验证码，小总结
简单爬虫,突破复杂验证码和IP访问限制文章地址:http://www.cnblogs.com/likeli/p/4730709.html 好吧,看题目就知道我是要写一个爬虫,这个爬虫的目标网站有 ...
Python简单爬虫入门二
接着上一次爬虫我们继续研究BeautifulSoup Python简单爬虫入门一上一次我们爬虫我们已经成功的爬下了网页的源代码,那么这一次我们将继续来写怎么抓去具体想要的元素首先回顾以下我们Bea ...
GJM : Python简单爬虫入门（二） [转载]
感谢您的阅读.喜欢的.有用的就请大哥大嫂们高抬贵手"推荐一下"吧!你的精神支持是博主强大的写作动力以及转载收藏动力.欢迎转载! 版权声明:本文原创发表于 [请点击连接前往] ,未经 ...
python 简单爬虫diy
简单爬虫直接diy, 复杂的用scrapy import urllib2 import re from bs4 import BeautifulSoap req = urllib2.Request(u ...

随机推荐

java简单的文件读写工具类
import java.io.BufferedInputStream; import java.io.BufferedOutputStream; import java.io.BufferedRead ...
二叉搜索树与双向链表(python)
题目描述输入一棵二叉搜索树,将该二叉搜索树转换成一个排序的双向链表.要求不能创建任何新的结点,只能调整树中结点指针的指向. # -*- coding:utf-8 -*- # class TreeNo ...
手机服务器微架构设计与实现之 http server
手机服务器微架构设计与实现之 http server ·应用 ·传输协议和应用层协议概念 TCP UDP TCP和UDP选择三次握手(客户端与服务器端建立连接)/四次挥手(断开连接)过程图 · ...
python 之字符编码
一了解字符编码的储备知识 python解释器和文件本编辑的异同相同点:python解释器是解释执行文件内容的,因而python解释器具备读py文件的功能,这一点与文本编辑器一样不 ...
netty2 案例:数据通信
在实际的项目中应该如何使用netty去通信呢? 一般来说,会有以下三种情况, 1长连接也就是服务器和客户端的通道一直不关闭,如果服务器性能非常好,并且在客户端数量不是很多的情况下,可以选择使用这种方 ...
MUI的一些笔记
自定义图标 https://www.iconfont.cn选择图标添加入购物车进入项目管理下载需要的图标压缩包之后按照自己的需求进行html的操作事件绑定 mui(dom)on( event , ...
（转）Flex 布局教程：
这个博客的内容比较新,多看看 http://www.ruanyifeng.com/blog/2015/07/flex-grammar.html [语法篇] http://www.ruanyifeng. ...
The Python Challenge 0-4
The Python Challenge 0-4 项目地址:http://www.pythonchallenge.com/ Level-0 提示Hint: try to change the URL ...
Html5与Css3知识点拾遗（九）
css布局控制元素的显示类型和可见性块级元素 dispaly:block: 行内元素(不能设置宽度) display:inline: 不接受padding设置,但padding-top和paddi ...
一个自己实现的js表单验证框架。
经常要做一些表单验证的操作,每次都是用现成的框架,比如jquery,bootstrap等的验证插件,虽然也很强大,也很好用,可就是用起来需要引入许多js库,还有里面功能太多,感觉不太符合自己的需求.最 ...

NodeJS简单爬虫

NodeJS简单爬虫

爬取思路

源码说明

效果

声明

NodeJS简单爬虫的更多相关文章

随机推荐

热门专题