基于nodeJS的小说爬虫实战

背景与需求分析

最近迷恋于王者荣耀、斗鱼直播与B站吃播视频，中毒太深，下班之后无心看书。

为了摆脱现状，能习惯看书，我开始看小说了，然而小说网站广告多而烦，屌丝心态不愿充钱，于是想到了爬虫。

功能分析

为了将网上小说内容获取到本地，进行了功能分析：

1、获取每个章节列表地址
2、更加每个章节地址，获取每个章节的内容
3、将获取的各个章节内容有序的写入文件

技术调研

作为一个前端er，实现爬虫nodeJS必须是首选，虽然数据挖掘Python才是真理

npm依赖如下

1、爬取内容 superagent
2、分析爬取的内容 cheerio
3、并发 async
4、文件写入 fs

编码实现

xiaoshuo.js代码如下

const cheerio = require('cheerio')

const superagent = require('superagent')

require('superagent-charset')(superagent)

const async = require('async');

const fs = require('fs');

let baseUrl = 'http://www.xxx.com/book/14435/';

let infos = [];

let urls = [];

let titles = [];

let fileName = '';

superagent.get(baseUrl).charset('UTF-8').end((err,res)=>{

    var $ = cheerio.load(res.text);

    // 读取章节列表页面

    $('.am-book-list').eq(1).find('.am-u-lg-4 a').each((i, v) => {

        let link = 'http://www.xxx.com' + $(v).attr('href')

        urls.push(link);

        fileName = $('.am-book-info h2').text()+'.txt';

    })

    let id = 0;

    //获取每个章节列表

    async.mapLimit(urls,urls.length,(url,callback)=>{

        id++

        fetchUrl(url,callback,id);

    },(err,results)=>{

        //将文件写入本地

        fs.existsSync(fileName);

        for(var i = 0;i<results.length-1;i++){

            fs.appendFileSync(fileName, results[i].title) //

            fs.appendFileSync(fileName, results[i].content)

        }

    })

})

function fetchUrl(url,callback,id){

    superagent.get(url)

        .charset('UTF-8')

        .end(function(err,res){

            let $ = cheerio.load(res.text);

            let arr = []

            let content = reconvert($("#am-read-centent").text())

            const obj = {

                id: id,

                err: 0,

                title: '\n'+$('#am-book-h3').text(), //标题

                content: '\n'+trim(content.toString()) //内容

            }

            callback(null,obj)

        })

}

function reconvert(str) {

  str = str.replace(/(&#x)(\w{1,4});/gi, function ($0) {

    return String.fromCharCode(parseInt(escape($0).replace(/(%26%23x)(\w{1,4})(%3B)/g, "$2"), 16));

  });

  return str

}

function trim(str){

  return str.replace(/(^\s*)|(\s*$)/g, '').replace(/&nbsp;/g, '')

}

为了避免坐牢，站点使用xxx代替，

运行效果

在命令行运行 node xiaoshuo，试验了本小说，好像还是ok的，哈哈哈

基于nodeJS的小说爬虫实战的更多相关文章

python 基于aiohttp的异步爬虫实战
钢铁知识库,一个学习python爬虫.数据分析的知识库.人生苦短,快用python. 之前我们使用requests库爬取某个站点的时候,每发出一个请求,程序必须等待网站返回响应才能接着运行,而在整个爬 ...
基于NodeJs的网页爬虫的构建（二）
好久没写博客了,这段时间已经忙成狗,半年时间就这么没了,必须得做一下总结否则白忙.接下去可能会有一系列的总结,都是关于定向爬虫(干了好几个月后才知道这个名词)的构建方法,实现平台是Node.JS. 背 ...
基于NodeJs的网页爬虫的构建（一）
好久没写博客了,这段时间已经忙成狗,半年时间就这么没了,必须得做一下总结否则白忙.接下去可能会有一系列的总结,都是关于定向爬虫(干了好几个月后才知道这个名词)的构建方法,实现平台是Node.JS. 背 ...
浏览器自动刷新——基于Nodejs的Gulp LiveReload与VisualStudio完美结合。
本文版权桂博客园和作者吴双共同所有,转载和爬虫请注明原文地址 http://www.cnblogs.com/tdws/p/6016055.html 写在前面大家好我是博客园的蜗牛,博客园的蜗牛就是我 ...
基于nodejs模拟浏览器post请求爬取json数据
今天想爬取某网站的后台传来的数据,中间遇到了很多阻碍,花了2个小时才请求到数据,所以我在此总结了一些经验. 首先,放上我所爬取的请求地址http://api.chuchujie.com/api/?v= ...
爬虫实战：爬虫之 web 自动化终极杀手 ( 上）
欢迎大家前往腾讯云技术社区,获取更多腾讯海量技术实践干货哦~ 作者:陈象导语: 最近写了好几个简单的爬虫,踩了好几个深坑,在这里总结一下,给大家在编写爬虫时候能给点思路.本次爬虫内容有:静态页面的爬 ...
iKcamp团队制作｜基于Koa2搭建Node.js实战项目教学（含视频）☞ 环境准备
安装搭建项目的开发环境视频地址:https://www.cctalk.com/v/15114357764004 文章 Koa 起手 - 环境准备由于 koa2 已经开始使用 async/await ...
32个Python爬虫实战项目，满足你的项目慌
爬虫项目名称及简介一些项目名称涉及企业名词,小编用拼写代替 1.[WechatSogou]- weixin公众号爬虫.基于weixin公众号爬虫接口,可以扩展成其他搜索引擎的爬虫,返回结果是列表,每 ...
Python爬虫实战---抓取图书馆借阅信息
Python爬虫实战---抓取图书馆借阅信息原创作品,引用请表明出处:Python爬虫实战---抓取图书馆借阅信息前段时间在图书馆借了很多书,借得多了就容易忘记每本书的应还日期,老是担心自己会违约 ...

随机推荐

第六章组件 55 组件-使用components定义私有组件
<!DOCTYPE html> <html lang="en"> <head> <meta charset="utf-8&quo ...
pro git 读书笔记 3 Git 分支
分支新建分支:git branch 分支名切换到该分支:git checkout 分支名补充:以上两条语句等价于一句:git checkout -b 分支名转换分支的时候最好保持一个清洁的工作 ...
web+大文件上传
总结一下大文件分片上传和断点续传的问题.因为文件过大(比如1G以上),必须要考虑上传过程网络中断的情况.http的网络请求中本身就已经具备了分片上传功能,当传输的文件比较大时,http协议自动会将文件 ...
NOI2007 项链工厂
题目链接:戳我 60pts 有一点容易写错的小细节: 比如说求全局的段数的时候,如果只有一种颜色,那么当左右端点相等时,就不要ans--了. 注意右端点小于左端点的情况. #include<io ...
洛谷P3193 GT考试 kmp+矩阵优化dp
题意求$N$位数字序列(可以有前导0)中不出现某$M$位子串的个数,模$K$. $N<=10^9,M<=20,K<=1000$ 分析设$dp[i][j]$表示 ...
Ubuntu安裝python3.7版
https://blog.csdn.net/u014775723/article/details/85213793 failed to fetch ppa:https://blog.csdn.net/ ...
codeforces269B
Greenhouse Effect CodeForces - 269B Emuskald is an avid horticulturist and owns the world's longest ...
SWPUCTF2019 | 神奇的二维码
拖到binwalk里面发现4个压缩包: 查找一下RAR的文件头,然后把它们提取出来: 第一个base64一下得到第二个压缩包的密码: 第二个压缩包可以,emmm,保存一下扩充一下自己的表情包库: 第三 ...
[CSP-S模拟测试]:最大或（数学）
题目传送门(内部题141) 输入格式输入文件包含多组测试数据,第一行为一个正整数$T$,表示数据组数. 接下来$T$行,每行两个正整数$l,r$.数据保证$l\leqslant r$成立. 输出格式 ...
批量插入数据@Insert
// 批量插入数据 @Insert("<script>" + "insert into index_kline (currency_id, currency, ...