node.js 基于cheerio的爬虫工具,需要登录权限的爬虫工具
公司有过一个需求,需要拿一个网页的的表格数据,数据量达到30w左右;为了提高工作效率。
结合自身经验和网上资料。写了一套符合自己需求的nodejs爬虫工具。也许也会适合你的。
先上代码。在做讲解
'use strict';
// 引入模块
const superagent = require('superagent');
const cheerio = require('cheerio');
const Excel = require('exceljs'); var baseUrl = '';
var Cookies = 'PHPSESSID=1c948cafb361cb5dce87122846e649cd'; //伪装的cookie
let pageDatas = [];
let count = 1;
let limit = 3; for (count; count < limit; count++) {
baseUrl = `http://bxjd.henoo.com/policy/policyList?page=${count}`;
loadPage(baseUrl);
} function loadPage(baseUrl) {
getPageLoad(baseUrl);
}
async function getPageLoad(baseUrl) {
try {
let body = await superagent.get(baseUrl)
.set("Cookie", Cookies)
var $ = cheerio.load(body.text);
var trList = $("#tableList").children("tr");
for (var i = 0; i < trList.length; i++) {
let item = {};
var tdArr = trList.eq(i).find("td");
var id = tdArr.eq(0).text();
item.sortId = id;
var detailUrl = `http://bxjd.henoo.com/policy/view?id=${id}`;
item.policyId = tdArr.eq(1).text();
item.policyProductName = tdArr.eq(2).text();
item.policyName = tdArr.eq(3).text();
item.policyMoney = tdArr.eq(4).text();
let detailBody = await superagent.get(detailUrl)
.set("Cookie", Cookies);
var $$ = cheerio.load(detailBody.text);
var detailT = $$(".table-view"); //投保人证件号
item.policyIdNum = detailT.find("tr").eq(11).find("td").eq(1).text();
//投保人手机号
item.policyPhone = detailT.find("tr").eq(10).find("td").eq(1).text();
//被保人手机号
item.bePoliciedPhone = detailT.find("tr").eq(16).find("td").eq(1).text();
//被保人姓名
item.bePoliciedName = detailT.find("tr").eq(13).find("td").eq(1).text();
console.log(item.bePoliciedName)
//被保人证件号
item.bePoliciedIdNum = detailT.find("tr").eq(17).find("td").eq(1).text();
pageDatas = [...pageDatas,item];
}
if (pageDatas.length / 15 == (count - 1)) {
writeXLS(pageDatas)
}
} catch (error) { } } function writeXLS(pageDatas) {
const workbook = new Excel.Workbook();
const sheet = workbook.addWorksheet('My Sheet'); const reColumns=[
{header:'序号',key:'sortId'},
{header:'投保单号',key:'policyId'},
{header: '产品名称', key: 'policyProductName'},
{header: '投保人姓名', key: 'policyName' },
{header: '投保人手机号', key: 'policyPhone' },
{header: '投保人证件号', key: 'policyIdNum'},
{header: '被保人姓名', key: 'bePoliciedName' },
{header: '被保人手机号', key: 'bePoliciedPhone' },
{header: '被保人证件号', key: 'bePoliciedIdNum' },
{header:'保费',key:'policyMoney'},
];
sheet.columns = reColumns;
for(let trData of pageDatas){
sheet.addRow(trData);
}
const filename = './projects.xlsx';
workbook.xlsx.writeFile(filename)
.then(function() {
console.log('ok');
}).catch(function (error) {
console.error(error);
});
}
代码使用方式
一、npm install 相关的依赖
二、代码修改
1、修改为自己的baseUrl
2、如果不需要携带cookie时将 set("Cookie", Cookies)代码去掉
3、修改自己的业务代码
三、运行 node index
四、部分代码说明
所有代码不过90行不到,操作了表格数据获取和单条数据详情的获取

接口请求的框架使用superagent的原因是拼接伪装的cookie的操作比较简单。因为有的时候我们需要获取登录后的页面数据。
这个时候可能需要请求是携带登录cookie信息。返回后的body对象通过cheerio.load之后就能拿到一个类似jquery的文档对象。
后面就可以很方便的使用jquery的dom操作方式去拿到页面内自己想要的数据了。

数据写入到excel中。
五、结果


如果任何问题请给我留言。接受批评也愿意提供技术帮助
node.js 基于cheerio的爬虫工具,需要登录权限的爬虫工具的更多相关文章
- 深入理解Node.js基于事件驱动的回调
回调和异步调用的关系 首先明确一点,回调并非是异步调用,回调是一种解决异步函数执行结果的处理方法.在异步调用,如果我们希望将执行的结果返回并且处理时,可以通过回调的方法解决.为了能够更好的区分回调和异 ...
- node.js 初学(二)—— 搭建注册/登录服务器
node.js 初学(二)—— 搭建注册/登录服务器 理论上来说,代码实现在理论和实际上是一样的.但实际上来说,他们不是 做一个最简单的用户注册登录功能 1.接口定义: 注册:/user?act=re ...
- Node.js基于Express框架搭建一个简单的注册登录Web功能
这个小应用使用到了node.js bootstrap express 以及数据库的操作 :使用mongoose对象模型来操作 mongodb 如果没了解过的可以先去基本了解一下相关概念~ 首先注 ...
- 一个迷你的 Node.js 基于 Express 的 MVR 模式的 API工程 的分析
1. 工程说明 该工程是基于 Express 库,编写的一个 API 查询返回的一个微型应用. API Resource 就是把 API 的内容当做网络资源去处理.工程中的路由访问也是返回 API 内 ...
- Node.js学习笔记(一) --- HTTP 模块、URL 模块、supervisor 工具
一.Node.js创建第一个应用 如果我们使用 PHP 来编写后端的代码时,需要 Apache 或者 Nginx 的 HTTP 服务器, 来处理客户端的请求相应.不过对 Node.js 来说,概念完全 ...
- Node.js原生及Express方法实现注册登录原理
由于本文只是实现其原理,所以没有使用数据库,只是在js里面模拟数据库,当然是种中还是需要用数据库的. 1.node.js原生方法 ①html页面,非常简单,没有一丝美化~我们叫它user.html & ...
- [转]分别使用Node.js Express 和 Koa 做简单的登录页
本文转自:https://blog.csdn.net/weixin_38498554/article/details/79204240 刚刚学了Koa2,由于学的不是很深,并没有感受到网上所说的Koa ...
- node.js+express+jade系列五:ajax登录
本文通过jquery实现简单的无刷新登录 1:首先要在router中配置登录请求,因为登录需要传user和pwd考虑到安全需用post请求 { path:'/', meth ...
- 用node.js给C#写一个数据表的实体类生成工具
虽然微软提供了T4模板,但是我感觉非常难用.哪儿比得上直接用脚本来写模板来的爽. 因为要给一个老项目做周边的工具,需要连接到数据库. 我习惯性用EntityFrameworkCore来做,因为毕竟从出 ...
随机推荐
- Java学习笔记(1)----规则集和线性表性能比较
为了比较 HashSet,LinkedHashSet,TreeSet,ArrayList,LinkedList 的性能,使用如下代码来测试它们加入并删除500000个数据的时间: package sr ...
- 微信小程序开发10-开发流程
1.Flex布局 Flex是Flexible Box的缩写,意为”弹性布局”,用来为盒状模型提供最大的灵活性.任何一个容器都可以指定为Flex布局. 2.设置容器,用于统一管理容器内项目布局,也就是管 ...
- 使用ZXing实现扫描多个条形码页面
1.前言 ZXing是google官方推出的跨平台的基于Java实现处理扫面二维码或者条形码的库.支持很多格式,一维条码支持UPC-A,UPC-E,EAN-8,Code 39,Code 93等格式,二 ...
- GitHub初步探索-1-使用本地代码管理工具,简化上传的过程
使用GitHub对于我们写Java的同志们来说是一个非常好的代码存储的方式,但是因为是全英文的,操作起来有一点复杂,所以我不是经常使用 ,但是最近代码越敲越多,再加上老师要求,希望使用比较简单的方法来 ...
- vuejs plus d3
vuejs 是一个数据驱动视图的前端框架,一切皆可以作为可重用的组件加以使用. d3则是数据可视化javascript库,如何将二者的长处相结合是一个挑战. https://tyronetudehop ...
- Linux下top命令监控性能状态
1.性能分析因素:CPU.内存.网络.磁盘读写 2.系统对应的应用类型主要分为以下两种: IO Bound:一般都是高负荷的内存使用以及存储系统,IO范畴的应用就是一个大数据处理的过程:通常数据库软件 ...
- ajax实现跨域请求
因为现在一直用的mvc,所以就以mvc来说说ajax跨域提交. 首先说说跨域,简单说就是不同域名访问,比如在aaa.com访问bbb.com. 就拿招聘网站来说,分为两种用户,求职者和企业,求职者端是 ...
- 连续支付的年金(continuously payable annuity)
一.含义 假设连续不断地付款,但每年的付款总量仍然为1元. 二. 连续支付年金是年支付次数m趋于无穷大时的年金,故 连续支付年金与基本年金的关系: 连续支付,每年的支付总量为1,支付期限为无穷: 积累 ...
- Asp.Net MVC Identity 2.2.1 使用技巧(八)
一.添加管理链接 在View/Shared/_layout.cshtml,在页面导航上(28行)添加如下代码: @*通过身份验证并确认用户属于Admin角色显示管理菜单*@ @if (Request. ...
- CentOS7.4 Keepalived+LVS 负载均衡 后台节点健康检查
主机信息 VIP 10.10.10.55 LVS01 10.10.10.59 Web01 10.10.10.60 Web02 10.10.10.61 一.apache简单配置 1.(10.10.10. ...