js爬虫心得

第一步：分析要爬的网站：包括是否需要登陆、点击下一页的网址变化、下拉刷新的网址变化等等
第二步：根据第一步的分析，想好爬这个网站的思路
第三步：爬好所需的内容保存

爬虫过程中用到的一些包：

（1）const request =  require('superagent'); // 处理get post put delete head 请求  轻量接http请求库,模仿浏览器登陆

（2）const cheerio = require('cheerio'); // 加载html
（3）const fs = require('fs'); // 加载文件系统模块 将数据存到一个文件中的时候会用到

       fs.writeFile('saveFiles/zybl.txt', content, (error1) => { // 将文件存起来 文件路径 要存的内容 错误
             if (error1) throw error1;
             // console.log(' text save ');
         });

         this.files = fs.mkdir('saveFiles/simuwang/xlsx/第' + this.page + '页/', (error) => {
            if (error) throw error;
          }); //创建新的文件夹
          //向新的文件夹里面创建新的文件
          const writeStream = fs.createWriteStream('saveFiles/simuwang/xlsx/' + '第' + this.page + '页/' + xlsxTitle  + '.xlsx', ['a']);
            //向新的文件里面写入内容
           for (let i = 0; i < value1.length; i += 1) {
              writeStream.write(xlsxTitle + '\t' + this.getLocalTime(value1[i][0] / 1000)
                + '\t' + value1[i][1] + '\t' + this.getLocalTime(value2[i][0] / 1000)
                + '\t' + value2[i][1] + '\t' + this.getLocalTime(value3[i][0] / 1000)
                + '\t' + value3[i][1] + '\t');
            }
            //写入完内容之后及时关闭流，如果不关闭，当爬取很多的文件的时候会出现错误，文件里面写不进去内容
            writeStream.end();

（4）const fs      = require('graceful-fs'); // 将文件存为xlse

       const writeStream = fs.createWriteStream('saveFiles/trader.xlsx'); //新建xlsx文件

       writeStream.write(title);//像slsx里面写入内容

（5）const Promise = require('bluebird'); //异步处理

（6）const Nightmare = require('nightmare');//一个高层次的浏览器自动化图书馆  先要安装phantomjs 然后在装nightmare 

（7）const co        = require('co');

爬虫的相关思路：

（1）获取首页面的所需内容
（2）在首页面的所有内容里面获取所需内容的链接
（3）将（2）里面的链接存到一个list里面去
（3）新写一个function，采用.pop()方法，用来取通过链接得到的新的内容
（4）判断list.length是否大于0，
（5）如果不是，开始爬子页面 并且调用该方法
（6）如果list的长度为0，就说明这一页爬完了，开始下一页，则将url改变
（7）重复（2）（3）（4）（5）（6）直至所有页面爬完

js爬虫心得的更多相关文章

Node.js爬虫-爬取慕课网课程信息
第一次学习Node.js爬虫,所以这时一个简单的爬虫,Node.js的好处就是可以并发的执行这个爬虫主要就是获取慕课网的课程信息,并把获得的信息存储到一个文件中,其中要用到cheerio库,它可以让 ...
node.js爬虫
这是一个简单的node.js爬虫项目,麻雀虽小五脏俱全. 本项目主要包含一下技术: 发送http抓取页面(http).分析页面(cheerio).中文乱码处理(bufferhelper).异步并发流程 ...
Node.js aitaotu图片批量下载Node.js爬虫1.00版
即使是https网页,解析的方式也不是一致的,需要多试试. 代码: //====================================================== // aitaot ...
Node.js umei图片批量下载Node.js爬虫1.00
这个爬虫在abaike爬虫的基础上改改图片路径和下一页路径就出来了,代码如下: //====================================================== // ...
Node.js abaike图片批量下载Node.js爬虫1.01版
//====================================================== // abaike图片批量下载Node.js爬虫1.01 // 1.01 修正了输出目 ...
Node.js abaike图片批量下载Node.js爬虫1.00版
这个与前作的差别在于地址的不规律性,需要找到下一页的地址再爬过去找. //====================================================== // abaik ...
Node JS爬虫：爬取瀑布流网页高清图
原文链接:Node JS爬虫:爬取瀑布流网页高清图静态为主的网页往往用get方法就能获取页面所有内容.动态网页即异步请求数据的网页则需要用浏览器加载完成后再进行抓取.本文介绍了如何连续爬取瀑布流网页 ...
微信小程序js学习心得体会
微信小程序js学习心得体会页面控制的bindtap和catchtap 用法,区别 <button id='123' data-userDate='100' bindtap='tabMessag ...
Node.js 爬虫爬取电影信息
Node.js 爬虫爬取电影信息我的CSDN地址:https://blog.csdn.net/weixin_45580251/article/details/107669713 爬取的是1905电影 ...

随机推荐

配合 APP 调用 JS 的一次尝试
项目初衷最初的场景是用户在对购物车的操作中,由于用户对购物车的每次操作(包括选择,调整数量)都需要计算商品的促销和分组的情况,而这段逻辑的计算都需要调用后端的接口,那么瓶颈来了: 请求时间长--一次 ...
Hardware Solutions CACHE COHERENCE AND THE MESI PROTOCOL
COMPUTER ORGANIZATION AND ARCHITECTURE DESIGNING FOR PERFORMANCE NINTH EDITION Hardware-based soluti ...
nginx 不带www到www域名的重定向
如果是单次重定向用 redirect, 如果永久跳转用 permanent,这里用 permanent { listen 80; server_name xxx.com www.xxx. ...
openfire 用户密码加密解密
1.openfire采用的加密方法 Blowfish.java /** * $RCSfile$ * $Revision: 3657 $ * $Date: 2002-09-09 08:31:31 -07 ...
oracle里面base64加解密
1. base64 的解密函数select utl_raw.cast_to_varchar2(utl_encode.base64_decode(utl_raw.cast_to_raw('dGVzdA= ...
requests库基本使用
在python中,字典的输出内容跟json格式内容一样,但是字典的格式是字典,json的格式是字符串,所以在传输的时候(特别是网页)要转换使用. r.text返回的是Unicode型的数据. r.co ...
Hibernate操作指南-实体之间的关联关系（基于注解）
Trace-如何跟踪某个Job的开销
1.背景下面是从以往Profiler收集的跟踪文件中提取Job有关数据 ;with cte as( Duration_ms ,CPU CPU_ms,Reads,Writes,StartTime,En ...
Java网络编程之流——流、过滤器、阅读器和书写器
Java的I/O建立于流(Stream)之上.输入流读取数据:输出流写入数据.所有的输出流都有相同的基本方法来写入数据,所有输入流也使用相同的基本方法来读取数据.在创建流之后,你通常可以忽略在读写时的 ...
postgresql修炼之道学习笔记（2）
随后的章节介绍了基础的sql,这个我略过了,我喜欢在开发的时候,慢慢的研究,毕竟有oracle的基础. 现在,学习psql工具使用create database创建数据库的时候,出现如下问题: ...

js爬虫心得

js爬虫心得的更多相关文章

随机推荐

热门专题