node爬虫进阶版

手写了一个方便爬虫的小库：

const url = require('url')

const glib = require('zlib')

//默认头部

const _default_headers = {

    'Accept-Encoding': 'gzip, deflate, br',

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36'

}

//options(url,method,header)--http头部信息 isDebug--是否开启调试状态

module.exports = function(options, isDebug) {

    if(typeof options === "string") {

        options = {

            url: options,

            method: 'GET',

            headers: {}

        }

    } else {

        options = options || {}

        options.method = options.method || 'GET'

        options.headers = options.headers || {}

    }

    options.headers = Object.assign(_default_headers, options.headers)

    function debug(msg) {

        if(isDebug) {

            console.log(msg)

        }

    }

    return new Promise((resolve, reject) => {

        req(options)

        function req(options) {

            //判断是http还是https

            let urlObj = url.parse(options.url)

            let mod = null

            port = 0

            if(urlObj.protocol == 'https:') {

                mod = require('https')

                port = 443

            } else {

                mod = require('http')

                port = 80

            }

            let _req_options = {

                hostname: urlObj.hostname,

                port,

                path: urlObj.path,

                method: options.method,

                headers: options.headers

            }

            //开始模拟，爬取信息

            let req_obj = mod.request(_req_options, (res) => {

                if(res.statusCode!==200) {

                    //如果是重定向则重新在请求

                    if(res.statusCode == 301 || res.statusCode === 302) {

                        options.url = res.headers.location

                        debug('重定向: '+res.headers.location)

                        req(options)

                    } else {

                        reject(res.statusCode)

                    }

                } else {

                    //statusCode是200时接受data buffer

                    let data = []

                    res.on('data', buffer => {

                        data.push(buffer)

                    })

                    res.on('end', () =>{

                        let buffer = Buffer.concat(data)

                        //判断是否传输有误

                        if (res.headers['content-length'] != buffer.length) {

                            debug('收到数据有误，正在重新获取')

                            req(options)

                        }

                        //判断是否有用gzip

                        else if (res.headers['content-encoding'] && res.headers['content-encoding'].includes('gzip')) {

                           buffer = glib.gunzip(buffer, (err,data) => {

                               debug('gzip解压完成并成功返回')

                               resolve(data)

                           })

                        } else {

                            debug('成功返回')

                            resolve(buffer)

                        }

                    })

                }

            })

            req_obj.on('error', err => {

                debug('爬虫失败')

                reject(err)

            })

            req_obj.end()

        }

    })

}

require进来然后传入url或者options,就可以得到爬虫后返回的promise了

举个例子：

我要爬个bilibili的视频：

const url = require('url')

const fs = require('fs')

function getVideo(options, headers, fileName) {

    if(typeof options === "string") {

        options = {

            url: options,

            method: 'GET',

            headers: {},

            timeout: 2000

        }

    } else {

        options = options || {}

        options.method = options.method || 'GET'

        options.headers = options.headers || {}

        options.timeout = options.timeout || 2000

    }

    options.headers = headers

    return new Promise((resolve, reject) => {

        req(options)

        function req(options) {

            //判断是http还是https

            let urlObj = url.parse(options.url)

            let mod = null

            port = 0

            if(urlObj.protocol == 'https:') {

                mod = require('https')

                port = 443

            } else {

                mod = require('http')

                port = 80

            }

            let _req_options = {

                hostname: urlObj.hostname,

                port,

                path: urlObj.path,

                method: options.method,

                headers: options.headers,

                timeout: options.timeout

            }

            //开始模拟，爬取信息

            let req_obj = mod.request(_req_options, (res) => {

                // 视频路径

                const filePath = `${__dirname}/${fileName}`;

                if (fs.existsSync(filePath)) {

                    fs.unlinkSync(filePath)

                }

                res.on('data', buffer => {

                    fs.appendFileSync(filePath, buffer)

                    const size = fs.statSync(filePath).size;

                    console.log(`已下载${(size / 1024 / 1024).toFixed(2)}MB,完成${(size/res.headers['content-length'] * 100).toFixed(2)}%`)

                })

                res.on('end', () =>{

                    resolve()

                })

            })

            req_obj.on('error', err => {

                debug('爬虫失败')

                reject(err)

            })

            req_obj.end()

        }

    })

}

// 生成文件名

const fileName = '1.flv'

// 链接

const videoUrl = 'https://cn-sdyt-cu-v-05.acgvideo.com/upgcxcode/66/83/34548366/34548366-1-64.flv?expires=1545405600&platform=pc&ssig=ElhY4A2e-U4R2m8EI1eiGQ&oi=1928611810&nfa=uTIiNt+AQjcYULykM2EttA==&dynamic=1&hfa=2116953847&hfb=Yjk5ZmZjM2M1YzY4ZjAwYTMzMTIzYmIyNWY4ODJkNWI=&trid=45c5fdc464354b71bf599c224b7df8ea&nfb=maPYqpoel5MI3qOUX6YpRA==&nfc=1';

// 头部

const header = {

    'Origin': 'https://www.bilibili.com',

    'Referer': 'https://www.bilibili.com/video/av21061574',

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36',

}

getVideo(videoUrl, header, fileName).then(res => {

    console.log('写入成功');

})

node爬虫进阶版的更多相关文章

node爬虫（简版）
做node爬虫,首先像如何的去做这个爬虫,首先先想下思路,我这里要爬取一个页面的数据,要调取网页的数据,转换成页面格式(html+div)格式,然后提取里面独特的属性值,再把你提取的值,传送给你的页面 ...
Nodejs爬虫进阶教程之异步并发控制
Nodejs爬虫进阶教程之异步并发控制之前写了个现在看来很不完美的小爬虫,很多地方没有处理好,比如说在知乎点开一个问题的时候,它的所有回答并不是全部加载好了的,当你拉到回答的尾部时,点击加载更多,回 ...
webpack4打包nodejs项目进阶版——多页应用模板
前段时间我写了个打包nodejs项目的文章,点击前往但是,问题很多.因为之前的项目是个历史遗留项目,重构起来可能会爆炸,当时又比较急所以就写个的适用范围很小的webpack的打包方法. 最近稍微得空 ...
node爬虫的几种简易实现方式
说到爬虫大家可能会觉得很NB的东西,可以爬小电影,羞羞图,没错就是这样的.在node爬虫方面,我也是个新人,这篇文章主要是给大家分享几种实现node 爬虫的方式.第一种方式,采用node,js中的 s ...
高效能团队的Java研发规范(进阶版)
目前大部分团队是使用的阿里巴巴Java开发规范,不过在日常开发中难免遇到覆盖不到的场景,本文在阿里巴巴Java开发规范基础上,补充一些常用的规范,用于提升代码质量及增强代码可读性. 编程规约 1.基础 ...
zip伪加密文件分析（进阶版）
作者近日偶然获得一misc题,本来以为手到擒来,毕竟这是个大家都讨论烂了的题,详情访问链接http://blog.csdn.net/ETF6996/article/details/51946250.既 ...
继续node爬虫 — 百行代码自制自动AC机器人日解千题攻占HDOJ
前言不说话,先猛戳 Ranklist 看我排名. 这是用 node 自动刷题大概半天的 "战绩",本文就来为大家简单讲解下如何用 node 做一个 "自动AC机&quo ...
Node爬虫
Node爬虫参考 http://www.cnblogs.com/edwardstudy/p/4133421.html 所谓的爬虫就是发送请求,并将响应的数据做一些处理只不过不用浏览器来发送请求需 ...
python--代码统计（进阶版）
在上一篇的随笔中发表了代码统计小程序,但是发表后,我发现,以前写的代码怎么办写了那么多,怎么就从0开始了呢,,,,我还是个孩子啊,不能这么残忍于是,代码统计进阶版:统计当前目录下所有指定文件类型的 ...

随机推荐

idea 解决 pom.xml 中，maven仓库无法导入的问题（红线）
只需要用另一篇文章的 maven clean install 功能就行了 idea Cannot Resolve Symbol 问题解决
Linux 上传代码到github
1.git init 初始化 2.git clone将刚刚创建的项目克隆下来 git clone https://github.com/... 3.进入到Project,编写代码 4.项目完成后执行g ...
记录Appium-desktop踩过的坑could not find devices
最近了解到一个自动化入门的新工具appium-desktop,看网上各种文章,感觉这个工具是很简单的一个入门级工具,下载试用了一下. 官网下载,输入网址appium.io,点击下载. 一路傻瓜式安装, ...
OpenMPI源码剖析：网络通信原理(二) 如何选择网络协议?
因为比较常用的是 TCP 协议,所以在 opal/mca/btl/tcp/btl_tcp.h 头文件中找到对应的 struct mca_btl_tcp_component_t { mca_btl_ba ...
20135202闫佳歆--week7 可执行程序的装载--学习笔记
此为个人学习笔记存档 week 7 可执行程序的装载一.预处理.编译.链接和目标文件的格式可执行文件的创建--预处理.编译和链接 cd Code vi hello.c gcc -E -o hell ...
第二阶段冲刺——two
个人任务: 王金萱:优化作业查询结果,按学号排列. 马佳慧:测试登录功能并优化. 司宇航:修复博客作业查询功能. 季方:测试博客作业查询功能. 站立会议: 任务看板和燃尽图:
老李的blog使用日记（3）
匆匆忙忙.碌碌无为,这是下一个作业,VS,多么神圣高大上,即使这样,有多少人喜欢你就有多少人烦你,依然逃不了被推销的命运,这抑或是它喜欢接受的,但是作为被迫接受者,能做的的也只有接受,而已. 既来之则 ...
关于给C盘扩容以及动态磁盘
2019.4.5 周五磁盘分为基本磁盘和动态磁盘基本磁盘转动态磁盘是很容易的 https://jingyan.baidu.com/article/59a015e3a3d504f7948865b1. ...
Beta冲刺——day4
Beta冲刺--day4 作业链接 Beta冲刺随笔集 github地址团队成员 031602636 许舒玲(队长) 031602237 吴杰婷 031602220 雷博浩 031602134 王龙 ...
【壹拾壹周】final_review
项目名:俄罗斯方块组名:新蜂组长:武志远组员:宫成荣杨柳谢孝淼李桥 final Review会议时间:2016.12.3 会议内容设想和目标 1.在final阶段发布时的预期目标是什么 ...

node爬虫进阶版

node爬虫进阶版的更多相关文章

随机推荐

热门专题