使用Puppeteer抓取受限网站

不要相信前端是安全的，今天简单验证一下，但是希望大家支持正版，支持原作者，毕竟写书不易。

安装Puppteer

 npm install --save puppeteer

选择目标网站

我们这里选择胡子大哈大神的网站 http://huziketang.mangojuice.top ；

爬取所有文章

基本思想思路

实现方案

爬取书籍目录->根据目录爬取没个章节的内容

注意的地方

本书有付费章节和免费章节，爬取付费章节需要禁用javascript执行，然后移除对应的mask的dom节点

核心代码

const path = require('path');

const fs = require('mz/fs');

const puppeteer = require('puppeteer');

const pdfDir = path.resolve(__dirname, './pdf/');

const targetHost = "http://huziketang.mangojuice.top"

//保存pdf 文件

const savePdf = async (page, link) => {

    let fileName = link.substring(link.lastIndexOf('/')) + '.pdf';

    await page.goto(link);

    await page.evaluate(() => {

        //隐藏左侧菜单栏 以及下方部分内容

        let allNeedHidens = document.querySelectorAll('#table-of-content,.PageNavigation,.share-block,hr,blockquote,.post__back>a,#wrapper>h1');

        let elCount = allNeedHidens.length;

        for (let i = 0; i < elCount; i++) {

            allNeedHidens[i].style.display = 'none';

        }

    });

    await page.pdf({

        path: pdfDir + fileName

    });

    console.log(`${link} saved to pdf successfully!!!`);

}

//启动程序

const start = async () => {

    //创建一个browser 实例

    let browser = await puppeteer.launch({

        headless: true,

        devtools: false

    });

    //创建一个空白page实例

    let page = await browser.newPage();

    //设置禁用js,当前必须设置，否则会导致页面无法处理

    //说明：只是禁用page原有javascript,但是page.evaluate 中可以继续使用

    await page.setJavaScriptEnabled(false);

    //获取书目录标题

    await page.goto(targetHost + '/books/react/');

    let result = await page.evaluate((targetHost) => {

        //获取目录链接

        let ulArray = document.querySelectorAll('ul.table-of-content>li>a');

        let array = Array.prototype.slice.call(ulArray, 0);

        let links = array.map((v) => {

            let href = v.getAttribute('href');

            return `${targetHost}${href}`;

        })

        return {

            links: links

        }

    }, targetHost);

    for (let link of result.links) {

        await savePdf(page, link);

    }

    await page.close();

    await browser.close();

}

start();

代码比较简单，不做过多解释。

使用Puppeteer抓取受限网站的更多相关文章

Python多进程方式抓取基金网站内容的方法分析
因为进程也不是越多越好,我们计划分3个进程执行.意思就是 :把总共要抓取的28页分成三部分. 怎么分呢? # 初始range r = range(1,29) # 步长 step = 10 myList ...
使用BurpSuite抓取HTTPS网站的数据包
昨天面试,技术官问到了我如何使用BurpSuite抓取https网站的数据包,一时间没能回答上来(尴尬!).因为以前https网站的数据包我都是用Fiddler抓取的,Fiddlert自动帮我们配置好 ...
用python抓取求职网站信息
本次抓取的是智联招聘网站搜索“数据分析师”之后的信息. python版本: python3.5. 我用的主要package是 Beautifulsoup + Requests+csv 另外,我将招聘内 ...
手把手视频：万能开源Hawk抓取动态网站
Hawk是沙漠之鹰历时五年开发的开源免费网页抓取工具(爬虫),无需编程,全部可视化. 自从上次发布Hawk 2.0过了小半年,可是还是有不少朋友通过邮件或者微信的方式询问如何使用.看文档还是不如视频教 ...
python3+beautifulSoup4.6抓取某网站小说（四）多线程抓取
上一篇多文章,是二级目录,根目录"小说",二级目录"作品名称",之后就是小说文件. 本篇改造了部分代码,将目录设置为根目录->作者目录->作品目录- ...
在Scrapy项目【内外】使用scrapy shell命令抓取某网站首页的初步情况
Windows 10家庭中文版,Python 3.6.3,Scrapy 1.5.0, 时隔一月,再次玩Scrapy项目,希望这次可以玩的更进一步. 本文展示使用在 Scrapy项目内.项目外scrap ...
[Python爬虫] 之二十二：Selenium +phantomjs 利用 pyquery抓取界面网站数据
一.介绍本例子用Selenium +phantomjs爬取界面(https://a.jiemian.com/index.php?m=search&a=index&type=news& ...
python3+beautifulSoup4.6抓取某网站小说（三）网页分析，BeautifulSoup解析
本章学习内容:将网站上的小说都爬下来,存储到本地. 目标网站:www.cuiweijuxs.com 分析页面,发现一共4步:从主页进入分版打开分页列表.打开分页下所有链接.打开作品页面.打开单章内容. ...
python3+beautifulSoup4.6抓取某网站小说（一）爬虫初探
本次学习重点: 1.使用urllib的request进行网页请求,获取当前url整版网页内容 2.对于多级抓取,先想好抓取思路,再动手 3.BeautifulSoup获取html网页中的指定内容 4. ...

随机推荐

MyBatis延迟加载及在spring中集成配置
当你要使用one to one,many to one 就会碰到N+1的问题.很明显,对象之间关联很多有A关联B,B关联C,C关联A这样的关系,如果不是采用延迟加载,很容易一下在出现成千上万对象 ...
C语言--测试电脑存储模式（大端存储OR小端存储）
相信大家都知道大端存储和小端存储的概念,这在平时,我们一般不用考虑,但是,在某些场合,这些概念就显得很重要,比如,在 Socket 通信时,我们的电脑是小端存储模式,可是传送数据或者消息给对方电脑时, ...
学习TensorFlow，线性回归模型
学习TensorFlow,在MNIST数据集上建立softmax回归模型并测试一.代码 <span style="font-size:18px;">from tens ...
listview下拉刷新上拉加载扩展（二）-仿美团外卖
经过前几篇的listview下拉刷新上拉加载讲解,相信你对其实现机制有了一个深刻的认识了吧,那么这篇文章我们来实现一个高级的listview下拉刷新上拉加载-仿新版美团外卖的袋鼠动画: 项目结构: 是 ...
mysql5.6升级到5.7后Sequel Pro无法连接解决
因为装ntop,brew自动升级了本地的Mysql,结果升级完成之后,使用Sequel Pro连接总是报错,使用mysql 命令行工具就没有问题. OSX版本 10.11.5 Mysql版本 5.6 ...
为什么不要重载 && 和 || 操作符！！！
理论知识: 1)&&和 || 是C++中非常特殊的操作符 2)&&和 || 内置实现了短路规则简单说明一下短路规则. demo1 #include <iostr ...
12.2、Libgdx的图像之清屏
(官网:www.libgdx.cn) 在Libgdx中的清屏操作不同于普通的OpenGL应用.唯一的不同是访问OpenGL context. 代码如下: @Override public void r ...
开放源码的安卓天气应用-android学习之旅(73)
我在github上面发布了简易的天气应用,能够简单显示全国各个省市县市的天气效果图片如下源代码我放在github上了.我希望大家可以去下载,修改以后在上传维护,我的代码很简单.算是抛砖引玉,希望大 ...
【一天一道LeetCode】#79. Word Search
一天一道LeetCode 本系列文章已全部上传至我的github,地址:ZeeCoder's Github 欢迎大家关注我的新浪微博,我的新浪微博欢迎转载,转载请注明出处 (一)题目 Given a ...
C++对象模型（二）：The Semantics of Copy Constructors(拷贝构造函数之编译背后的行为）
本文是 Inside The C++ Object Model's Chapter 2 的部分读书笔记. 有三种情况,需要拷贝构造函数: 1)object直接为另外一个object的初始值 2)ob ...

使用Puppeteer抓取受限网站

安装Puppteer

选择目标网站

基本思想思路

核心代码

使用Puppeteer抓取受限网站的更多相关文章

随机推荐

热门专题