puppeteer 的PDD反爬经历

使用puppeteer 爬取PDD数据时出现要求登录，以前是没有这问题的。

尝试多种方式如果：

变更UA
变更代理IP
变更Chromium版本（当然最终就是该问题的原因，但是因为版本跨度太大没有测试出来）

最后查找浏览器判断是否在自动化工具控制下的方法，结果查询到文章，得知了新版Chrome有navigator.webdriver属性。

如果是在自动化工具控制下，在控制台中输出navigator.webdriver，可以看到true。

如果直接打开浏览器，在控制台出现的则是undefined，注意这里不是navigator.webdriver值为undefined，而是navigator没有webdriver属性。

该属性值不能通过赋值进行覆盖，但我们可以通过Object.defineProperty来覆盖：

Object.defineProperty(navigator,'webdriver',{

    get: ()=>false

})

但是如果是通过in或者hasOwnProperty来判断，

'webdriver' in navigator

//or

navigator.hasOwnProperty('webdriver')

覆盖webdriver为false就没用了。暂时不知道如何处理这种情况，还没看到deleteProperty这样的方法,当然delete也是没有用的。

翻看PDD前端源码发现还对phantomjs等进行了检测。

有兴趣的可以看看Chrome添加该属性的缘由：https://groups.google.com/a/chromium.org/forum/#!msg/blink-dev/6GysDZCWwB8/rXbGoRohBgAJ

可以根据ChromeStatus得知该属性添加的版本为63，但这属性需要到在puppeteer v0.12.0（对应chromium版本为64.0.3240.0 (r508693)）中才开始有效，在v0.11.0(63.0.3205.0 (r499413))中还未生效。

puppeteer 的PDD反爬经历的更多相关文章

python高级—— 从趟过的坑中聊聊爬虫、反爬以及、反反爬，附送一套高级爬虫试题
前言: 时隔数月,我终于又更新博客了,然而,在这期间的粉丝数也就跟着我停更博客而涨停了,唉是的,我改了博客名,不知道为什么要改,就感觉现在这个名字看起来要洋气一点. 那么最近到底咋不更新博客了呢?说 ...
k 近邻算法解决字体反爬手段｜效果非常好
字体反爬,是一种利用 CSS 特性和浏览器渲染规则实现的反爬虫手段.其高明之处在于,就算借助(Selenium 套件.Puppeteer 和 Splash)等渲染工具也无法拿到真实的文字内容. 这种反 ...
抖音爬虫教程，python爬虫采集反爬策略
一.爬虫与反爬简介爬虫就是我们利用某种程序代替人工批量读取.获取网站上的资料信息.而反爬则是跟爬虫的对立面,是竭尽全力阻止非人为的采集网站信息,二者相生相克,水火不容,到目前为止大部分的网站都还是可 ...
关于使用scrapy框架编写爬虫以及Ajax动态加载问题、反爬问题解决方案
Python爬虫总结总的来说,Python爬虫所做的事情分为两个部分,1:将网页的内容全部抓取下来,2:对抓取到的内容和进行解析,得到我们需要的信息. 目前公认比较好用的爬虫框架为Scrapy,而且 ...
Python爬虫入门教程 64-100 反爬教科书级别的网站-汽车之家，字体反爬之二
说说这个网站汽车之家,反爬神一般的存在,字体反爬的鼻祖网站,这个网站的开发团队,一定擅长前端吧,2019年4月19日开始写这篇博客,不保证这个代码可以存活到月底,希望后来爬虫coder,继续和汽车之 ...
Python爬虫入门教程 63-100 Python字体反爬之一，没办法，这个必须写，反爬第3篇
背景交代在反爬圈子的一个大类,涉及的网站其实蛮多的,目前比较常被爬虫coder欺负的网站,猫眼影视,汽车之家,大众点评,58同城,天眼查......还是蛮多的,技术高手千千万,总有五花八门的反爬技术 ...
Python爬虫入门教程 61-100 写个爬虫碰到反爬了，动手破坏它！
python3爬虫遇到了反爬当你兴冲冲的打开一个网页,发现里面的资源好棒,能批量下载就好了,然后感谢写个爬虫down一下,结果,一顿操作之后,发现网站竟然有反爬措施,尴尬了. 接下来的几篇文章,我们 ...
【Python3爬虫】大众点评爬虫（破解CSS反爬）
本次爬虫的爬取目标是大众点评上的一些店铺的店铺名称.推荐菜和评分信息. 一.页面分析进入大众点评,然后选择美食(http://www.dianping.com/wuhan/ch10),可以看到一页有 ...
Python爬虫实例：爬取猫眼电影——破解字体反爬
字体反爬字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...

随机推荐

Logstash的grok以及Ruby
logstash的grok插件的用途是提取字段,将非格式的内容进行格式化, input { file { path => "/var/log/http.log" } } fi ...
[转]Ubuntu python-config
转自:http://manpages.ubuntu.com/manpages/precise/man1/python-config.1.html recise (1) python-config.1. ...
RedHat6.5如何被windows系统远程桌面连接
一.redhat 6.5远程桌面配置服务器端: 1.设置允许其它人查看您的远程桌面在“系统”-“首选项”-“远程桌面”-在“允许其它人查看您的远程桌面”前打勾:在“允许其它用户控制您的桌面”打勾 ...
ES中文分词器之精确短语匹配（解决了match_phrase匹配不全的问题）
分词器选择调研了几种分词器,例如IK分词器,ansj分词器,mmseg分词器,发现IK的分词效果最好.举个例子: 词:<<是的>><span>哈<\span ...
phpmailer使用qq邮箱、163邮箱成功发送邮件实例代码
以前使用qq邮箱.163服务器发送邮件,帐号直接使用密码,现在不行了,得使用授权码,简单记录下 1.首先开通POP3/SMTP服务,qq邮箱——帐号——设置,找到POP3/SMTP点开启,输入短信会有 ...
RichEdit文字背景色的处理
uses RichEdit; procedure RichEditSetBackColor( // 设置RichEdit文字背景色 mRichEdit: TRichEdit; // Rich编辑框 m ...
WPF Demo19 命令、UC
命令系统的基本元素和关系WPF命令系统的组成要素:A.命令(command):WPF命令实际上就是实习了ICommand接口的类.平时使用最多的就是RoutedCommand类.B.命令源(comma ...
Python入门 [输出,注释,列表,元祖,集合,字典,if,while,for]
print("Hello Python") #输出 ''' 多行注释用三个引号 ''' a=1 #赋值变量首字母只能书字母下划线第二个字符数字,字母,下划线声明一个列表 ...
mongoVUE的增删改查操作使用说明(转)
mongoVUE连接数据库 http://jingyan.baidu.com/album/9989c7460fd171f648ecfe06.html?picindex=1 mongoVUE操作数据库 ...
Base64 转图片
static void Main(string[] args) { string s = "iVBORw0KGgoAAAANSUhEUgAAAFAAAABQCAIAAAABc2X6AAAAC ...

puppeteer 的PDD反爬经历

puppeteer 的PDD反爬经历的更多相关文章

随机推荐

热门专题