使用selemium被反爬解决方法

使用selenium进行自动化的时候，如csdn登录时可能会遇到检测反爬，从而需要验证

1. 反爬

　　有时候，我们利用 Selenium 自动化爬取某些网站时，极有可能会遭遇反爬。

　　实际上，我们使用默认的方式初始化 WebDriver 打开一个网站，下面这段 JS 代码永远为 true，而手动打开目标网站的话，则为：undefined。

# 通过这段 JS 脚本区分是爬虫还是人工操作

　　window.navigator.webdriver

稍微有一点反爬经验的工程师利用上面的差别，很容易判断访问对象是否为一个爬虫，然后对其做反爬处理，返回一堆脏数据或各种验证码。

如果要实现后面的自动化操作，首先要解决的就是这个反爬的问题。

　　常见的反反爬方案包含：设置参数?excludeSwitches、mitmproxy 拦截过滤、cdp 命令，下面分别来说说。

2.设置参数 excludeSwitches

　　Chrome79 之前可以通过配置 ChromeOptions 驱动参数，来达到反反爬的目的。

　　只需要将参数打开，设置 excludeSwitches 值为 enable-automation 即可。

   from selenium.webdriver import Chrome

　　from selenium.webdriver import ChromeOptions

　　option = ChromeOptions()

　　# 打开参数

　　option.add_experimental_option('excludeSwitches',?['enable-automation'])

　　driver = Chrome(options=option)

　　driver.implicitly_wait(10)

　　driver.get("http://www.google.com")

这个参数是实验性参数，所以右上角会提示：请停用开发者模式运行的扩展程序，不能点击停用。

　　这样，设置这个参数后：

　　window.navigator.webdriver 的值就变成 undefined 了。

3. mitproxy 拦截

　　众所周知，mitproxy 可以拦截到网络请求，做其他处理，这里只需要进行 JS 代码注入即可。

　# 待执行的 JS 代码,修改 window.navigator.webdriver 的值

　js_exec = 'Object.defineProperties(navigator,{webdriver:{get:() => false}});'

　# 重写 response，截获网络请求，js注入

 def response(slef,flow: mitmproxy.http.HTTPFlow):

　　        if 'google' in flow.request.url:

　　                flow.response.text = js_exec + flow.response.text

　　然后启动 mitmdump：

# 启动mitmproxy

　　mitmdump -p 8888 -s 111.py

　　最后，配置 ChromeOptions 指向 mitmdump代码即可。

　　# 配置ChromeOptions

　　option.add_argument("--proxy-server=http://127.0.0.1:8888")

　　4. cdp 命令(经验证可以)

　　cdp 全称是：Chrome Devtools-Protocol

　　通过 addScriptToEvaluateOnNewDocument()?方法可以在页面还未加载之前，运行一段脚本。

　　如此，我们只需要提前设置：

　　window.navigator.webdriver?的值为 undefined 即可。

   from selenium.webdriver import Chrome

　　from selenium.webdriver import ChromeOptions

　　option = ChromeOptions()

　　# 打开参数

　　# option.add_argument("--proxy-server=http://127.0.0.1:8888")

　　# driver = Chrome(options=option)

　　driver = Chrome()

　　driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {

　　  "source": """

　　    Object.defineProperty(navigator, 'webdriver', {

　　      get: () => undefined

　　    })

　　  """

　　})

　　driver.implicitly_wait(10)

　　driver.get("http://www.google.com")

　　5. 其他

　　通过上面的 3 种方法可以很好的解决 Selenium 自动化被反爬的问题。

不过，一般自动化测试不会遇到反爬问题。

使用selemium被反爬解决方法的更多相关文章

python反爬虫解决方法——模拟浏览器上网
之前第一次练习爬虫的时候看网上的代码有些会设置headers,然后后面的东西我又看不懂,今天终于知道了原来这东西是用来模拟浏览器上网用的,因为有些网站会设置反爬虫机制,所以如果要获取内容的话,需要使用 ...
Python | 常见的反爬及解决方法，值得收藏
我们都知道Python用来爬数据,为了不让自家的数据被别人随意的爬走,你知道怎么反爬吗?今天播妞带着大家一起见识见识常见的反爬技术. 很多人学习python,不知道从何学起.很多人学习python,掌 ...
Python3爬取起猫眼电影实时票房信息，解决文字反爬~~~附源代码
上文解决了起点中文网部分数字反爬的信息,详细链接https://www.cnblogs.com/aby321/p/10214123.html 本文研究另一种文字反爬的机制——猫眼电影实时票房反爬虽然 ...
k 近邻算法解决字体反爬手段｜效果非常好
字体反爬,是一种利用 CSS 特性和浏览器渲染规则实现的反爬虫手段.其高明之处在于,就算借助(Selenium 套件.Puppeteer 和 Splash)等渲染工具也无法拿到真实的文字内容. 这种反 ...
python干货：5种反扒机制的解决方法
前言反爬虫是网站为了维护自己的核心安全而采取的抑制爬虫的手段,反爬虫的手段有很多种,一般情况下除了百度等网站,反扒机制会常常更新以外.为了保持网站运行的高效,网站采取的反扒机制并不是太多,今天分享几 ...
sharepoint2013用场管理员进行文档库的爬网提示"没有权限,拒绝"的解决方法
爬网提示被拒绝,场管理员明明可以打开那个站点的,我初步怀疑是:环回请求(LoopbackRequest)导致的解决方法就是修改环回问题.修改注册表具体操作方法: http://www.c-shar ...
java爬虫爬取的html内容中空格（ ）变为问号“?”的解决方法
用java编写的爬虫,使用xpath爬取内容后,发现网页源码中的全部显示为?(问号),但是使用字符串的replace("?", ""),并不能替换,网上找了一 ...
Python爬虫实战——反爬机制的解决策略【阿里】
这一次呢,让我们来试一下"CSDN热门文章的抓取". 话不多说,让我们直接进入CSND官网. (其实是因为我被阿里的反爬磨到没脾气,不想说话--) 一.URL分析输入" ...
Python3爬取起点中文网阅读量信息，解决文字反爬~~~附源代码
起点中文网,在“数字”上设置了文字反爬,使用了自定义的文字文件ttf通过浏览器的“检查”显示的是“□”,但是可以在网页源代码中找到映射后的数字正则爬的是网页源代码,xpath是默认utf-8解析网页数 ...
Scrapy———反爬蟲的一些基本應對方法
1. IP地址驗證背景:有些網站會使用IP地址驗證進行反爬蟲處理,檢查客戶端的IP地址,若同一個IP地址頻繁訪問,則會判斷該客戶端是爬蟲程序. 解決方案: 1. 讓Scrapy不斷隨機更換代理服務器 ...

随机推荐

C# 使用多线程的几种方式
1.Thread 详细介绍:https://www.cnblogs.com/cheng8/p/16147918.html 使用Thread类通过ThreadStart(无参数)或Parameteriz ...
docker命令自动补全
1.安装bash-completion yum install -y bash-completion 2.重新连接docker 服务器使docker补全命令生效,或者建立新的远程连接docker服务器 ...
Mysql数据库基础第二章：（六）连接查询
Mysql数据库基础系列软件下载地址提取码:7v7u 数据下载地址提取码:e6p9 mysql数据库基础第一章:(一)数据库基本概念 mysql数据库基础第一章:(二)mysql环境搭建 mys ...
利用Canal投递MySQL Binlog到Kafka
https://www.aboutyun.com/thread-27654-1-1.html https://www.cnblogs.com/bigdatalearnshare/p/13832709. ...
如何修改Mac文件默认打开方式？
熟悉Mac电脑的用户都知道,在 OS X 中,Finder 存储的文件总会以指定的某个默认应用程序打开,比如图片类型的文件默认以「预览」打开.但由于经常需要使用图片编辑工具 PS打开图片类型的文件,每 ...
python菜鸟学习： 10. 函数的基本用法
# -*- coding: utf-8 -*-# 回参函数def test01(): return 0# 以元组返回参数def test02(): return 1, [1, 2, 3, 4, 5], ...
CCF 202012-1 期末预测之安全指数
#include <iostream> //#include <bits/stdc++.h> #include <string> using namespace s ...
微信浏览器h5页面开发遇到问题
1.ios不支持window.open(),要创建a链接 let elink = document.createElement('a'); elink.href = baseURL+'/onlineC ...
项目实训 DAY8
功能页面开发完毕,实现了两种工具(d3.js/echarts.js)的可视化效果,并与前端整合完毕. 项目实训步入尾声,最后的几(一)天大概就是完善最后的工作,准备答辩.
linux基础知识面试题
Linux 开机启动过程主机加电自检,加载 BIOS 硬件信息. 读取 MBR 的引导文件(GRUB.LILO). 引导 Linux 内核. 运行第一个进程 init (进程号永远为 1 ). 进入 ...

使用selemium被反爬解决方法

使用selemium被反爬解决方法的更多相关文章

随机推荐

热门专题