使用selenium进行自动化的时候,如csdn登录时可能会遇到检测反爬,从而需要验证

      1. 反爬
  有时候,我们利用 Selenium 自动化爬取某些网站时,极有可能会遭遇反爬。
  实际上,我们使用默认的方式初始化 WebDriver 打开一个网站,下面这段 JS 代码永远为 true,而手动打开目标网站的话,则为:undefined。
      # 通过这段 JS 脚本区分是爬虫还是人工操作
  window.navigator.webdriver
     

稍微有一点反爬经验的工程师利用上面的差别,很容易判断访问对象是否为一个爬虫,然后对其做反爬处理,返回一堆脏数据或各种验证码。

       如果要实现后面的自动化操作,首先要解决的就是这个反爬的问题。
  常见的反反爬方案包含:设置参数?excludeSwitches、mitmproxy 拦截过滤、cdp 命令,下面分别来说说。
  
      2.设置参数 excludeSwitches
  Chrome79 之前可以通过配置 ChromeOptions 驱动参数,来达到反反爬的目的。
  只需要将参数打开,设置 excludeSwitches 值为 enable-automation 即可。

   from selenium.webdriver import Chrome
  from selenium.webdriver import ChromeOptions
  option = ChromeOptions()
  # 打开参数
  option.add_experimental_option('excludeSwitches',?['enable-automation'])
  driver = Chrome(options=option)
  driver.implicitly_wait(10)
  driver.get("http://www.google.com")
       这个参数是实验性参数,所以右上角会提示:请停用开发者模式运行的扩展程序,不能点击停用。
  这样,设置这个参数后:
  window.navigator.webdriver 的值就变成 undefined 了。
  
      3. mitproxy 拦截
  众所周知,mitproxy 可以拦截到网络请求,做其他处理,这里只需要进行 JS 代码注入即可。
 # 待执行的 JS 代码,修改 window.navigator.webdriver 的值
 js_exec = 'Object.defineProperties(navigator,{webdriver:{get:() => false}});'
 # 重写 response,截获网络请求,js注入
def response(slef,flow: mitmproxy.http.HTTPFlow):
   if 'google' in flow.request.url:
   flow.response.text = js_exec + flow.response.text
  然后启动 mitmdump:
# 启动mitmproxy
  mitmdump -p 8888 -s 111.py
  最后,配置 ChromeOptions 指向 mitmdump代码即可。
  # 配置ChromeOptions
  option.add_argument("--proxy-server=http://127.0.0.1:8888")
  4. cdp 命令(经验证可以)
  cdp 全称是:Chrome Devtools-Protocol
  通过 addScriptToEvaluateOnNewDocument()?方法可以在页面还未加载之前,运行一段脚本。
  如此,我们只需要提前设置:
  window.navigator.webdriver?的值为 undefined 即可。
  

   from selenium.webdriver import Chrome
  from selenium.webdriver import ChromeOptions
  option = ChromeOptions()
  # 打开参数
  # option.add_argument("--proxy-server=http://127.0.0.1:8888")
  # driver = Chrome(options=option)
  driver = Chrome()
  driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
   "source": """
   Object.defineProperty(navigator, 'webdriver', {
   get: () => undefined
   })
   """
  })
  driver.implicitly_wait(10)
  driver.get("http://www.google.com")
  5. 其他
  通过上面的 3 种方法可以很好的解决 Selenium 自动化被反爬的问题。
      不过,一般自动化测试不会遇到反爬问题。

使用selemium被反爬解决方法的更多相关文章

  1. python反爬虫解决方法——模拟浏览器上网

    之前第一次练习爬虫的时候看网上的代码有些会设置headers,然后后面的东西我又看不懂,今天终于知道了原来这东西是用来模拟浏览器上网用的,因为有些网站会设置反爬虫机制,所以如果要获取内容的话,需要使用 ...

  2. Python | 常见的反爬及解决方法,值得收藏

    我们都知道Python用来爬数据,为了不让自家的数据被别人随意的爬走,你知道怎么反爬吗?今天播妞带着大家一起见识见识常见的反爬技术. 很多人学习python,不知道从何学起.很多人学习python,掌 ...

  3. Python3爬取起猫眼电影实时票房信息,解决文字反爬~~~附源代码

    上文解决了起点中文网部分数字反爬的信息,详细链接https://www.cnblogs.com/aby321/p/10214123.html 本文研究另一种文字反爬的机制——猫眼电影实时票房反爬 虽然 ...

  4. k 近邻算法解决字体反爬手段|效果非常好

    字体反爬,是一种利用 CSS 特性和浏览器渲染规则实现的反爬虫手段.其高明之处在于,就算借助(Selenium 套件.Puppeteer 和 Splash)等渲染工具也无法拿到真实的文字内容. 这种反 ...

  5. python干货:5种反扒机制的解决方法

    前言 反爬虫是网站为了维护自己的核心安全而采取的抑制爬虫的手段,反爬虫的手段有很多种,一般情况下除了百度等网站,反扒机制会常常更新以外.为了保持网站运行的高效,网站采取的反扒机制并不是太多,今天分享几 ...

  6. sharepoint2013用场管理员进行文档库的爬网提示"没有权限,拒绝"的解决方法

    爬网提示被拒绝,场管理员明明可以打开那个站点的,我初步怀疑是:环回请求(LoopbackRequest)导致的 解决方法就是修改环回问题.修改注册表 具体操作方法: http://www.c-shar ...

  7. java爬虫爬取的html内容中空格( )变为问号“?”的解决方法

    用java编写的爬虫,使用xpath爬取内容后,发现网页源码中的 全部显示为?(问号),但是使用字符串的replace("?", ""),并不能替换,网上找了一 ...

  8. Python爬虫实战——反爬机制的解决策略【阿里】

    这一次呢,让我们来试一下"CSDN热门文章的抓取". 话不多说,让我们直接进入CSND官网. (其实是因为我被阿里的反爬磨到没脾气,不想说话--) 一.URL分析 输入" ...

  9. Python3爬取起点中文网阅读量信息,解决文字反爬~~~附源代码

    起点中文网,在“数字”上设置了文字反爬,使用了自定义的文字文件ttf通过浏览器的“检查”显示的是“□”,但是可以在网页源代码中找到映射后的数字正则爬的是网页源代码,xpath是默认utf-8解析网页数 ...

  10. Scrapy———反爬蟲的一些基本應對方法

    1. IP地址驗證 背景:有些網站會使用IP地址驗證進行反爬蟲處理,檢查客戶端的IP地址,若同一個IP地址頻繁訪問,則會判斷該客戶端是爬蟲程序. 解決方案: 1. 讓Scrapy不斷隨機更換代理服務器 ...

随机推荐

  1. 时间处理及interval函数运用

    MySql时间操作1.interval的说明1.1.当函数使用时,即interval(),为比较函数,如:interval(10,1,3,5,7); 结果4:原理:10为被比较数,后面1,3,5,7为 ...

  2. PI ID关联IR配置问题

    例如问题:无数据 1.软件组织生成的id与ID配置id不一致(由于删除软件组织重新创建) 1.1找到需要修改位置 1.2 IR查询id 1.3 替换指定需要插入'-'

  3. dvwa sql盲注教程

    原文地址:https://www.jianshu.com/p/757626cec742 一.DVWA-SQL Injection(Blind)测试分析 SQL盲注 VS 普通SQL注入: 普通SQL注 ...

  4. .net基础—委托和事件

    委托 委托是一种引用类型,表示对具有特定参数列表和返回类型的方法的引用. 在实例化委托时,可以将其实例与任何具有兼容签名和返回类型的方法相关联. 可以通过委托实例调用方法.可以将任何可访问类或结构中与 ...

  5. JS学习-异步JS

    异步JS setTimeout() 我们希望传递给setTimeout()中运行的函数的任何参数,都必须作为列表末尾的附加参数传递给它. function sayHi(who) { alert('He ...

  6. iOS开发 网络学习(4)HTTPS

    一.HTTPS简介 HTTPS : Hyper Text Transfer Protocol over Secure Socket Layer,是以安全为目标的HTTP通道,简单讲是HTTP的安全版. ...

  7. ES6 新特性 ES6使用 超实用

    ECMAScript 学习 ES5-数组的新方法 forEach forEach方法对数组的每个元素执行一次提供的函数.功能等同于for循环. 应用场景:为一些相同的元素,绑定事件处理器! var a ...

  8. 学习汇报7 hdfs集群角色属性

    主从角色 namenode : 核心,架构中的主角色 管理和维护文件系统的元数据,包括目录树结构.文件和块的位置信息.访问权限等信息 namenode是访问hdfs的唯一入口 仅存储元数据 知道hdf ...

  9. js已知多边形坐标点,求多边形的中心点坐标

    你需要传入的数据类型如下: // 取面对象 中心点 var calculateCenter = function (lnglatarr) { var total = lnglatarr.length; ...

  10. Jmeter 5.0 遇见connection reset问题

    问题:大并发时遇见java.net.SocketException: Connection reset 测试过程中经常遇见connection reset ,原因是大数据量发送时,服务器不能接纳那么多 ...