selenium登录爬取知乎出现：请求异常请升级客户端后重试的问题(用Python中的selenium接管chrome)

一、问题
使用selenium自动化测试爬取知乎的时候出现了：错误代码10001：请求异常请升级客户端后重新尝试，这个错误的产生是由于知乎可以检测selenium自动化测试的脚本，因此可以阻止selenium的继续访问。这也算是比较高级的反爬取措施。

二、解决
解决方法，使用自己打开的一个浏览器，再用selenium接管这个浏览器这样就可以完成反爬的处理。
1.建议一个新的映射，以保存原来的chrome不被污染
1)添加环境变量
将chrome.exe放入系统环境变量中，找到驱动位置添加变量，如果没找到，最快的方法就是点击图标右键，点击访问文件地址
chrome.exe位置

快捷访问方式，在菜单栏同样可以

2)新建一个存放新环境的文件夹并映射
使用指令【chrome.exe --remote-debugging-port=9222 --user-data-dir="E:\data_info\selenium_data"】
其中--remote-debugging-port是建立新的移植位置，其中端口后面会使用(自定义)， --user-data-dir是数据存储的目录(自定义)

此时会打开一个网页放着就行

2.selenium代码接管
通过下面的代码就可以登录知乎

import time

import json

from selenium import webdriver

from selenium.webdriver.chrome.options import Options

from selenium.webdriver.support.ui import WebDriverWait

class ZhiHu:

    def __init__(self):

        self.url = 'https://www.zhihu.com/'

        self.chrome_options = Options()

        self.chrome_options.add_experimental_option("debuggerAddress", "127.0.0.1:9222")  #  前面设置的端口号

        self.browser = webdriver.Chrome(executable_path=r'E:\Environment\python_global\Scripts\chromedriver.exe', options=self.chrome_options)  # executable执行webdriver驱动的文件

    def get_start(self):

        self.browser.get(self.url)

        # time.sleep(20)  # 可以选择手动登录或者是自动化，我这里登录过就直接登陆了

        info = self.browser.get_cookies()  # 获取cookies

        print(info)

        with open(r"..\download_txt\info.json", 'w', encoding='utf-8') as f:

            f.write(json.dumps(info))

if __name__ == '__main__':

    zhihu = ZhiHu()

    zhihu.get_start()

三、结果展示

四、总结
利用这个selenium接管正在使用的浏览器就可以绕过知乎的反爬，当然也可以做更多的爬虫，selenium在爬虫的使用中还是有重要的地位，偷懒一点就可以使用这个。这种方法可以获取cookies这样在使用其他的爬虫，就可以使用这个cookies会加快爬取的效率，以及突破不适用浏览器的反爬措施。这引起我们另一个思考，我们直接接管我们正常的chrome好像更加的高效，这个可以以后的学习中尝试一下。

五、参考
附一些参考，方便自己学习，毕竟每次百度起来都很麻烦
https://www.cnblogs.com/HJkoma/p/9936434.html https://blog.csdn.net/qq_42206477/article/details/86477446

selenium登录爬取知乎出现：请求异常请升级客户端后重试的问题(用Python中的selenium接管chrome)的更多相关文章

第二个爬虫之爬取知乎用户回答和文章并将所有内容保存到txt文件中
自从这两天开始学爬虫,就一直想做个爬虫爬知乎.于是就开始动手了. 知乎用户动态采取的是动态加载的方式,也就是先加载一部分的动态,要一直滑道底才会加载另一部分的动态.要爬取全部的动态,就得先获取全部的u ...
通过scrapy，从模拟登录开始爬取知乎的问答数据
这篇文章将讲解如何爬取知乎上面的问答数据. 首先,我们需要知道,想要爬取知乎上面的数据,第一步肯定是登录,所以我们先介绍一下模拟登录: 先说一下我的思路: 1.首先我们需要控制登录的入口,重写star ...
使用python scrapy爬取知乎提问信息
前文介绍了python的scrapy爬虫框架和登录知乎的方法. 这里介绍如何爬取知乎的问题信息,并保存到mysql数据库中. 首先,看一下我要爬取哪些内容: 如下图所示,我要爬取一个问题的6个信息: ...
scrapy 爬取知乎问题、答案，并异步写入数据库（mysql）
python版本 python2.7 爬取知乎流程: 一 .分析在访问知乎首页的时候(https://www.zhihu.com),在没有登录的情况下,会进行重定向到(https://www. ...
Python3.x：Selenium+PhantomJS爬取带Ajax、Js的网页
Python3.x:Selenium+PhantomJS爬取带Ajax.Js的网页前言现在很多网站的都大量使用JavaScript,或者使用了Ajax技术.这样在网页加载完成后,url虽然不改变但 ...
scrapy爬取知乎某个问题下的所有图片
前言: 1.仅仅是想下载图片,别人上传的图片也是没有版权的,下载来可以自己欣赏做手机背景但不商用 2.由于爬虫周期的问题,这个代码写于2019.02.13 1.关于知乎爬虫网上能访问到的理论上都能爬 ...
利用 Scrapy 爬取知乎用户信息
思路:通过获取知乎某个大V的关注列表和被关注列表,查看该大V和其关注用户和被关注用户的详细信息,然后通过层层递归调用,实现获取关注用户和被关注用户的关注列表和被关注列表,最终实现获取大量用户信息. 一 ...
教程+资源,python scrapy实战爬取知乎最性感妹子的爆照合集(12G)!
一.出发点: 之前在知乎看到一位大牛(二胖)写的一篇文章:python爬取知乎最受欢迎的妹子(大概题目是这个,具体记不清了),但是这位二胖哥没有给出源码,而我也没用过python,正好顺便学一学,所以 ...
python scrapy爬取知乎问题和收藏夹下所有答案的内容和图片
上文介绍了爬取知乎问题信息的整个过程,这里介绍下爬取问题下所有答案的内容和图片,大致过程相同,部分核心代码不同. 爬取一个问题的所有内容流程大致如下: 一个问题url 请求url,获取问题下的答案个数 ...

随机推荐

php字符串查找函数 php查找字符串中出现的次数函数substr_count，判断字符串中是否包含另一个字符串函数strpos
php字符串查找函数 php查找字符串中出现的次数函数substr_count,判断字符串中是否包含另一个字符串函数strpossubstr_count($haystack, $needle [,$o ...
Jmeter-While控制器
Jmeter-While控制器背景: 用作循环的控制器里, 最常用的就’循环控制器’和’While控制器’. 循环控制器仅能定义循环次数(永远和自定义次数). 缺乏判断能力.While控制器正好弥补 ...
Nginx 初步认识
序言 Nginx是lgor Sysoev为俄罗斯访问量第二的rambler.ru站点设计开发的.从2004年发布至今,凭借开源的力量,已经接近成熟与完善. Nginx功能丰富,可作为HTTP服务器,也 ...
P4677 山区建小学|区间dp
P4677 山区建小学题目描述政府在某山区修建了一条道路,恰好穿越总共nn个村庄的每个村庄一次,没有回路或交叉,任意两个村庄只能通过这条路来往.已知任意两个相邻的村庄之间的距离为di 为了提高山区 ...
angular 学习记录
3章3小结路由传参的3种方式和路由快照,订阅, @相同路由的跳转(只是参数不同),并不会触发Oninit ,因为没有重新创建component @子路由 //此种情况是当我路由地址是 ../Hom ...
Jmeter接口测试，怎么在下一个接口调用上一个接口的数据
常用的两种方式,第二种容易上手1.使用正则提取器 jmeter 如何将上一个请求的结果作为下一个请求的参数——使用正则提取器(http://www.cnblogs.com/0201zcr/p/5089 ...
使用node.js的http-server开启一个本地服务器
用html写了一个网页,想要在手机上查看适配效果,但是苦于手机上没有直接查看HTML的.想到手机和电脑都在一个局域网内,能不能搭建一个局域网内的网页服务器呢? 1.下载 http-server 显然, ...
一些开源cdc框架以及工具
以下是一些cdc工具,没有包含商业软件的 zendesk maxwell 参考地址 https://github.com/zendesk/maxwell 功能 mysql 2 json 的kafaa ...
Burst Balloons（leetcode戳气球，困难）从指数级时间复杂度到多项式级时间复杂度的超详细优化思路（回溯到分治到动态规划）
这道题目做了两个晚上,发现解题思路的优化过程非常有代表性.文章详细说明了如何从回溯解法改造为分治解法,以及如何由分治解法过渡到动态规划解法.解法的用时从超时到超过 95.6% 提交者,到超过 9 ...
Codeforces Round #530 (Div. 2) F 线段树 + 树形dp(自下往上)
https://codeforces.com/contest/1099/problem/F 题意一颗n个节点的树上,每个点都有$x[i]$个饼干,然后在i节点上吃一个饼干的时间是$t[i]$ ...

selenium登录爬取知乎出现：请求异常请升级客户端后重试的问题(用Python中的selenium接管chrome)

selenium登录爬取知乎出现：请求异常请升级客户端后重试的问题(用Python中的selenium接管chrome)的更多相关文章

随机推荐

热门专题