【WEB UI自动化】Selenium爬取用户的知乎回答时遇到10002:请求参数异常，请升级客户端后重试

这里分享一个低配版知乎爬虫,利用了Selenium模块

爬取的过程中遇到了10002:请求参数异常，请升级客户端后重试,调用知乎某用户的回答API返回的HTTP状态码是403 Forbidden

之后找了一篇博客，里面给出的解决方案是：使用自己打开的一个浏览器，再用selenium接管这个浏览器这样就可以完成反爬的处理。

步骤

1

cmd切换到chrome.exe所在的目录下，

(文件资源管理器内，到指定目录下，在地址栏输入cmd回车也行)

执行命令chrome.exe --remote-debugging-port=9222 --user-data-dir="E:\selenium_data"

其中--remote-debugging-port是建立新的移植位置，其中端口后面会使用(自定义)， --user-data-dir是数据存储的目录(自定义)

2

运行py代码爬取某用户的回答

from selenium import webdriver

from selenium.webdriver.common.action_chains import ActionChains

import time

import requests

from selenium.webdriver.common.keys import Keys

from selenium import webdriver

from selenium.webdriver.chrome.options import Options

from selenium.webdriver.support.ui import WebDriverWait

def load_photo(url, name):

    '''给定图片链接，将图片以某个名称下载到本地'''

    # url = 'http://img14.360buyimg.com/n1/s450x450_jfs/t1/148801/37/12770/118749/5f9d71e4E39f1e893/533675187c108953.jpg'

    reponse = requests.get(url)

    # name = 'd:/photo.jpg'

    with open(name, 'wb') as ft:

        ft.write(reponse.content)

def drop_scroll(browser):

    '''将滑条从头滚动到底,以便让浏览器充分加载'''

    for x in range(1, 11, 2):

        # time.sleep(0.5)

        j = x/10

        js = 'document.documentElement.scrollTop = document.documentElement.scrollHeight * %f' % j

        browser.execute_script(js)

def switch_window(browser):

    '''将browser的指令移到新打开的小窗口处'''

    # time.sleep(0.5) # 如果移转失败，请增大这个时间

    windows = browser.window_handles

    browser.switch_to.window(windows[-1])

def switch_window_back(browser):

    '''将browser的指令移回旧的小窗口'''

    windows = browser.window_handles

    browser.switch_to.window(windows[0])

# 构造网址

u_id= input('请输入https://www.zhihu.com/people/{u_id}中的u_id')

url = f'https://www.zhihu.com/people/{u_id}'

page = int(input("要遍历的页数(从第一页开始)"))

# 打开知乎

chrome_options = Options()

chrome_options.add_experimental_option("debuggerAddress", "127.0.0.1:9222")  #  前面设置的端口号

browser = webdriver.Chrome(options=chrome_options)

# browser.set_window_size(900, 500) # 设置窗口大小

# browser.set_window_position(300, 200) # 设置浏览器的位置

browser.get(url)

btn=browser.find_element_by_xpath("//button[@aria-label='关闭']")

browser.execute_script("arguments[0].click();", btn)

time.sleep(2)

# 遍历页面中每篇回答

count = 1 # 回答的编号

for page_id in range(1,page+1):

    # 翻页

    print("Page:%d" %page_id)

    url = f'https://www.zhihu.com/people/{u_id}/answers/by_votes/?page={page_id}'

    browser.get(url)

    time.sleep(2)

    btn = browser.find_element_by_xpath("//button[@aria-label='关闭']")

    browser.execute_script("arguments[0].click();", btn)

    time.sleep(2)

    switch_window_back(browser)  # 将browser的指令移回到新标签页

    drop_scroll(browser)     #滑条拖到底，让加载完全

    answers = browser.find_elements_by_xpath("//div[@class='ContentItem AnswerItem']")  # 获取所有回答

    for answer in answers:

        print(answer.find_element_by_xpath(".//a[@data-za-detail-view-element_name='Title']").get_attribute('href')\

              , answer.find_element_by_xpath(".//a[@data-za-detail-view-element_name='Title']").text\

              , answer.find_element_by_xpath(".//button[@class='Button VoteButton VoteButton--up']").text

              , sep=' , ')

        print(count)

        count=count+1

一个注意的点是webdriver.Chrome()是可以传入参数的，

executable_path传入的值得当的话不必把chromedriver.exe设在$PATH里

//以上图片来自这个网站

像极了一名爬虫新手的课程作业。。。

爬取了85页之后被知乎检测到了。。。

【WEB UI自动化】Selenium爬取用户的知乎回答时遇到10002:请求参数异常，请升级客户端后重试的更多相关文章

selenium登录爬取知乎出现：请求异常请升级客户端后重试的问题(用Python中的selenium接管chrome)
一.问题使用selenium自动化测试爬取知乎的时候出现了:错误代码10001:请求异常请升级客户端后重新尝试,这个错误的产生是由于知乎可以检测selenium自动化测试的脚本,因此可以阻止selen ...
selenium（12）-web UI自动化项目实战（PO模式，代码封装）
web UI自动化项目实战-项目项目使用禅道,所以你需要搭建1个禅道,搭建禅道的方法和步骤见 https://www.cnblogs.com/xinhua19/p/13151296.html 搭建U ...
Python Selenium 搭建Web UI自动化
Python搭建UI自动化环境下载Python3 Python官网 PyCharm 环境配置安装Python 勾选Add Python to PATH,一直下一步. 验证:CMD输入Python ...
UI自动化selenium
1.什么是UI自动化?模拟人用代码的方式去操作页面2.为什么要做UI自动化?后期迭代的时候,老功能比较多,人工维护成本较大,重复性工作较多,这个时候就考虑因为UI自动化3.什么时候做UI自动化?项目稳 ...
【Robot Framework 项目实战 02】SeleniumLibrary Web UI 自动化
前言 SeleniumLibrary 是针对 Robot Framework 开发的 Selenium 库.它也 Robot Framework 下面最流程的库之一.主要用于编写 Web UI 自动化 ...
UI自动化(selenium+python)之元素定位的三种等待方式
前言在UI自动化过程中,常遇到元素未找到,代码报错的情况.这种情况下,需要用等待wait. 在selenium中可以用到三种等待方式即sleep,implicitly_wait,WebDriverW ...
web端自动化——Selenium Grid原理
利用Selenium Grid可以在不同的主机上建立主节点(hub)和分支节点(node),可以使主节点上的测试用例在不同的分支节点上运行. 对不同的节点来说,可以搭建不同的测试环境(操作系统.浏 ...
Selenium系列（十四） - Web UI 自动化基础实战（1）
如果你还想从头学起Selenium,可以看看这个系列的文章哦! https://www.cnblogs.com/poloyy/category/1680176.html 其次,如果你不懂前端基础知识, ...
Selenium系列（十五） - Web UI 自动化基础实战（2）
如果你还想从头学起Selenium,可以看看这个系列的文章哦! https://www.cnblogs.com/poloyy/category/1680176.html 其次,如果你不懂前端基础知识, ...
Selenium系列（十六） - Web UI 自动化基础实战（3）
如果你还想从头学起Selenium,可以看看这个系列的文章哦! https://www.cnblogs.com/poloyy/category/1680176.html 其次,如果你不懂前端基础知识, ...

随机推荐

Kubernetes--管理Pod对象的容器(2)
自定义运行的容器化应用由Docker镜像启动容器时运行的应用程序在相应的Dockerfile中由ENTRYPOINT指令进行定义,传递给程序的参数则通过CMD指令指定,ENTRYPOINT指令不存在 ...
Count Triplets That Can Form Two Arrays of Equal XOR
Count Triplets That Can Form Two Arrays of Equal XOR 题意给定一个数组,求多少个三元对$(i,j,k)$满足\(S(i,j-1)=S(j,k) ...
<鸳鸯刀>&<白马啸西风>随笔
这两部作品比较小众,也不如之前的作品优秀,因此简单写一下好了. <鸳鸯刀> 陕西西安府威信镖局的总镖头."铁鞭镇八方"周威信,带领一支七十多人的镖队正前往京城.路途之上 ...
python机器学习——逻辑回归方法
背景与原理: 线性回归可以实现对连续结果的预测,但是现实生活中我们常见的另一种问题是分类问题,尤其是二分类问题,在这种情况下使用线性回归就不太合适了,我们实际上需要计算出的是一个在$[0,1]$之间的 ...
std::unique_ptr release的使用
在c++中,动态内存管理是通过new/delete 运算符来进行的.由于确保在正确的时间释放内存是很困难的,为了避免内存泄漏,更加容易,安全地使用动态内存,C++11标准库提供了两种智能指针类型来管理 ...
【PyQt6】Python使用QtCharts画图修改背景色的问题
问题想在软件界面用PyQt6的QtChart新画一张饼图,自定义一个饼图类继承QChartView: class PyPieChart(QChartView): def __init__( self ...
视觉里程计--视觉slam7.1/相机运动估计视觉算法
视觉里程计本篇文章记录了少许阅读<视觉slam14讲>的阅读整理,不是特别全面,只是为了本次项目中特定任务搜查资料,时间比较紧,文章并没有全面涵盖所有知识点.日后若时间有空闲,将回来补充 ...
Spring面试题大汇总
1.Spring的IOC和AOP机制? 我们在使用spring框架其实就是为了实现IOC,依赖注入,和AOP,面向切面编程,主要有两种设计模式工厂模式和代理模式,IOC就是典型的工厂模式,通过sess ...
Software Engineering homework 3
博客信息沈阳航空航天大学计算机学院2020软件工程作业作业要求 https://edu.cnblogs.com/campus/sau/Computer1701-1705/homework/1061 ...
PLC入门笔记11
1.开关? 输入拨杆开关.点动开关.常开.常闭开关霍尔接近开关(磁场 N极导通 3线+-DC24V ).电容接近开关(非金属).电感接近开关(金属) 2.输入接线? NPN型,不需要外接电源,直接 ...

【WEB UI自动化】Selenium爬取用户的知乎回答时遇到10002:请求参数异常，请升级客户端后重试

步骤

1

2

【WEB UI自动化】Selenium爬取用户的知乎回答时遇到10002:请求参数异常，请升级客户端后重试的更多相关文章

随机推荐

热门专题