Python爬虫之反爬虫---使用随机User-Agent

在编写爬虫时，大多数情况下，需要设置请求头。而在请求头中，随机更换User-Agent可以避免触发相应的反爬机制。

使用第三方库fake-useragent便可轻松生成随机User-Agent。

使用

当我们需要使用随机User-Agent时，只需通过ua.random即可获取。代码如下：

from fake_useragent import UserAgent

ua = UserAgent()

# ......

request.add_header("User-Agent",ua.random)

# ......

可能出现的问题和解决方法

在使用fake-useragent的过程中可能出现FakeUserAgentError('Maximum amount of retries reached')错误，超时错误。在搜索到的很多解决方法都无效，包括：

禁用服务器缓存：ua = UserAgent(use_cache_server=False)
不缓存数据：ua = UserAgent(cache=False)
忽略 SSL 验证：ua = UserAgent(verify_ssl=False)
更新fake-useragent：pip install -U fake-useragent

解决方法

下载： https://fake-useragent.herokuapp.com/browsers/0.1.11 并另存为：fake_useragent.json

def get_header():

    location = os.getcwd() + '/fake_useragent.json'

    ua = fake_useragent.UserAgent(path=location)

    return ua.random

原因

使用UserAgent时访问了一个url，由于网络超时，造成错误。

现在明白了吗？这里免费送大家一套2020最新python入门到高级项目实战视频教程，可以去小编的Python交流.扣扣.裙：巴衣久二五寺久寺二（数字的谐音）转换下可以找到了，还可以跟行业大牛交流讨教！

本文的文字及图片来源于网络加上自己的想法,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

Python爬虫之反爬虫---使用随机User-Agent的更多相关文章

python爬虫之反爬虫（随机user-agent，获取代理ip，检测代理ip可用性）
python爬虫之反爬虫(随机user-agent,获取代理ip,检测代理ip可用性) 目录随机User-Agent 获取代理ip 检测代理ip可用性随机User-Agent fake_usera ...
Python爬虫与反爬虫（7）
[Python基础知识]Python爬虫与反爬虫(7) 很久没有补爬虫了,相信在白蚁二周年庆的活动大厅比赛中遇到了关于反爬虫的问题吧这节我会做个基本分享. 从功能上来讲,爬虫一般分为数据采集,处理, ...
Python爬虫从入门到放弃（二十二）之爬虫与反爬虫大战
爬虫与发爬虫的厮杀,一方为了拿到数据,一方为了防止爬虫拿到数据,谁是最后的赢家? 重新理解爬虫中的一些概念爬虫:自动获取网站数据的程序反爬虫:使用技术手段防止爬虫程序爬取数据误伤:反爬虫技术将普通用 ...
Python爬虫入门教程 65-100 爬虫与反爬虫的修罗场，点评网站，字体反爬之三
爬虫与反爬虫的修罗场哪种平台最吸引爬虫爱好者,当然是社区类的,那里容易产生原生态,高质量的数据啊, 你看微博,知乎,豆瓣爬的不亦乐乎. 评论也是产生内容的好地方生活类点评网站旅游类点评网站音乐 ...
【Python】爬虫与反爬虫大战
爬虫与发爬虫的厮杀,一方为了拿到数据,一方为了防止爬虫拿到数据,谁是最后的赢家? 重新理解爬虫中的一些概念爬虫:自动获取网站数据的程序反爬虫:使用技术手段防止爬虫程序爬取数据误伤:反爬虫技术将普通用 ...
Python之爬虫（二十四）爬虫与反爬虫大战
爬虫与发爬虫的厮杀,一方为了拿到数据,一方为了防止爬虫拿到数据,谁是最后的赢家? 重新理解爬虫中的一些概念爬虫:自动获取网站数据的程序反爬虫:使用技术手段防止爬虫程序爬取数据误伤:反爬虫技术将普通用 ...
C#爬虫与反爬虫--字体加密篇
爬虫和反爬虫是一条很长的路,遇到过js加密,flash加密.重点信息生成图片.css图片定位.请求头.....等手段:今天我们来聊一聊字体: 那是一个偶然我遇到了这个网站,把价格信息全加密了:浏览器展 ...
深入细枝末节，Python的字体反爬虫到底怎么一回事
内容选自即将出版的<Python3 反爬虫原理与绕过实战>,本次公开书稿范围为第 6 章——文本混淆反爬虫.本篇为第 6 章中的第 4 小节,其余小节将逐步放送 . 字体反爬虫开篇概 ...
Python Scrapy突破反爬虫机制（项目实践）
对于 BOSS 直聘这种网站,当程序请求网页后,服务器响应内容包含了整个页面的 HTML 源代码,这样就可以使用爬虫来爬取数据.但有些网站做了一些“反爬虫”处理,其网页内容不是静态的,而是使用 Jav ...
crawler_爬虫_反爬虫策略
关于反爬虫和恶意攻击的一些策略和思路有时网站经常受到恶意spider攻击,疯狂抓取网站内容,对网站性能有较大影响. 下面我说说一些反恶意spider和spam的策略和思路. 1. 通过日志分析来 ...

随机推荐

基于 abp vNext 微服务开发的敏捷应用构建平台 - 文章目录
系列文章: <基于 abp vNext 微服务开发的敏捷应用构建平台 - 设计构想> [点击查看] <基于 abp vNext 微服务开发的敏捷应用构建平台 - 文章目录> [ ...
Learning in Spiking Neural Networks by Reinforcement of Stochastic Synaptic Transmission
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Summary 众所周知,化学突触传递是不可靠的过程,但是这种不可靠的函数仍然不清楚.在这里,我考虑这样一个假设,即大脑利用突触传递的随机 ...
Networks of Spiking Neurons: The Third Generation of Neural Network Models
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! 顺便安利一下同组的大佬做的SNN教程:https://spikingflow.readthedocs.io/zh_CN/latest/Tu ...
Oracle数据库教程-数据定义语言（表操作）
创建表建表语法: CREATE TABLE 表名 ( 列1 数据类型 [primary key], 列2 数据类型 default 默认值 [not null], …, constraint 约束名 ...
failed to resolve org.junit.platform
IDEA提示:failed to resolve org.junit.platform,如下图方法一:修改Maven镜像 D:\Program Files\apache-maven-3.6.3-pc ...
vue项目配置vuex
在vue项目中各组件之间传值非常的好用,但是当组件数量多的时候,就会感觉到多个组件之间传值就会变的非常痛苦.因此就需要使用vuex来管理数据值,这样在任何页面不需要传值过来的情况下就可以拿到我们想要的 ...
JS 替换日期的横杠为斜杠
例如1: <script type="text/javascript"> var dt = "2010-01-05"; ...
记录一次mybatis缓存和事务传播行为导致ut挂的排查过程
起因 rhea项目有两个ut一直都是挂的,之前也经过几个同事排查过,但是都没有找到解决办法,慢慢的这个问题就搁置了.因为之前负责rhea项目的同事离职,我临时接手了这个项目,刚好最近来了一个新同事在做 ...
facebookPixel代码安装详解
最近接到一个需求,优化独立站的facebookPixel代码,完成后对这个项目进行复盘.首先要介绍facebookPixel的理论知识. Facebook像素是一段JavaScript代码,其中加载了 ...
Unity 打AssetBundle和加载方案
一.如何组织assetBundle: unity5以前,打包需要自己去找依赖,然后需要按照拓扑图顺序压入AB栈,这样在最后打AB时才能有效利用依赖(栈内已有的AB才能作为依赖). unity5.x后, ...

Python爬虫之反爬虫---使用随机User-Agent

使用

可能出现的问题和解决方法

解决方法

原因

Python爬虫之反爬虫---使用随机User-Agent的更多相关文章

随机推荐

热门专题