Python爬虫之反爬虫---使用随机User-Agent

在编写爬虫时，大多数情况下，需要设置请求头。而在请求头中，随机更换User-Agent可以避免触发相应的反爬机制。

使用第三方库fake-useragent便可轻松生成随机User-Agent。

使用

当我们需要使用随机User-Agent时，只需通过ua.random即可获取。代码如下：

from fake_useragent import UserAgent

ua = UserAgent()

# ......

request.add_header("User-Agent",ua.random)

# ......

可能出现的问题和解决方法

在使用fake-useragent的过程中可能出现FakeUserAgentError('Maximum amount of retries reached')错误，超时错误。在搜索到的很多解决方法都无效，包括：

禁用服务器缓存：ua = UserAgent(use_cache_server=False)
不缓存数据：ua = UserAgent(cache=False)
忽略 SSL 验证：ua = UserAgent(verify_ssl=False)
更新fake-useragent：pip install -U fake-useragent

解决方法

下载： https://fake-useragent.herokuapp.com/browsers/0.1.11 并另存为：fake_useragent.json

def get_header():

    location = os.getcwd() + '/fake_useragent.json'

    ua = fake_useragent.UserAgent(path=location)

    return ua.random

原因

使用UserAgent时访问了一个url，由于网络超时，造成错误。

现在明白了吗？这里免费送大家一套2020最新python入门到高级项目实战视频教程，可以去小编的Python交流.扣扣.裙：巴衣久二五寺久寺二（数字的谐音）转换下可以找到了，还可以跟行业大牛交流讨教！

本文的文字及图片来源于网络加上自己的想法,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

Python爬虫之反爬虫---使用随机User-Agent的更多相关文章

python爬虫之反爬虫（随机user-agent，获取代理ip，检测代理ip可用性）
python爬虫之反爬虫(随机user-agent,获取代理ip,检测代理ip可用性) 目录随机User-Agent 获取代理ip 检测代理ip可用性随机User-Agent fake_usera ...
Python爬虫与反爬虫（7）
[Python基础知识]Python爬虫与反爬虫(7) 很久没有补爬虫了,相信在白蚁二周年庆的活动大厅比赛中遇到了关于反爬虫的问题吧这节我会做个基本分享. 从功能上来讲,爬虫一般分为数据采集,处理, ...
Python爬虫从入门到放弃（二十二）之爬虫与反爬虫大战
爬虫与发爬虫的厮杀,一方为了拿到数据,一方为了防止爬虫拿到数据,谁是最后的赢家? 重新理解爬虫中的一些概念爬虫:自动获取网站数据的程序反爬虫:使用技术手段防止爬虫程序爬取数据误伤:反爬虫技术将普通用 ...
Python爬虫入门教程 65-100 爬虫与反爬虫的修罗场，点评网站，字体反爬之三
爬虫与反爬虫的修罗场哪种平台最吸引爬虫爱好者,当然是社区类的,那里容易产生原生态,高质量的数据啊, 你看微博,知乎,豆瓣爬的不亦乐乎. 评论也是产生内容的好地方生活类点评网站旅游类点评网站音乐 ...
【Python】爬虫与反爬虫大战
爬虫与发爬虫的厮杀,一方为了拿到数据,一方为了防止爬虫拿到数据,谁是最后的赢家? 重新理解爬虫中的一些概念爬虫:自动获取网站数据的程序反爬虫:使用技术手段防止爬虫程序爬取数据误伤:反爬虫技术将普通用 ...
Python之爬虫（二十四）爬虫与反爬虫大战
爬虫与发爬虫的厮杀,一方为了拿到数据,一方为了防止爬虫拿到数据,谁是最后的赢家? 重新理解爬虫中的一些概念爬虫:自动获取网站数据的程序反爬虫:使用技术手段防止爬虫程序爬取数据误伤:反爬虫技术将普通用 ...
C#爬虫与反爬虫--字体加密篇
爬虫和反爬虫是一条很长的路,遇到过js加密,flash加密.重点信息生成图片.css图片定位.请求头.....等手段:今天我们来聊一聊字体: 那是一个偶然我遇到了这个网站,把价格信息全加密了:浏览器展 ...
深入细枝末节，Python的字体反爬虫到底怎么一回事
内容选自即将出版的<Python3 反爬虫原理与绕过实战>,本次公开书稿范围为第 6 章——文本混淆反爬虫.本篇为第 6 章中的第 4 小节,其余小节将逐步放送 . 字体反爬虫开篇概 ...
Python Scrapy突破反爬虫机制（项目实践）
对于 BOSS 直聘这种网站,当程序请求网页后,服务器响应内容包含了整个页面的 HTML 源代码,这样就可以使用爬虫来爬取数据.但有些网站做了一些“反爬虫”处理,其网页内容不是静态的,而是使用 Jav ...
crawler_爬虫_反爬虫策略
关于反爬虫和恶意攻击的一些策略和思路有时网站经常受到恶意spider攻击,疯狂抓取网站内容,对网站性能有较大影响. 下面我说说一些反恶意spider和spam的策略和思路. 1. 通过日志分析来 ...

随机推荐

iptables初步接触
0.iptables命令选项输入顺序:iptables -t 表名 <-A/I/D/R> 规则链名 [规则号] <-i/o 网卡名> -p 协议名 <-s 源IP/源子网 ...
Jenkins（1）—— 部署安装
最近有聊到接口自动化,持续集成这方面,所以想从持续集成工具Jenkins作为切入点来学习一下一.jenkins概念 Jenkins是一个开源的.可扩展的持续集成.交付.部署(软件/代码的编译.打包. ...
操作系统-I/O（2）设备的分配
作业执行前对设备提出申请时,指定某台具体的物理设备会让设备分配变得简单,但如果所指定设备出现故障,即便计算机系统中有同类设备也不能运行设备独立性:用户通常不指定物理设备,而是指定逻辑设备,使得用户作 ...
团队作业3 需求改进&系统设计（银河超级无敌舰队）
目录一.需求&原型改进 1. 需求改进 2. 修改说明书 3.功能分析 4. 调整WBS及计划二.系统设计 1. 总体设计 2. 数据库设计 3.社团设计三.Alpha任务分配计划 1. ...
HttpWatch汉化版带详细的使用教程下载
http://www.wocaoseo.com/thread-303-1-1.html HttpWatch是强大的网页数据分析工具.集成在Internet Explorer工具栏.包括网页摘要.Coo ...
java实现邮箱发送信息--验证码的发送（163邮箱）
1.maven环境  <dependency> <groupId>javax.mail</groupId> <artif ...
2020，最新Model的设计-APP重构之路
很多的app使用MVC设计模式来将“用户交互”与“数据和逻辑”分开,而model其中一个重要作用就是持久化.下文中设计的Model可能不是一个完美的,扩展性强的model范例,但在我需要重构的app中 ...
AndroidStudio与eclipse打包的时候报错。Error:(4) Error: "ssdk_instapager_login_html" is not translated in "en"
作者:程序员小冰,CSDN博客:http://blog.csdn.net/qq_21376985 QQ986945193 博客园主页:http://www.cnblogs.com/mcxiaobing ...
android开发之splash闪屏页判断是否第一次进入app代码
package com.david.david.zhankudemo.activity; import android.app.Activity; import android.content.Con ...
qqmini
QQ玩一玩最新调试方法 https://blog.csdn.net/zyw_java/article/details/83686645 LayaBox 接入QQ玩一玩轻游戏流程 https://bl ...

Python爬虫之反爬虫---使用随机User-Agent

使用

可能出现的问题和解决方法

解决方法

原因

Python爬虫之反爬虫---使用随机User-Agent的更多相关文章

随机推荐

热门专题