在编写爬虫进行网页数据的时候，大多数情况下，需要在请求是增加请求头，下面介绍一个python下非常好用的伪装请求头的库：fake-useragent，具体使用说明如下：

1.在scrapy中的使用

第一步

pip install fake-useragent

第二步：在middlewares中配置下载中间件。

class RandomUserAgentMiddleware(object):

    #随机更换user_agent

    def __init__(self, crawler):

        super(RandomUserAgentMiddleware,self).__init__()

        self.ua = UserAgent()

        self.ua_type = crawler.settings.get("RANDOM_UA_TYPE","random")#为了随机获得浏览器类型

    @classmethod

    def from_crawler(cls, crawler):

        return cls(crawler)#导入crawler，从而获取其他的配置文件里的数据

    def process_request(self,request,spider):

        def get_ua():

            return getattr(self.ua,self.ua_type)#获取ua的ua_type属性，也就是获得random

        request.headers.setdefault('User-Agent',get_ua())

第三步：在settings中配置

RANDOM_UA_TYPE = "random"

USER_AGENT ='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'

DEFAULT_REQUEST_HEADERS = {

     'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

    'Accept-Language': 'en',

     'User-Agent':USER_AGENT,

}

2不是在scrapy中的使用

pip install fake-useragent

获取各浏览器的fake-useragent

from fake_useragent import UserAgent

ua = UserAgent()

#ie浏览器的user agent

print(ua.ie)

#opera浏览器

print(ua.opera)

#chrome浏览器

print(ua.chrome)

#firefox浏览器

print(ua.firefox)

#safri浏览器

print(ua.safari)

#最常用的方式

#写爬虫最实用的是可以随意变换headers，一定要有随机性。支持随机生成请求头

print(ua.random)

print(ua.random)

print(ua.random)

示例代码

from fake_useragent import UserAgent

import requests

ua=UserAgent()

#请求的网址

url="https://www.baidu.com"

#请求头

headers={"User-Agent":ua.random}

#请求网址

response=requests.get(url=url,headers=headers)

#响应体内容

print(response.text)

#响应状态信息

print(response.status_code)

#响应头信息

print(response.headers)

fake-useragent，python爬虫伪装请求头的更多相关文章

python爬虫添加请求头和请求主体
添加头部信息有两种方法 1.通过添加urllib.request.Request中的headers参数 #先把要用到的信息放到一个字典中 headers = {} headers['User-Agen ...
python爬虫添加请求头
request import requests headers = { # 'Accept': 'application/json, text/javascript, */*; q=0.01', # ...
Python：fake-useragent 伪装请求头
写爬虫的时候,在进行 request 请求的时候,多数情况下需要添加请求头,否则就不能正常请求. 添加请求头最常用的做法是修改 User-Agent 来伪装浏览器. 以前在写请求头的时候,都是通过 c ...
python爬虫#网络请求requests库
中文文档 http://docs.python-requests.org/zh_CN/latest/user/quickstart.html requests库虽然Python的标准库中 urlli ...
python 爬虫001-http请求过程
HTTP 请求流程一次完整的HTTP请求过程从TCP三次握手建立连接成功后开始,客户端按照指定的格式开始向服务端发送HTTP请求,服务端接收请求后,解析HTTP请求,处理完业务逻辑,最后返回一个HT ...
python爬虫伪装技术应用
版权声明:本文为博主原创文章,转载请注明出处: https://blog.csdn.net/sc2079/article/details/82423865 -写在前面本篇博客主要是爬虫伪装技术的应 ...
Python爬虫requests请求库
requests:pip install request 安装实例: import requestsurl = 'http://www.baidu.com'response = requests. ...
python 爬虫伪装
#coding=utf-8 import requests def requests_view(response): import webbrowser requests_url = response ...
python爬虫之反爬虫（随机user-agent，获取代理ip，检测代理ip可用性）
python爬虫之反爬虫(随机user-agent,获取代理ip,检测代理ip可用性) 目录随机User-Agent 获取代理ip 检测代理ip可用性随机User-Agent fake_usera ...

随机推荐

hdu 4928 Series 2 (优化+模拟)
题意: 一个含n个数的序列a,每两个相邻的数相减得到一个新数,这些数组成一个新的序列. 假设全部得到的序列都满足非严格的单调性.则原序列为nice series.假设给出的序列本来不满足单调性.它是 ...
[转]Loadrunner Error code 10053 & Tomcat 连接器(connector)优化
LoadRunner提示错误:Error : socket0 - Software caused connection abort. Error code : 10053. 在今天的测试过程中发现,s ...
mac os x 记录转载
转载:远景网友(手机锋友t5sd3sf):http://bbs.feng.com/read-htm-tid-10434256.html 一个命令制作 OS X 原版安装U盘 1.要保证下载的原版安装包 ...
winform 递归循环阻止机构
private void GetTree() { DataTable dt = new DataTable(); var sql = @" select OUID,ParentOUID,OU ...
keyword static
1. 不能通过类名来调用类的非静态成员函数 2. 类的对象可以使用静态成员函数和非静态成员函数 3. 静态成员函数中不能引用非静态成员因为静态成员函数属于整个类, 在类的实例化对象之前就已经分配了空 ...
追踪溯源--抓住隐藏在NAT后面的罪犯
零.绪论: 水一篇,很小,只是一点思路记录,在工作中经常遇到的一类小问题.NAT后面的地址如何追查下去,推动网络整改不现实,总还要有一些手段来确认. 一.背景: 全球IPv4地址越来越少,也越来越贵, ...
android EditText自动弹出和自动关闭软键盘
程序进入某个activity直接弹出软键盘,不能直接在OnCreate中设置,必须等View绘制事件完毕才可以弹出,需要用到Timer辅助实现,如果要实现输入的功能,必须让EditText获得焦点. ...
20165330 2017-2018-2 《Java程序设计》第9周学习总结
课本知识总结第十三章 Java网络编程 URL类 URL类是java.net包中的一个重要的类一个URL对象包含的三个基本信息:协议.地址和资源协议:必须是URL对象所在的Java虚拟机支持的协 ...
C# ArcEngine 实现点击要素高亮并弹出其属性
本文是模仿ArcMap里面的Identify(识别)功能,通过点击要素,使其高亮显示并弹出其属性表!本文只做了点击查询! 本文所用的环境为VS2010,AecEngine基于C#语言,界面是用Dev做 ...
Storm-源码分析- Multimethods使用例子
1. storm通过multimethods来区分local和distributed模式当调用launch-worker的时候, clojure会自动根据defmulti里面定义的fn来判断是调用哪 ...

fake-useragent，python爬虫伪装请求头

1.在scrapy中的使用

2不是在scrapy中的使用

fake-useragent，python爬虫伪装请求头的更多相关文章

随机推荐

热门专题