基于requests模块的代理

1.什么是代理？

代理：将网络请求发送给代理服务器，通过代理服务器做中介，将请求转发给目标服务器并将响应返回，从而完成网络通信。

2.为什么使用代理？

使用爬虫抓取批量资源时，在短时间内会对服务器发起高频请求，服务器会判定这些高频请求不是“普通访客”发起的，从而拒绝该IP的发起的请求，但是我们可以更换IP(使用代理IP)继续进行访问

3.代理的基础知识

代理的类型：http和https 根据要访问网页使用的协议类型进行选择
匿名度：分为透明、匿名和高匿

透明：服务器知道使用了代理，而且知道真实的IP

匿名：服务器知道使用了代理，而且但不知道真实的IP

高匿：服务器不知道使用了代理，更不知道真实的IP

4.requests中的proxies参数

import requests

import random

requests.get(url = target_url,proxies = {'http':''163.125.114.117:8118''},headers =...)

#防止IP被禁，可以使用代理池

ht_proxy = [

    {'http':'163.125.114.117:8118'},

    {'http':'183.129.244.16:11063'},

    {'http':':219.159.38.199:56210'}]

hts_proxy = [

    {'https':'163.125.114.117:8118'},

    {'https':'183.129.244.16:11063'},

    {'https':':219.159.38.199:56210'}]

#使用User-Agent进行伪装

header_list = [

    {  # 谷歌

    "user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11"}，

      # 火狐

    {"user-agent": "Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1"},

    #  遨游

    {"user-agent": "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0)"},

]

requests.get(url = target_url,proxies = random.choice(ht_proxy),

             headers =  random.choice(header_list))

#还可使用随机生成user-agent的第三方库（先安装）

from fake_useragent import UserAgent

ua = UserAgent().random

headers = {

    'User-Agent':ua

}

#随机产生UA,如果报错则可以添加如下参数：

#ua = UserAgent(verify_ssl=False,use_cache_server=False).random

#禁用服务器缓存：

#ua = UserAgent(use_cache_server=False)

#不缓存数据：

#ua = UserAgent(cache=False)

#忽略ssl验证：

#ua = UserAgent(verify_ssl=False)

基于requests模块的代理的更多相关文章

基于requests模块的cookie,session和线程池爬取
目录基于requests模块的cookie,session和线程池爬取基于requests模块的cookie操作基于requests模块的代理操作基于multiprocessing.dummy ...
python 爬虫基于requests模块发起ajax的post请求
基于requests模块发起ajax的post请求需求:爬取肯德基餐厅查询http://www.kfc.com.cn/kfccda/index.aspx中指定某个城市地点的餐厅数据点击肯德基餐厅查 ...
python 爬虫基于requests模块发起ajax的get请求
基于requests模块发起ajax的get请求需求:爬取豆瓣电影分类排行榜 https://movie.douban.com/中的电影详情数据用抓包工具捉取使用ajax加载页面的请求鼠标往下 ...
requests 模块使用代理
正向代理与反向代理的区别反向代理: 服务器端知道代理的存在,反向代理是为了保护服务器或负责负载均衡但是客户端不知道代理的存在的正向代理: 客户端知道代理的存在,正向代理是为保护客户端,防止追究责 ...
python 爬虫基于requests模块的get请求
需求:爬取搜狗首页的页面数据 import requests # 1.指定url url = 'https://www.sogou.com/' # 2.发起get请求:get方法会返回请求成功的响应对 ...
python基础===基于requests模块上的协程【trip】
今天看博客get了一个有趣的模块,叫做 trip #(pip install trip) 兼容2.7版本基于两大依赖包:TRIP: Tornado & Requests In Pa ...
requests模块使用代理
1.创建try_proxies.py文件import requestsproxies = {"http":"http:117.135.34.6:8060"}he ...
requests模块处理cookie,代理ip，基于线程池数据爬取
引入有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不到我们想要的目的. 一.基于requests模块 ...
requests模块的cookie和代理操作
一.基于requests模块的cookie操作引言:有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不 ...

随机推荐

位于0/nut文件里的'Calculated'边界条件是什么意思？【翻译】
翻译自:CFD-online 帖子地址:http://www.cfd-online.com/Forums/openfoam-pre-processing/140984-what-does-calcul ...
mac下生成keystore
keytool -genkey -v -keystore sign.keystore -alias cxa -keyalg RSA -validity 20000 -keystore /Users/c ...
springMVC_注解方式搭建基础环境
---恢复内容开始--- 一.jar包环境,web配置文件和Spring-MVC配置文件的,相关的modelAndview 1.配置DispatcherServlet <servlet> ...
What is the yield keyword used for in C#?
What is the yield keyword used for in C#? https://stackoverflow.com/a/39496/3782855 The yield keywor ...
伍德伯里矩阵恒等式（Woodbury matrix identity）
宜言饮酒,与子偕老.琴瑟在御,莫不静好. 更多精彩内容请关注微信公众号 "优化与算法" 在数学(特别是线性代数)中,Woodbury矩阵恒等式是以Max A.Woodbury命名的 ...
技术干货丨如何在VIPKID中构建MQ服务
小结: 1. https://mp.weixin.qq.com/s/FQ-DKvQZSP061kqG_qeRjA 文 |李伟 VIPKID数据中间件架构师交流微信 | datapipeline201 ...
远程控制软件 mRemoteNG,管理多台虚拟机
#下载 1.官网下载:https://mremoteng.org/2.当然也可以到这里下载:https://pan.baidu.com/s/11O_QNM3HudN3IyTiqqHmrQ,提取码:jm ...
优雅编写Python3 的62个小贴士
iterable技巧 ▍1.创建一个数字序列(从0到10,间隔为2) >>> range(0,10,2)[0, 2, 4, 6, 8] ▍2.对一串数字求和(从0到10,间隔为2 ...
123457123457#0#-----com.cym.YuErBaiKe02--前拼后广--育儿百科
com.cym.YuErBaiKe02--前拼后广--育儿百科
【已解决】HttpWebRequest的GetResponse或GetRequestStream偶尔超时 + 总结各种超时死掉的可能和相应的解决办法
[问题] 用C#模拟网页登陆,其中去请求几个页面,会发起对应的http的请求request,其中keepAlive设置为true,提交请求后,然后会有对应的response: resp = (Http ...