Python爬虫实战——反爬策略之代理IP【无忧代理】

一般情况下，我并不建议使用自己的IP来爬取网站，而是会使用代理IP。

原因很简单：爬虫一般都有很高的访问频率，当服务器监测到某个IP以过高的访问频率在进行访问，它便会认为这个IP是一只“爬虫”，进而封锁了我们的IP。

那我们爬虫对IP代理的要求是什么呢？

1、代理IP数量较多，可以减低被封锁的概率；
2、IP生命周期较短，因为没钱o(´^｀)o。

接下来，就讲一下从购买代理IP到urllib配置代理IP的全过程。

购买代理IP：

代理IP的中间商有很多，我们以无忧代理为例。

这里共有4套餐，我们选择第一个“￥10”套餐，进入详情界面：
竟然更便宜了，只要8.5？？？买！

（我真的没拿无忧代理的广告费......）
购买成功之后，我们点击“创建API接口”：
获取HTTP爬虫代理IP的API链接：

配置代理IP：

我们先调用下接口试一下：

import urllib.request as ur

proxy_address = ur.urlopen('http://api.ip.data5u.com/dynamic/get.html?order=d314e5e5e19b0dfd19762f98308114ba&sep=4').read()

print(proxy_address)

由于返回结果为字节，我们还需对其进行utf-8格式转换，以及去空格：

proxy_address = proxy_address.decode('utf-8').strip()

输出如下：

创建proxy_handler：

proxy_handler = ur.ProxyHandler(

    {

        'http': proxy_address

    }

)

新建opener对象：

proxy_opener = ur.build_opener(proxy_handler)

使用代理IP进行访问并输出：

request = ur.Request(url='https://edu.csdn.net/')

# open == urlreponse，只是进行了代理IP封装

reponse = proxy_opener.open(request).read().decode('utf-8')

print(reponse)

输出如下：

全文完整代码：

import urllib.request as ur

proxy_address = ur.urlopen('http://api.ip.data5u.com/dynamic/get.html?order=d314e5e5e19b0dfd19762f98308114ba&sep=4').read().decode('utf-8').strip()

# print(proxy_address)

# 创建proxy_handler

proxy_handler = ur.ProxyHandler(

    {

        'http': proxy_address

    }

)

# 新建opener对象

proxy_opener = ur.build_opener(proxy_handler)

request = ur.Request(url='https://edu.csdn.net/')

# open == urlreponse，只是进行了代理IP封装

reponse = proxy_opener.open(request).read().decode('utf-8')

print(reponse)

为我心爱的女孩~~

Python爬虫实战——反爬策略之代理IP【无忧代理】的更多相关文章

Python爬虫实战——反爬策略之模拟登录【CSDN】
在<Python爬虫实战-- Request对象之header伪装策略>中,我们就已经讲到:=="在header当中,我们经常会添加两个参数--cookie 和 User-Age ...
抖音爬虫教程，python爬虫采集反爬策略
一.爬虫与反爬简介爬虫就是我们利用某种程序代替人工批量读取.获取网站上的资料信息.而反爬则是跟爬虫的对立面,是竭尽全力阻止非人为的采集网站信息,二者相生相克,水火不容,到目前为止大部分的网站都还是可 ...
Python爬虫实战——反爬机制的解决策略【阿里】
这一次呢,让我们来试一下"CSDN热门文章的抓取". 话不多说,让我们直接进入CSND官网. (其实是因为我被阿里的反爬磨到没脾气,不想说话--) 一.URL分析输入" ...
Python爬虫实战之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标对百度贴吧的任意帖子进行抓取指定是否只抓取楼主发帖 ...
原创:Python爬虫实战之爬取美女照片
这个素材是出自小甲鱼的python教程,但源码全部是我原创的,所以,猥琐的不是我注:没有用header(总会报错),暂时不会正则表达式(马上要学了),以下代码可能些许混乱,不过效果还是可以的. 爬虫 ...
python爬虫--cookie反爬处理
Cookies的处理作用保存客户端的相关状态在爬虫中如果遇到了cookie的反爬如何处理? 手动处理在抓包工具中捕获cookie,将其封装在headers中应用场景:cookie没有有效时长 ...
Python爬虫-字体反爬-猫眼国内票房榜
偶然间知道到了字体反爬这个东西, 所以决定了解一下. 目标: https://maoyan.com/board/1 问题: 类似下图中的票房数字无法获取, 直接复制粘贴的话会显示 □ 等无法识别的字 ...
Python爬虫实战之爬取糗事百科段子
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...
Python爬虫实战之爬取糗事百科段子【华为云技术分享】
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...

随机推荐

【leetcode】316. Remove Duplicate Letters
题目如下: Given a string which contains only lowercase letters, remove duplicate letters so that every l ...
UNP学习第四章tcp
一.TCP简单流程图因为对于server我已经写过一篇笔记了:http://www.cnblogs.com/ch122633/p/8315883.html 所以我想再补充一些对于client的部分的 ...
BZOJ 5415: [Noi2018]归程(kruskal重构树)
解题思路 $NOI2018$的$Day1$ $T1$,当时打网络赛的时候不会做.学了一下$kruskal$重构树后发现问题迎刃而解了.根据$kruskal$的性质,如果要找从\(u ...
[CSP-S模拟测试67]题解
时隔多年,终于又有了一套我能改完的题…… A.神炎皇遇到这种要求整除的题显然拆出gcd 设$d=gcd(a,b)\ \ \ a'=\frac{a}{d} \ \ \ b'=\frac{b}{d}$ ...
Vue.config.optionMergeStrategies 用法分析
举个例子,假设有个对象,他叫objA, 技能是说hello,他喜欢的女生叫小花,但是他是一个花心的人! objA = { name: 'objA ', sayHello_ () { console.l ...
埋在MySQL数据库应用中的17个关键问题
出处:https://blog.csdn.net/weixin_42882439 MySQL的使用非常普遍,跟MySQL有关的话题也非常多,如性能优化.高可用性.强一致性.安全.备份.集群.横向扩展. ...
php中的list()
list()在php中上一个语言结构,并不是一个函数.类似array(),不过array()这个东西我们现在一般很少使用了,因为从php5.4版本开始,我们会直接使用[]来定义数组. 那么,list( ...
MySQL date_sub 和 date_add 函数
DATE_SUB: 定义和用法 DATE_SUB() 函数从日期减去指定的时间间隔. 语法 DATE_SUB(date,INTERVAL expr type) date 参数是合法的日期表达式.exp ...
研究一下phpspider
官方文档 1.下载官方github下载地址: https://github.com/owner888/phpspider 下载地址可能无法访问,这里提供一个网盘下载地址: 链接: https://p ...
mysql与python连接学习
1 问题: pip install MySQLClient 遇到 error: Microsoft Visual C++ 14.0 is required. Get it with "Mi ...