爬虫（二）建立代理ip池

之前我们说网站反爬虫的一个常用方法是检测ip，限制访问频率。所以我们要通过设置代理ip的办法绕过这个限制。有不少提供免费代理ip的网站，像https://www.xicidaili.com/nt/，我们可以从网站上拿到很多代理ip。但是这些ip并不是每个都能用的，或者说，没几个能用的。

我们可以用beautifulsoup分析网页，然后处理，提取代理ip列表，也可以用正则表达式进行匹配。用正则表达式会快一些。ip_url就是https://www.xicidaili.com/nt/，random_hearder就是一个随机获得请求头的函数。

def download_page(url):

    headers = random_header()

    data = requests.get(url, headers=headers)

    return data

def get_proxies(page_num, ip_url):

    available_ip = []

    for page in range(1,page_num):

        print("抓取第%d页代理IP" %page)

        url = ip_url + str(page)

        r = download_page(url)

        r.encoding = 'utf-8'

        pattern = re.compile('<td class="country">.*?alt="Cn" />.*?</td>.*?<td>(.*?)</td>.*?<td>(.*?)</td>', re.S)

        ip_list = re.findall(pattern, r.text)

        for ip in ip_list:

            if test_ip(ip):

                print('%s:%s通过测试，添加进可用代理列表' %(ip[0],ip[1]))

                available_ip.append(ip)

        time.sleep(10)print('抓取结束')

    return available_ip

拿到ip后我们还需要对ip进行检测，确定这个ip可以用。怎么检测呢？我们可以用代理ip访问一个能显示访问ip的网站，然后检查请求结果。

def test_ip(ip,test_url='http://ip.tool.chinaz.com/'):

    proxies={'http': ip[0]+':'+ip[1]}

    try_ip=ip[0]

    try:

        r=requests.get(test_url, headers=random_header(), proxies=proxies)

        if r.status_code==200:

            r.encoding='gbk'

            result=re.search('\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}',r.text)

            result=result.group()

            print(result)

            if result[:9]==try_ip[:9]:print('%S:%s测试通过' % (ip[0],ip[1]))

                return True

            else:

                print('%s:%s 携带代理失败,使用了本地IP' %(ip[0],ip[1]))

                return False

        else:

            print('%s:%s 请求码不是200' %(ip[0],ip[1]))

            return False

    except Exception as e:

        print(e)

        print('%s:%s 错误' %(ip[0],ip[1]))

        return False

有些教程只是拿到200的http状态码就认为成功了，这是不对的。因为代理ip访问不成功，就会默认使用你自己的ip。用我自己的ip访问当然能成功了。

最后拿到的ip在使用前我们还需要对其进行检测，因为你不知道什么时候它就不可用了。所以平时多储存一些代理ip，免得要用的时候没得用。

这篇文章的代码参考了https://blog.csdn.net/XRRRICK/article/details/78650764，我稍微做了一些修改。

爬虫（二）建立代理ip池的更多相关文章

python多线程建立代理ip池
之前有写过用单线程建立代理ip池,但是大家很快就会发现,用单线程来一个个测试代理ip实在是太慢了,跑一次要很久才能结束,完全无法忍受.所以这篇文章就是换用多线程来建立ip池,会比用单线程快很多.之所以 ...
构建一个给爬虫使用的代理IP池
做网络爬虫时,一般对代理IP的需求量比较大.因为在爬取网站信息的过程中,很多网站做了反爬虫策略,可能会对每个IP做频次控制.这样我们在爬取网站时就需要很多代理IP. 代理IP的获取,可以从以下几个途径 ...
基于后端和爬虫创建的代理ip池
搭建免费的代理ip池需要解决的问题: 使用什么方式存储ip 文件存储缺点: 打开文件修改文件操作较麻烦 mysql 缺点: 查询速度较慢 mongodb 缺点: 查询速度较慢. 没有查重功能 re ...
爬虫爬取代理IP池及代理IP的验证
最近项目内容需要引入代理IP去爬取内容. 为了项目持续运行,需要不断构造.维护.验证代理IP. 为了绕过服务端对IP 和频率的限制,为了阻止服务端获取真正的主机IP. 一.服务器如何获取客户端IP ...
【python3】如何建立爬虫代理ip池
一.为什么需要建立爬虫代理ip池在众多的网站防爬措施中,有一种是根据ip的访问频率进行限制的,在某段时间内,当某个ip的访问量达到一定的阀值时,该ip会被拉黑.在一段时间内被禁止访问. 这种时候,可 ...
如何建立自己的代理IP池,减少爬虫被封的几率
如何建立自己的代理IP池,减少爬虫被封的几率在爬虫过程中,难免会遇到各种各样的反爬虫,运气不好,还会被对方网站给封了自己的IP,就访问不了对方的网站,爬虫也就凉凉. 代理参数-proxies 首先我 ...
建立爬虫代理IP池
单线程构建爬虫代理IP池 #!/usr/bin/python3.5 # -*- coding:utf-8 -*- import time import tempfile from lxml impor ...
Python爬虫代理IP池
目录[-] 1.问题 2.代理池设计 3.代码模块 4.安装 5.使用 6.最后在公司做分布式深网爬虫,搭建了一套稳定的代理池服务,为上千个爬虫提供有效的代理,保证各个爬虫拿到的都是对应网站有效的代 ...
python爬虫构建代理ip池抓取数据库的示例代码
爬虫的小伙伴,肯定经常遇到ip被封的情况,而现在网络上的代理ip免费的已经很难找了,那么现在就用python的requests库从爬取代理ip,创建一个ip代理池,以备使用. 本代码包括ip的爬取,检 ...

随机推荐

drools决策表的使用
决策表我们在drools规则引擎初探里做了简单介绍,这里主要是介绍如何通过java代码来把这个excel文件和drools关联起来,如何使其达到我们想要的效果. 这里假设我们在resources目录下 ...
SPN扫描利用
一.利用环境: 在内网渗透的信息收集中,机器服务探测一般都是通过端口扫描去做的,但是有些环境不允许这些操作.通过利用 SPN 扫描可快速定位开启了关键服务的机器,这样就不需要去扫对应服务的端口,有效规 ...
shell 脚本功能性语句 read，expr，test
1. read 从终端输入数据赋值给变量 read val 把读入的数据存放到val中 #!/bin/bash echo -n "please input two number :" ...
BZOJ2152 聪明可可点分治
题意传送门思路:基本的点分治思路,num数组记录从u点开始路径长度分别为1或者2或者3的路径长度(取模3意义下),然后做一个简单的容斥就好了. 为了避免计数的麻烦,<u,u>这样的点单独 ...
浏览器自带记忆功能，使input颜色和字体丢失
方法一 : 会有视觉上颜色的变化input:-internal-autofill-selected { /*内置阴影填充背景颜色*/ box-shadow: inset 0 0 0 1000px # ...
openwrt MySQL移植
1 选择包选择两个包,拷贝配置文件 cp products/mt7621/config_6080 .config 编译固件 openwrt 百万数据的优化, 执行脚本: mysql -u root ...
arc098E Range Minimum Queries
题意:给你一个n个数的数组,每次能够选取连续的长度为K的子序列,取出其中任意一个最小元素. 一共操作Q次.问取出的元素中Max-Min最小是多少? 标程: #include<bits/stdc+ ...
leetcode-227-基本计算器②
题目描述: 方法一:中缀转后缀 #!_*_coding:utf-8_*_ class Solution: def calculate(self, s: str) -> int: def in_t ...
[转]MySQL InnoDB引擎索引长度受限怎么办
mysql> CREATE TABLE `tb` (-> `a` varchar(255) DEFAULT NULL,-> `b` varchar(255) DEFAULT NULL ...
树形dp——cf1092F
被傻逼题降智了.. 就是第一次dfs 时求一次size,一次deep数组然后第二次dfs时直接求最大值先把结点1的值求出来, u->v过程中,v子树的所有结点深度-1,v外的所有结点深度+ ...

爬虫（二）建立代理ip池

爬虫（二）建立代理ip池的更多相关文章

随机推荐

热门专题