自己设计代理IP池

大体思路

使用redis作为队列，买了一份蘑菇代理，但是这个代理每5秒可以请求一次，我们将IP请求出来，从redis列表队列的左侧插入，要用的时候再从右侧取出，请求成功证明该IP是可用的，将该代理IP从左侧放回，三次都请求失败则认为该代理IP已经失效

代码如下:

import requests
import json
import redis
import time
r = redis.Redis(host='127.0.0.1', port=6379,db=3)
num = r.llen('the_ip')
print(num)
while True:
    if num<5:
        ip = requests.get('http://piping.mogumiao.com/proxy/api/get_ip_al?appKey=b9bfb84c7ca34fec9f51b3a9dca147e5&count=2&expiryDate=0&format=1').text
        print(ip)
        code = json.loads(ip)['code']
        if code=='0':
            msg = json.loads(ip)['msg']
            for i in msg:
                ip = i['ip']+':'+i['port']
                print(ip)
                r.lpush('the_ip',ip)
            num = r.llen('the_ip')
        elif code=='3001':
            "提取频繁,5秒提取一次!"
            time.sleep(5)
        else:
            print('调用IP接口错误,错误类型为'+code)
    else:
        print('IP池已经满了')
        num = r.llen('the_ip')
        time.sleep(3)

上面这些代码是保证redis代理IP池里始终有5个左右的代理IP

import requests
import json
import redis
import time
from lxml import etree
r = redis.Redis(host='127.0.0.1', port=6379,db=3)
def get_source(url,header,data=None):
    ip = r.rpop('the_ip').decode('utf8')
    print('提取ip',ip)
    if data==None:
        n = 0
        while True:
            try:
                source = requests.get(url,headers=header,proxies={'http':ip},timeout=5).content
                r.lpush('the_ip',ip)
                print('请求成功返还IP',ip)
                return source
            except:
                n+=1
                print('请求失败'+str(n)+'次')
                if n==3:
                   return get_source(url,header)

    else:
        source = requests.get(url, headers=header, proxies={'http': ip},data=data).content
        return source

header = {'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.117 Safari/537.36}"
}
while True:
   source = get_source('http://www.ip111.cn/',header).decode('utf8')
   show = etree.HTML(source).xpath('//tr[2]/td[2]/text()')
   print(show)

上面的代理是循环请求查看当前IP的网址，从而看出代理IP的变化。每次请求都是轮着使用代理的，可以是代理用更长时间而不必担心老用一个代理IP被封了

自己设计代理IP池的更多相关文章

爬虫入门到放弃系列05：从程序模块设计到代理IP池
前言上篇文章吧啦吧啦讲了一些有的没的,现在还是回到主题写点技术相关的.本篇文章作为基础爬虫知识的最后一篇,将以爬虫程序的模块设计来完结. 在我漫(liang)长(nian)的爬虫开发生涯中,我通常将 ...
Python爬虫代理IP池
目录[-] 1.问题 2.代理池设计 3.代码模块 4.安装 5.使用 6.最后在公司做分布式深网爬虫,搭建了一套稳定的代理池服务,为上千个爬虫提供有效的代理,保证各个爬虫拿到的都是对应网站有效的代 ...
springboot实现java代理IP池 Proxy Pool，提供可用率达到95%以上的代理IP
一.背景前段时间,写java爬虫来爬网易云音乐的评论.不料,爬了一段时间后ip被封禁了.由此,想到了使用ip代理,但是找了很多的ip代理网站,很少有可以用的代理ip.于是,抱着边学习的心态,自己开发 ...
基于后端和爬虫创建的代理ip池
搭建免费的代理ip池需要解决的问题: 使用什么方式存储ip 文件存储缺点: 打开文件修改文件操作较麻烦 mysql 缺点: 查询速度较慢 mongodb 缺点: 查询速度较慢. 没有查重功能 re ...
【python3】如何建立爬虫代理ip池
一.为什么需要建立爬虫代理ip池在众多的网站防爬措施中,有一种是根据ip的访问频率进行限制的,在某段时间内,当某个ip的访问量达到一定的阀值时,该ip会被拉黑.在一段时间内被禁止访问. 这种时候,可 ...
建立爬虫代理IP池
单线程构建爬虫代理IP池 #!/usr/bin/python3.5 # -*- coding:utf-8 -*- import time import tempfile from lxml impor ...
做了一个动态代理IP池项目，邀请大家免费测试~
现在出来创业了,目前公司在深圳. 做了啥呢, 做了一个动态代理 IP 池项目现在邀请大家免费测试体验! 免费激活码:关注微信公众号:2808proxy (每人每天限领一次噢~) 网站:https:/ ...
C#——做一个简单代理IP池
一.缘由. 抓取数据时,有一些网站设置了一些反爬虫设置,进而将自己本地 IP 地址拉入系统黑名单.从而达到禁止本地 IP 访问数据的请求. 二.思路. 根据其他代理 IP 网站,进行一个免费的代理 ...
构建一个给爬虫使用的代理IP池
做网络爬虫时,一般对代理IP的需求量比较大.因为在爬取网站信息的过程中,很多网站做了反爬虫策略,可能会对每个IP做频次控制.这样我们在爬取网站时就需要很多代理IP. 代理IP的获取,可以从以下几个途径 ...

随机推荐

Singleton单例类模式
body, table{font-family: 微软雅黑; font-size: 10pt} table{border-collapse: collapse; border: solid gray; ...
C++11_新语法
版权声明:本文为博主原创文章,未经博主允许不得转载. 本节主要介绍C++的新特性,对于C++的基础语法不再讲解.由于编译器的不同.在某些地方可能有些差异,但是无太大影响. 讲解本节知识之前先确认你的C ...
mysql报错注入手工方法
以前觉得报错注入有那么一长串,还有各种concat(),rand()之类的函数,不方便记忆和使用,一直没怎么仔细的学习过.这次专门学习了一下,看了一些大牛的总结,得到一些经验,特此记录下来,以备后续巩 ...
keepererrorcode = connectionloss for 错误处理
自己的环境在虚拟机上,于是使用同事的环境调试问题,发现无法初始化成功,提示keepererrorcode = connectionloss for,于是上网查了下资料整理如下: 1.对比代码中引用的j ...
Sqlserver 存储过程返回-6
存储过程中没有返回手动返回-6的代码,但是一直接收到-6返回值. 经最后研究发现,是粗心导致的,Insert插入数据时在非空字段插入了Null值导致出现异常,所以返回了-6. 所以说在事务中,可能会 ...
d3.js（v5.7）力导向图（关系图谱）
先上图,后面再一一解释: ok,为了方便理解,这里我就没有用之前封装的automatch函数来将数据和节点匹配了,如果你对enter(),exit()函数还不是很理解的话,请移步至我之前写的<n ...
Android gradle 安装成功，但是报虚拟机过大的错误处理方法
一.这个是项目中遇到的问题,记下来,以后再出现方便查看. 1.首先看图吧. 虚拟机内容过大解决办法: 在.gradle目录下更改配置文件gradle.properjties 里面的将标记的改成51 ...
[Linux] 复制文件夹下指定创建时间的文件
暂时不知道什么命令可以达到这个目标,目前的方法是分步进行: 首先,找出指定创建时间内的文件名例如在imgs文件夹中,找出创建时间在一天内的文件 > feb_files.txt 然后将这些文件复 ...
linux另一种安装方式
linux中其实没有“安装”的概念:安装就是设下路径,拷贝文件,复制文件,运行下脚本这些(windows也应该如此) 法一.把bin运行路径设成环境变量法二.ln一下,例如: 解压下载的文件: ta ...
UNIX环境高级编程标准IO库
标准I/O库处理很多细节,使得便于用户使用. 流和 FILE 对象对于标准I/O库,操作是围绕流(stream)进行的.当用标准I/O打开或创建一个文件时,我们已使一个流与一个文件相关联. 对于A ...

自己设计代理IP池

自己设计代理IP池的更多相关文章

随机推荐

热门专题