IP 代理池

安装依赖

pip install -r requirements.txt

配置 Config/setting.py

# Config/setting.py 为项目配置文件

DB_TYPE = getenv('db_type', 'REDIS').upper()

DB_HOST = getenv('db_host', '127.0.0.1')

DB_PORT = getenv('db_port', 6379)

DB_PASSWORD = getenv('db_password', 'redis123')

""" 数据库配置 """

DATABASES = {

    "default": {

        "TYPE": DB_TYPE,

        "HOST": DB_HOST,

        "PORT": DB_PORT,

        "NAME": "proxy",

        "PASSWORD": DB_PASSWORD

    }

}

# 上面配置启动后，代理池访问地址为 http://127.0.0.1:5010

启动

# 如果你的依赖已经安装完成并且具备运行条件,可以在cli目录下通过ProxyPool.py启。动

# 程序分为: schedule 调度程序 和 webserver Api服务

# 首先启动调度程序

>>>python proxyPool.py schedule

# 然后启动webApi服务

>>>python proxyPool.py webserver

Docker

docker pull jhao104/proxy_pool

# 远程数据库

docker run --env db_type=REDIS --env db_host=x.x.x.x --env db_port=6379 --env db_password=pwd_str -p 5010:5010 jhao104/proxy_pool

# 宿主机上的数据库

docker run --env db_type=REDIS --env db_host=host.docker.internal --env db_port=6379 --env db_password=pwd_str -p 5010:5010 jhao104/proxy_pool

使用

启动过几分钟后就能看到抓取到的代理IP

api	method	Description	arg
/	GET	api介绍	None
/get	GET	随机获取一个代理	None
/get_all	GET	获取所有代理	None
/get_status	GET	查看代理数量	None
/delete	GET	删除代理

爬虫使用

如果要在爬虫代码中使用的话，可以将此api封装成函数直接使用，例如：

import requests

def get_proxy():

    return requests.get("http://127.0.0.1:5010/get/").json()

def delete_proxy(proxy):

    requests.get("http://127.0.0.1:5010/delete/?proxy={}".format(proxy))

# your spider code

def getHtml():

    # ....

    retry_count = 5

    proxy = get_proxy().get("proxy")

    while retry_count > 0:

        try:

            html = requests.get('http://www.example.com', proxies={"http": "http://{}".format(proxy)})

            # 使用代理访问

            return html

        except Exception:

            retry_count -= 1

    # 出错5次, 删除代理池中代理

    delete_proxy(proxy)

    return None

使用示例

IP 代理池的更多相关文章

开源IP代理池续——整体重构
开源IP代理池继上一篇开源项目IPProxys的使用之后,大家在github,我的公众号和博客上提出了很多建议.经过两周时间的努力,基本完成了开源IP代理池IPProxyPool的重构任务,业余时间 ...
记一次企业级爬虫系统升级改造（六）：基于Redis实现免费的IP代理池
前言: 首先表示抱歉,春节后一直较忙,未及时更新该系列文章. 近期,由于监控的站源越来越多,就偶有站源做了反爬机制,造成我们的SupportYun系统小爬虫服务时常被封IP,不能进行数据采集. 这时候 ...
爬取西刺ip代理池
好久没更新博客啦~,今天来更新一篇利用爬虫爬取西刺的代理池的小代码先说下需求,我们都是用python写一段小代码去爬取自己所需要的信息,这是可取的,但是,有一些网站呢,对我们的网络爬虫做了一些限制, ...
scrapy_随机ip代理池
什么是ip代理? 我们电脑访问网站,其实是访问远程的服务器,通过ip地址识别是那个机器访问了服务器,服务器就知道数据该返回给哪台机器,我们生活中所用的网络是局域网,ip是运营商随机分配的,是一种直接访 ...
Python爬虫之ip代理池
可能在学习爬虫的时候,遇到很多的反爬的手段,封ip 就是其中之一. 对于封IP的网站.需要很多的代理IP,去买代理IP,对于初学者觉得没有必要,每个卖代理IP的网站有的提供了免费IP,可是又很少,写了 ...
5 使用ip代理池爬取糗事百科
从09年读本科开始学计算机以来,一直在迷茫中度过,很想学些东西,做些事情,却往往陷进一些技术细节而蹉跎时光.直到最近几个月,才明白程序员的意义并不是要搞清楚所有代码细节,而是要有更宏高的方向,要有更专 ...
python开源IP代理池--IPProxys
今天博客开始继续更新,谢谢大家对我的关注和支持.这几天一直是在写一个ip代理池的开源项目.通过前几篇的博客,我们可以了解到突破反爬虫机制的一个重要举措就是代理ip.拥有庞大稳定的ip代理,在爬虫工作中 ...
python爬虫实战（三）--------搜狗微信文章（IP代理池和用户代理池设定----scrapy）
在学习scrapy爬虫框架中,肯定会涉及到IP代理池和User-Agent池的设定,规避网站的反爬. 这两天在看一个关于搜狗微信文章爬取的视频,里面有讲到ip代理池和用户代理池,在此结合自身的所了解的 ...
IP代理池之验证是否有效
IP代理池之验证是否有效把proxy pool项目跑起来,但也不知道这些ip怎么用,爬虫的时候是否用代理去爬取,下面通过一个例子来看看. 代码如下: import requests PROXY_PO ...
反爬虫之搭建IP代理池
反爬虫之搭建IP代理池听说你又被封 ip 了,你要学会伪装好自己,这次说说伪装你的头部.可惜加了header请求头,加了cookie 还是被限制爬取了.这时就得祭出IP代理池!!! 下面就是requ ...

随机推荐

必须返回对象时，别妄想返回其reference 【Effective C++ 条款21】
class Rational { public: Rational(, ) : n(numerator), d(denominator) { printf("Rational Constru ...
ABAP基础1：概念
包(Package)也称作开发类,是为了将程序等对象根据功能划分,进行区分和管理而导入的概念每一个开发对象,如程序.类,都要隶属一个包,包一般隶属于某一个模块每个包拥有一个CTS号,CTS号用于系 ...
binlog在并发状态下的记录
前两天看binlog发现个奇怪的地方:对于position靠后的记录,timestamp却比之前的记录还要小.当时觉得大概和并发有关系后来做了个实验开两个session 对于session1: b ...
一看就懂之吐血整理的 Docker 学习笔记
前言随着devops的兴起,Docker 近年来越来越火,容器化概念也越来越火.此篇将带你瞬间入门Docker. Docker 概述 Docker 出现的背景在我们的开发过程中,通常是这样的一种流 ...
pytest之fixture使用详解
简介: fixture区别于unnitest的传统单元测试(setup/teardown)有显著改进: 1.有独立的命名,并通过声明它们从测试函数.模块.类或整个项目中的使用来激活. 2.按模块化的方 ...
RabbitMq和ZeroMq
RabbitMQ和ZeroMQ都是极好的消息中间件,下我会对这两个消息中间件做一个比較,个人理解不喜勿喷. RabbitMQ是AMQP协议率先的一个实现,它实现了代理(Broker)架构,意味着消息在 ...
Hadoop 伪分布模式安装
( 温馨提示:图片中有id有姓名,不要盗用哦,可参考流程,有问题评论区留言哦 ) 一.任务目标 1.了解Hadoop的3种运行模式 2.熟练掌握Hadoop伪分布模式安装流程 3.培养独立完成Hado ...
GitHub+jsDelivr+PicGo 打造稳定快速、高效免费图床
标题: GitHub+jsDelivr+PicGo 打造稳定快速.高效免费图床作者: 梦幻之心星 347369787@QQ.com 标签: [GitHub, 图床] 目录: 图床日期: 2019- ...
C#线程并行线程
第五部分并行线程在本节中,我们将介绍Framework 4.0新增的利用多核处理器的多线程API: 并行LINQ或PLINQ Parallel 类任务并行性构造并发集合自旋锁和自旋等待 ...
15 . PythonWeb框架本质
PythonWeb框架的本质简单描述就是:浏览器通过你输入的网址给你的socket服务端发送请求,服务端接受到请求给其回复一个对应的html页面,这就是web项目.所有的Web应用本质上就是一个so ...

IP 代理池

IP 代理池的更多相关文章

随机推荐

热门专题