上一篇博客地址:python代理池的构建4——mongdb数据库的增删改查

一、对数据库里面代理ip检查(proxy_test.py)

#-*-coding:utf-8-*-
'''
目的:检查代理IP可用性,保证代理池中代理IP基本可用
思路
1.在proxy. _test.py中, 创建ProxyTester类 2.提供-一个run 方法,用于处理检测代理IP核心逻辑
2.1.从数据库中获取所有代理IP
2.2.遍历代理IP列表
2.3.检查代理可用性
如果代理不可用,让代理分数-1,如果代理分数等于0就从数据库中删除该代理,否则更新该代理IP
如果代理可用,就恢复该代理的分数,更新到数据库中 3.为了提高检查的速度,使用异步来执行检测任务
3.1把要检测的代理IP,放到队列中
3.2把检查一个代理可用性的代码,抽取到一一个方法中;从队列中获取代理IP,进行检查;检查完毕,
调度队列的task_done方法
3.3通过异步回调,使用死循环不断执行这个方法,
3.4开启多个一个异步任务,来处理代理IP的检测;可以通过配置文件指定异步数量 4.使用schedule 模块,每隔一定的时间,执行一-次检测任务
4.1定义类方法start ,用于启动检测模块
4.2在start方法中
创建本类对象
调用run方法
每间隔一定时间,执行一下run方法
'''
import sys
import time
import schedule
from queue import Queue
from gevent import monkey
monkey.patch_all() #打上猴子补丁,python代理池的构建3——爬取代理ip 里面有对应链接 from gevent.pool import Pool #导入代理池 sys.path.append("..")
from settings import MAX_SCORE,TEST_PROXIES_ASYNC_COUNT,TEST_PROXIES_INTERVAL
from proxy_validate.httpbin_validator import check_proxy
from db.mongo_pool import MongoPool class ProxyTest(object): def __init__(self):
self.mongo_pool = MongoPool()
self.coroutine_pool = Pool()
self.queue=Queue() #定义一个队列,用来放置mongdb数据库里面代理ip def __check_callback(self,temp):
#这个的意思就是一直等到队列里面没有代理ip了才停止执行self.__check_one这个函数
self.coroutine_pool.apply_async(self.__check_one,callback=self.__check_callback) def run(self):
proxies = self.mongo_pool.find_all() for proxy in proxies:
#print(proxy.__dict__)
self.queue.put(proxy)
#self.__check_one(proxy)
for i in range(TEST_PROXIES_ASYNC_COUNT):
#这个TEST_PROXIES_ASYNC_COUNT是一个变量,这个for就是来控制去检查ip是否可用最多开TEST_PROXIES_ASYNC_COUNT
#个数量的代理池,因为代理ip数据库中可能有好多,这样的话你给每一个代理ip都开一个协程。也会给系统带来很大负担
self.coroutine_pool.apply_async(self.__check_one,callback=self.__check_callback)
self.queue.join() #注意,这个是让先执行完的等一下没执行完得 def __check_one(self):
proxy = self.queue.get()
print(proxy.__dict__)
proxy = check_proxy(proxy)
if proxy.speed == -1:
proxy.score -= 1
if proxy.score == 0:
self.mongo_pool.delete_one(proxy)
else:
self.mongo_pool.update_one(proxy)
else:
proxy.score = MAX_SCORE
self.mongo_pool.update_proxy(proxy)
self.queue.task_done() @classmethod #类方法
def start(cls):
db = ProxyTest()
db.run()
schedule.every(TEST_PROXIES_INTERVAL).hours.do(db.run)
while True:
schedule.run_pending()
time.sleep(60) if __name__ == '__main__':
ProxyTest.start()

二、一些问题的解决

给一个python3队列讲解的链接(感觉还可以):https://www.cnblogs.com/dbf-/p/11118628.html

1.1 join

join 会在队列存在未完成任务时阻塞,等待队列无未完成任务,需要配合 task_done 使用

1.2task_done

执行一次 put 会让未完成任务 +1 ,但是执行 get 并不会让未完成任务 -1 ,需要使用 task_done 让未完成任务 -1 ,否则 join 就无法判断

1.3get

Queue.get(block=True, timeout=None)

get_nowait() = get(block=False)

阻塞 (就是你获取不到数据的意思)

当队列空了之后,get 就会阻塞,一直等待队列中有数据后再获取数据

1.4put

Queue.put(block=True, timeout=None)

block 用于设置是否阻塞, timeout 用于设置阻塞时等待时长

put_nowait() = put(block=False)

阻塞

当队列满了之后,put 就会阻塞,一直等待队列不再满时向里面添加数据

三、python代理池的构建的其他链接

python代理池的构建4——mongdb数据库的增删改查

python代理池的构建3——爬取代理ip

python代理池的构建2——代理ip是否可用的处理和检查

python代理池的构建1——代理IP类的构建,以及配置文件、日志文件、requests请求头

四、关于代码一些问题解决链接:

协程gevent模块和猴子补丁

python中schedule模块的简单使用 || importlib.import_module动态导入模块

Python中“*”和“**”的用法 || yield的用法 || ‘$in’和'$nin' || python @property的含义

python代理池的构建5——对mongodb数据库里面代理ip检查的更多相关文章

  1. python代理池的构建4——mongdb数据库的增删改查

    上一篇博客地址:python代理池的构建3--爬取代理ip 一.mongdb数据库的增删改查(Mongo_pool.py) #-*-coding:utf-8-*- ''' 实现代理池的数据库模块 ●作 ...

  2. python代理池的构建3——爬取代理ip

    上篇博客地址:python代理池的构建2--代理ip是否可用的处理和检查 一.基础爬虫模块(Base_spider.py) #-*-coding:utf-8-*- ''' 目标: 实现可以指定不同UR ...

  3. python代理池的构建2——代理ip是否可用的处理和检查

    上一篇博客地址:python代理池的构建1--代理IP类的构建,以及配置文件.日志文件.requests请求头 一.代理ip是否可用的处理(httpbin_validator.py) #-*-codi ...

  4. python代理池的构建1——代理IP类的构建,以及配置文件、日志文件、requests请求头

    一.整体结构 二.代理IP类的构建(domain.py文件) ''' 实现_ init_ 方法, 负责初始化,包含如下字段: ip: 代理的IP地址 port:代理IP的端口号 protocol: 代 ...

  5. 孤荷凌寒自学python第五十五天初识MongoDb数据库

    孤荷凌寒自学python第五十五天第一天初识MongoDb数据库 (完整学习过程屏幕记录视频地址在文末) 大家好,2019年新年快乐! 本来我想的是借新年第一天开始,正式尝试学习爬虫,结果今天偶然发现 ...

  6. python爬取大众点评并写入mongodb数据库和redis数据库

    抓取大众点评首页左侧信息,如图: 我们要实现把中文名字都存到mongodb,而每个链接存入redis数据库. 因为将数据存到mongodb时每一个信息都会有一个对应的id,那样就方便我们存入redis ...

  7. 小白学 Python 爬虫(31):自己构建一个简单的代理池

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...

  8. python爬虫(3)——用户和IP代理池、抓包分析、异步请求数据、腾讯视频评论爬虫

    用户代理池 用户代理池就是将不同的用户代理组建成为一个池子,随后随机调用. 作用:每次访问代表使用的浏览器不一样 import urllib.request import re import rand ...

  9. Python爬虫代理池

    爬虫代理IP池 在公司做分布式深网爬虫,搭建了一套稳定的代理池服务,为上千个爬虫提供有效的代理,保证各个爬虫拿到的都是对应网站有效的代理IP,从而保证爬虫快速稳定的运行,当然在公司做的东西不能开源出来 ...

随机推荐

  1. 【Spring】Spring的数据库开发 - 1、Spring JDBC的配置和Spring JdbcTemplate的解析

    Spring JDBC 文章目录 Spring JDBC Spring JdbcTemplate的解析 Spring JDBC的配置 简单记录-Java EE企业级应用开发教程(Spring+Spri ...

  2. 【Oracle】to_data() to_char()用法解析

    1.转换函数 与date操作关系最大的就是两个转换函数:to_date(),to_char()      to_date() 作用将字符类型按一定格式转化为日期类型:      具体用法:to_dat ...

  3. SWPU2019

    一.题目打开介绍 这是题目本身打开的样子,继续进入题目 二.做题 简单的登陆界面和注册界面,没有sql注入已经尝试 申请发布广告 习惯性的测试 然后开始尝试注入,抓包, 两个都要,经过union注入判 ...

  4. 记忆中的像素块褪色了吗?用开源的体素编辑器重新做个 3D 的吧!

    本文适合对图形表现有兴趣的美术或者开发人员 本文作者:HelloGitHub-Joey 早期的的显示设备像素颗粒较大,使得显示内容的颗粒感严重,像是由一堆方块组成的.比较好的例子就是 GBA 上的游戏 ...

  5. Jquery实现对Array数组实现类似Linq的Lambda表达式的Where方法筛选

    平时使用Linq,习惯了Lambda表达式,用着非常顺手,奈何在Jquery里面不能这样用,只能循环一个个判断.趁空闲时间找了找,自己写了这样的扩展方法.目前写出了三种方案,没有比较性能,觉得都可以用 ...

  6. Promise.all()使用实例

    一.什么是Promise.all()? 在说这个之前要先说清楚promise.promise就是一个对象,专门用来处理异步操作的. 而Promise.all方法用于将多个 Promise 实例,包装成 ...

  7. python中hmac模块的使用

    hmac(hex-based message authentication code)算法在计算哈希的过程中混入了key(实际上就是加盐),和hashlib模块中的普通加密算法相比,它能够防止密码被撞 ...

  8. spring boot 集成 websocket 实现消息主动

    来源:https://www.cnblogs.com/leigepython/p/11058902.html pom.xml 1 <?xml version="1.0" en ...

  9. 1.2V升5V电源芯片,1.2V升3V的IC电路图方案

    镍氢电池就是典型的1.2V供电电源了,但是1.2V电压太低,需要电源芯片来1.2V升5V输出,或1.2V升3V输出稳压,1.2V单独难给其他芯片或者模块供电,即使串联1.2V*2=2.4V,也是因为电 ...

  10. MATLAB中load和imread的读取方式区别

    load是导入文件,一般从mat文件中,读取的是结构体imread是图像处理工具箱的库函数,处理图像比较方便,读取的是矩阵 1.之前将数组或者矩阵保存为一个mat格式的文件,在进行load命令读取时: ...