维护爬虫代理IP池--采集并验证

任务分析

我们爬的免费代理来自于https://www.kuaidaili.com这个网站。用`requests`将ip地址与端口采集过来，将`IP`与`PORT`组合成`requests`需要的代理格式，用`requests`访问`[http://ipcheck.chinahosting.tk/][1]`，并判断返回的字符串是否是代理IP，若是，则代理IP有效，若不是，则代理IP无效。

数据采集现在已经成为了基本操作了，所以大家直接看代码就可以了，注释应该写的很清楚了。如果是个新手，那么可以看这篇文章：采集wordpress并自动发布文章，这篇文章看懂了，基本上全世界大部分的网站你就都能爬了。

这个站点http://ipcheck.chinahosting.tk/是我个人搭建的用来验证IP的，详情见文章：利用虚拟主机搭建一个验证爬虫代理IP是否有效的服务，大家如果自己用的话最好搭建一个，基本上10多分钟就能搭建完，并且只要点点鼠标。

代码实现

#首先，导入必要的包
import gevent.monkey
gevent.monkey.patch_socket()
import gevent
import requests
import time
from fake_useragent import UserAgent 
from lxml import etree
from bs4 import BeautifulSoup
import sys
reload(sys)
sys.setdefaultencoding('utf8')

#定义GetProxy类
class GetProxy():
        #初始化一些参数
	def __init__(self):
		self.ua = UserAgent()
		self.check_url = 'http://ipcheck.chinahosting.tk/'
		self.threads = []
		self.count = 0

        #定义download_page函数，用来请求一个url并且返回返回值
	def download_page(self, url):
		headers = {"User-Agent":self.ua.random}
		response = requests.get(url)
		print response.status_code
		return response.content

        #对页面进行数据清理
	def crawl_kuaidaili(self):
		for page in xrange(1,50):
			url = 'https://www.kuaidaili.com/free/inha/' + str(page)
			response = self.download_page(url)
			soup = BeautifulSoup(response, "html.parser")
			all_tr = soup.find_all('tr')
			for tr in all_tr:
				ip = tr.find('td',attrs={"data-title":"IP"})
				port = tr.find('td',attrs={"data-title":"PORT"})
				if ip==None or port==None:
					pass
				else:
					#print "http://"+ip.get_text()+":"+port.get_text()
					self.threads.append(gevent.spawn(self.valid_check, [ip.get_text(), port.get_text()]))
					#print "add a task"
			time.sleep(1)

        #验证爬虫的有效性
	def valid_check(self, *arg):
		ip = arg[0][0]
		port = arg[0][5]
		proxyip = "http://"+ip+":"+port
		proxy={"http":proxyip}
		try:
			response = requests.get(self.check_url, proxies=proxy, timeout=5)
			#print response.content
			if str(response.content) == ip:
				print ip
				self.count = self.count + 1
			else:
				pass
		except:
			pass

        #启动爬虫
	def start(self):
		self.crawl_kuaidaili()
		gevent.joinall(self.threads)

维护爬虫代理IP池--采集并验证的更多相关文章

【python3】如何建立爬虫代理ip池
一.为什么需要建立爬虫代理ip池在众多的网站防爬措施中,有一种是根据ip的访问频率进行限制的,在某段时间内,当某个ip的访问量达到一定的阀值时,该ip会被拉黑.在一段时间内被禁止访问. 这种时候,可 ...
建立爬虫代理IP池
单线程构建爬虫代理IP池 #!/usr/bin/python3.5 # -*- coding:utf-8 -*- import time import tempfile from lxml impor ...
Python爬虫代理IP池
目录[-] 1.问题 2.代理池设计 3.代码模块 4.安装 5.使用 6.最后在公司做分布式深网爬虫,搭建了一套稳定的代理池服务,为上千个爬虫提供有效的代理,保证各个爬虫拿到的都是对应网站有效的代 ...
可能是一份没什么用的爬虫代理IP指南
写在前面做爬虫的小伙伴一般都绕不过代理IP这个问题. PS:如果还没遇到被封IP的场景,要不就是你量太小人家懒得理你,要不就是人家压根不在乎... 爬虫用户自己是没有能力维护一系列的代理服务器和代理 ...
利用代理IP池(proxy pool)搭建免费ip代理和api
先看这里!!!---->转载:Python爬虫代理IP池(proxy pool) WIIN10安装中遇到的问题: 一.先安装Microsoft Visual C++ Compiler for P ...
构建一个给爬虫使用的代理IP池
做网络爬虫时,一般对代理IP的需求量比较大.因为在爬取网站信息的过程中,很多网站做了反爬虫策略,可能会对每个IP做频次控制.这样我们在爬取网站时就需要很多代理IP. 代理IP的获取,可以从以下几个途径 ...
爬虫入门到放弃系列05：从程序模块设计到代理IP池
前言上篇文章吧啦吧啦讲了一些有的没的,现在还是回到主题写点技术相关的.本篇文章作为基础爬虫知识的最后一篇,将以爬虫程序的模块设计来完结. 在我漫(liang)长(nian)的爬虫开发生涯中,我通常将 ...
基于后端和爬虫创建的代理ip池
搭建免费的代理ip池需要解决的问题: 使用什么方式存储ip 文件存储缺点: 打开文件修改文件操作较麻烦 mysql 缺点: 查询速度较慢 mongodb 缺点: 查询速度较慢. 没有查重功能 re ...
python爬虫构建代理ip池抓取数据库的示例代码
爬虫的小伙伴,肯定经常遇到ip被封的情况,而现在网络上的代理ip免费的已经很难找了,那么现在就用python的requests库从爬取代理ip,创建一个ip代理池,以备使用. 本代码包括ip的爬取,检 ...

随机推荐

JDK8源码阅读之Collection及相关方法
最近面试总会被问到JDK8中的一些新特性,所以闲下来抽时间看了一下8的源码,目前主要看的是数据结构部分,特此记录一下. 新增函数式接口,实现该接口的可以直接用lambda表达式. default和st ...
（一）ORB描述子提取
ORBSLAM2中使用ORB描述子的方法经典的视觉SLAM系统大体分为两种:其一是基于特征点法的,其二是基于直接法的.那么本文主要就讲特征点法的SLAM. 基于特征点法的视觉SLAM系统典型的有PT ...
JavaScript—var lef const区别
今天刚刚学JavaScript 因为以前学过.学起来也就轻松.今天在练习.流程控制语句的时候,用WebStrom 写的时候 var 声明变量的时候下面老是有一条白线.开始以为是开发环境有问题然后, ...
jmeter分布式测试教程和远程的代理机无法连接网络的问题解决方法
一.Jmeter分布式执行原理: 1.Jmeter分布式测试时,选择其中一台作为控制机(Controller),其它机器做为代理机(Agent). 2.执行时,Controller会把脚本发送到每台A ...
封装selenium自动化框架中的截图功能
对selenium自带的截图功能进行封装: 以下为封装的代码,自定义一个.py文件即可,图片路径自己设置一个. #coding:utf-8 class Screen(object): ''' 封装的截 ...
从基本理解到深入探究 Linux kernel 通知链（notifier chain）【转】
转自:https://blog.csdn.net/u014134180/article/details/86563754 版权声明:本文为博主原创文章,未经博主允许不得转载.——Wu_Being ht ...
04mycat数据切分
自定义切分文件 [root@mycat mycat]# cat conf/customer-hash-int.txt 101=0 102=0 103=0 104=1 105=1 106=1 Rule. ...
db2数据库备份与恢复
备份先停掉Tomcat,然后在机器A上执行以下语句: db2stop force db2start db2 force application all db2 backup database pos ...
struts2 学习01
知识补充: Java 平台有三个版本,这使软件开发人员.服务提供商和设备生产商可以针对特定的市场进行开发: * Java SE(Java Platform,Standard Edition).Java ...
java：包、继承，访问修饰符
包包(package) 用于管理程序中的类,主要用于解决类的同名问题.包可以看出目录. 包的作用 [1] 防止命名冲突. [2] 允许类组成一个单元(模块),便于管理和维护 [3] 更好的保护类.属 ...

维护爬虫代理IP池--采集并验证

任务分析

代码实现

维护爬虫代理IP池--采集并验证的更多相关文章

随机推荐

热门专题