IP池验证IP是否可用及scrapy使用 ip池

简单验证

import requests

url = "http://www.baidu.com/"
proxies = {"http": "http://x.x.x.x:端口号码"}
#空白位置为测试代理ip和代理ip使用端口

headers = {"User-Agent": "Mozilla/5.0"}
#响应头
res = requests.get(url, proxies=proxies, headers=headers)
#发起请求
print(res.status_code) #返回响应码

正常有效的可用代理ip返回的应该是响应码200 并添加到数据库

***************************************************************************************

抓取www.xicidaili 并保存到文本

import requestsfrom bs4 import BeautifulSoupimport lxmlfrom multiprocessing import Process, Queueimport randomimport jsonimport timeimport requests

class Proxies(object):

    """docstring for Proxies"""    def __init__(self, page=3):        self.proxies = []        self.verify_pro = []        self.page = page        self.headers = {        'Accept': '*/*',        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)   Chrome/45.0.2454.101 Safari/537.36',        'Accept-Encoding': 'gzip, deflate, sdch',        'Accept-Language': 'zh-CN,zh;q=0.8'        }        self.get_proxies()        self.get_proxies_nn()

    def get_proxies(self):        page = random.randint(1,10)        page_stop = page + self.page        while page < page_stop:            url = 'http://www.xicidaili.com/nt/%d' % page            html = requests.get(url, headers=self.headers).content            soup = BeautifulSoup(html, 'lxml')            ip_list = soup.find(id='ip_list')            for odd in ip_list.find_all(class_='odd'):                protocol = odd.find_all('td')[5].get_text().lower()+'://'                self.proxies.append(protocol + ':'.join([x.get_text() for x in odd.find_all('td')[1:3]]))            page += 1

    def get_proxies_nn(self):        page = random.randint(1,10)        page_stop = page + self.page        while page < page_stop:            url = 'http://www.xicidaili.com/nn/%d' % page            html = requests.get(url, headers=self.headers).content            soup = BeautifulSoup(html, 'lxml')            ip_list = soup.find(id='ip_list')            for odd in ip_list.find_all(class_='odd'):                protocol = odd.find_all('td')[5].get_text().lower() + '://'                self.proxies.append(protocol + ':'.join([x.get_text() for x in odd.find_all('td')[1:3]]))            page += 1

    def verify_proxies(self):        # 没验证的代理        old_queue = Queue()        # 验证后的代理        new_queue = Queue()        print ('verify proxy........')        works = []        for _ in range(15):             works.append(Process(target=self.verify_one_proxy, args=(old_queue,new_queue)))        for work in works:            work.start()        for proxy in self.proxies:            old_queue.put(proxy)        for work in works:            old_queue.put(0)        for work in works:            work.join()        self.proxies = []        while 1:            try:                self.proxies.append(new_queue.get(timeout=1))            except:                break        print ('verify_proxies done!')

    def verify_one_proxy(self, old_queue, new_queue):        while 1:            proxy = old_queue.get()            if proxy == 0:break            protocol = 'https' if 'https' in proxy else 'http'            proxies = {protocol: proxy}            try:                if requests.get('http://www.baidu.com', proxies=proxies, timeout=2).status_code == 200:                    print ('success %s' % proxy)                    new_queue.put(proxy)            except:                print ('fail %s' % proxy)

if __name__ == '__main__':    a = Proxies()    a.verify_proxies()    print (a.proxies)    proxie = a.proxies    with open('proxies.txt', 'a') as f:        for proxy in proxie:             f.write(proxy+'\n')

中间件处理

import randomimport scrapyfrom scrapy import logimport time

# logger = logging.getLogger()

class ProxyMiddleWare(object):    """docstring for ProxyMiddleWare"""    def process_request(self,request, spider):        '''对request对象加上proxy'''        proxy = self.get_random_proxy()        print("this is request ip:"+proxy)        request.meta['proxy'] = proxy

    def process_response(self, request, response, spider):        '''对返回的response处理'''        # 如果返回的response状态不是200，重新生成当前request对象        if response.status != 200:            proxy = self.get_random_proxy()            print("this is response ip:"+proxy)            # 对当前reque加上代理            request.meta['proxy'] = proxy            return request        return response

    def get_random_proxy(self):        '''随机从文件中读取proxy'''        while 1:            with open('.\proxies.txt', 'r') as f:                proxies = f.readlines()                if proxies:                    break                else:                    time.sleep(1)        proxy = random.choice(proxies).strip()        return proxy

setting中修改中间件

DOWNLOADER_MIDDLEWARES = {
 #    'youx.middlewares.MyCustomDownloaderMiddleware': 543,
     'scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware':None,
     'youx.middlewares.ProxyMiddleWare':125,
     'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware':None
}

参考:https://www.jianshu.com/p/8449b9c397bb?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation

IP池验证IP是否可用及scrapy使用 ip池的更多相关文章

写一个scrapy中间件--ip代理池
middleware文件 # -*- coding: utf-8 -*- # Define here the models for your spider middleware # See docum ...
Scrapy 代理IP
Scrapy 代理IP 一.Scarpy使用代理IP 1.在setting.py 配置代理服务器IP 2.在middlermares.py 配置 downloadmiddlermare(下载中间件) ...
python-爬免费ip并验证其可行性
前言最近在重新温习python基础-正则,感觉正则很强大,不过有点枯燥,想着,就去应用正则,找点有趣的事玩玩 00xx01---代理IP 有好多免费的ip,不过一个一个保存太难了,也不可能,还是用我 ...
scrapy设置"请求池"
scrapy设置"请求池" 引言相信大家有时候爬虫发出请求的时候会被ban,返回的是403错误,这个就是请求头的问题,其实在python发出请求时,使用的是默认的自己的请求头,网 ...
scrapy的UA池和代理池
一.下载中间件(Downloader Middlewares) 框架图如下下载中间件(Downloader Middlewares)位于scrapy引擎和下载器之间的一层组件. - 作用: (1)引 ...
《TCP/IP具体解释卷2：实现》笔记--IP多播
D类IP地址(224.0.0.0到239.255.255.255)不识别互联网内的单个接口,但识别接口组,被称为多播组. 单个网络上的组成员利用IGMP协议在系统之间通信. 多播路由器用多播选录协议. ...
TCP/IP协议原理与应用笔记05：TCP/IP协议下的网关
大家都知道,从一个房间走到另一个房间,必然要经过一扇门.同样,从一个网络向另一个网络发送信息,也必须经过一道“关口”,这道关口就是网关.顾名思义,网关(Gateway)就是一个网络连接到另一个网络的& ...
《TCP/IP具体解释卷2：实现》笔记--IP：网际协议
本章介绍IP分组的结构和主要的IP处理过程,包含输入,转发和输出. 下图显示了IP层常见的组织形式. 在之前的文章中.我们看到了网络接口怎样把到达的IP分组放到IP输入队列ipintrq中去,并怎样调 ...
11月10日上午ajax基础知识、用ajax做登录页面、用ajax验证用户名是否可用、ajax动态调用数据库
1.ajax的基础知识 ajax是结合了jquery.php等几种技术延伸出来的综合运用的技术,不是新的内容.ajax也是写在<script>标签里面的. 如果使用ajax一定是要有1个处 ...

随机推荐

Mybatis集成Oracle
首先需要导入Oracle的驱动,这部分会有一个天坑 Maven无法直接将我们所需的Oracle驱动加入项目中,手动加入依赖也是无效(原因还在分析),而且驱动无效如果不注意的话是看不出来的,他不会在编译 ...
浅谈兔兔对Object.defineProperty的理解
给一个对象定义一个新的属性或者在修改一个对象现有的属性,并返回这个对象语法: Object.defineProperty(参数1,参数2,参数3) 参数1:目标对象参数2:要修改或者添加的属性名称 ...
学习笔记（三）--Lucene分词器详解
Lucene-分词器API org.apache.lucene.analysi.Analyzer 分析器,分词器组件的核心API,它的职责:构建真正对文本进行分词处理的TokenStream(分词处理 ...
robotframework之去除空格、去掉前面的0、增加空格换行符的方法，两个字符之间的拼接
1.去除空格 A)若需要去除两个拼接字符之间的空格,可以使用robotframework中的关键词Catenate,需要注意的是SEPARATOR=一定需要大写 B)若在一个字符串中存在空格,且需要去 ...
旋转数组的最小数字（JAVA）
旋转数组的最小数字题目描述把一个数组最开始的若干个元素搬到数组的末尾,我们称之为数组的旋转. 输入一个非递减排序的数组的一个旋转,输出旋转数组的最小元素. 例如数组{3,4,5,1,2}为{1,2 ...
获取【请求体】数据的3种方式（精）（文末代码） request.getInputStream() request.getInputStream() request.getReader()
application/x- www-form-urlencoded是Post请求默认的请求体内容类型,也是form表单默认的类型.Servlet API规范中对该类型的请求内容提供了request. ...
dubbo 中文官网
根大家分享一下:dubbo的中文官网迁移到了githup上地址:https://dubbo.gitbooks.io/dubbo-user-book/content/preface/background ...
linux下目录简介——/SElinux
一.前言安全增强型 Linux(Security-Enhanced Linux)简称 SELinux,它是一个 Linux 内核模块,也是 Linux 的一个安全子系统. SELinux 主要由美国 ...
obs源码uml
freemaker学习
1,依赖 <dependency> <groupId>org.springframework.b ...

IP池验证IP是否可用 及scrapy使用 ip池

IP池验证IP是否可用 及scrapy使用 ip池的更多相关文章

随机推荐

热门专题

IP池验证IP是否可用及scrapy使用 ip池

IP池验证IP是否可用及scrapy使用 ip池的更多相关文章