scrapy--ipproxy

不要急于求成,你只要做的是比昨天的你更优秀一点

　　　　　　　　　　　　　　　　　　　　　　　--匿名

今天给大家讲一下--IpProxy,由于从"http://www.xicidaili.com/nn"爬取,以下是我转载的博客

https://www.jianshu.com/p/8975a3997ab6

需要解决的问题

1.ip,端口和协议都是在静态页面中爬取

2.验证代理ip是否可用

这里就给大家看看爬取的代码怎么写,其他的配置可以看我之前的博客,具体代码可以进我的GitHub:。QAQ!!

# -*- coding: utf-8 -*-

import scrapy

from Iproxy.items import IproxyItem

import pdb

from Iproxy.settings import USER_AGENT

import re

from scrapy.linkextractors import LinkExtractor

import telnetlib

class IproxySpider(scrapy.Spider):

    name = 'iproxy'

    allowed_domains = ['www.xicidaili.com']

    start_urls = ['http://www.xicidaili.com/nn']

    headers = {

        'Accept': 'application/json, text/javascript, */*; q=0.01',

        'Accept-Encoding': 'gzip, deflate',

        'Accept-Language': 'zh-CN,zh;q=0.8',

        'Connection': 'keep-alive',

        'Content-Length': '',

        'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',

        'Host': 'www.xicidaili.com',

        'Origin': 'www.xicidaili.com',

        'Referer': 'http://www.xicidaili.com/',

        'User-Agent': USER_AGENT,

        'X-Requested-With': 'XMLHttpRequest',

    }

    #验证ip代理是否可用

    def telnet(self,item):

        try:

            telnetlib.Telnet(item['origin_ip'], port=item['port'], timeout=10.0)

        except:

            print('connect failure')

            return False

        else:

            print('conncet success')

            return True

    def parse(self, response):

        iplist = IproxyItem()

        sels = response.xpath('//tr[@class="odd"]')

        items = {}

        for sel in sels:

            ips     = sel.xpath('./td[2]').extract()[0].encode('utf8')

            ports   = sel.xpath('./td[3]').extract()[0].encode('utf8')

            types   = sel.xpath('./td[6]').extract()[0].encode('utf8')

            type    = re.findall(r'\>(.*?)\<',types)[0]

            #获取ip代理协议,低址,端口

            if type == 'HTTP':

                #items = 'http://' + re.findall(r'\>(.*?)\<',ips)[0] +':'+re.findall(r'\>(.*?)\<',ports)[0]

                items['origin_ip'] = re.findall(r'\>(.*?)\<',ips)[0]

                items['port']      = re.findall(r'\>(.*?)\<',ports)[0]

                if self.telnet(items):

                    iplist['ip_name'] = 'http://' + re.findall(r'\>(.*?)\<',ips)[0]

                    iplist['port']    = re.findall(r'\>(.*?)\<',ports)[0]

            if type == 'HTTPS':

                items['origin_ip'] = re.findall(r'\>(.*?)\<', ips)[0]

                items['port'] = re.findall(r'\>(.*?)\<', ports)[0]

                #items = 'https://' + re.findall(r'\>(.*?)\<', ips)[0] +':'+re.findall(r'\>(.*?)\<', ports)[0]

                if self.telnet(items):

                    iplist['ip_name'] = 'https://' + re.findall(r'\>(.*?)\<',ips)[0]

                    iplist['port']    = re.findall(r'\>(.*?)\<', ports)[0]

            print iplist

            yield iplist

        #获取页面链接url

        links = LinkExtractor(restrict_css='div.pagination')

        for link in links.extract_links(response):

            yield scrapy.Request(link.url,callback=self.parse)

scrapy--ipproxy的更多相关文章

Scrapy学习篇（十二）之设置随机IP代理（IPProxy）
当我们需要大量的爬取网站信息时,除了切换User-Agent之外,另外一个重要的方式就是设置IP代理,以防止我们的爬虫被拒绝,下面我们就来演示scrapy如何设置随机IPProxy. 设置随机IPPr ...
Scrapy实战篇（五）之爬取历史天气数据
本篇文章我们以抓取历史天气数据为例,简单说明数据抓取的两种方式: 1.一般简单或者较小量的数据需求,我们以requests(selenum)+beautiful的方式抓取数据 2.当我们需要的数据量较 ...
大型分布式爬虫准备 scrapy + request
那些高手爬虫好文而我避免这些问题的方式,控制台清除所有定时 var id = setInterval(function() {}, 0); while (id--) clearInterval(i ...
Scrapy框架爬虫初探——中关村在线手机参数数据爬取
关于Scrapy如何安装部署的文章已经相当多了,但是网上实战的例子还不是很多,近来正好在学习该爬虫框架,就简单写了个Spider Demo来实践.作为硬件数码控,我选择了经常光顾的中关村在线的手机页面 ...
scrapy爬虫docker部署
spider_docker 接我上篇博客,为爬虫引用创建container,包括的模块:scrapy, mongo, celery, rabbitmq,连接https://github.com/Liu ...
scrapy 知乎用户信息爬虫
zhihu_spider 此项目的功能是爬取知乎用户信息以及人际拓扑关系,爬虫框架使用scrapy,数据存储使用mongo,下载这些数据感觉也没什么用,就当为大家学习scrapy提供一个例子吧.代码地 ...
ubuntu 下安装scrapy
1.把Scrapy签名的GPG密钥添加到APT的钥匙环中: sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 6272 ...
网络爬虫：使用Scrapy框架编写一个抓取书籍信息的爬虫服务
上周学习了BeautifulSoup的基础知识并用它完成了一个网络爬虫( 使用Beautiful Soup编写一个爬虫系列随笔汇总 ), BeautifulSoup是一个非常流行的Python网 ...
Scrapy:为spider指定pipeline
当一个Scrapy项目中有多个spider去爬取多个网站时,往往需要多个pipeline,这时就需要为每个spider指定其对应的pipeline. [通过程序来运行spider],可以通过修改配置s ...
scrapy cookies：将cookies保存到文件以及从文件加载cookies
我在使用scrapy模拟登录新浪微博时,想将登录成功后的cookies保存到本地,下次加载它实现直接登录,省去中间一系列的请求和POST等.关于如何从本次请求中获取并在下次请求中附带上cookies的 ...

随机推荐

Intellij IDEA +genymotion安装配置
Intellij IDEA是一款非常好用的java编辑器,比Eclipse的代码提示要友善的多,优缺点不多讲了. 下面讲如何安装配置. 1)如官网下载最新版本 http://www.jetbrains ...
web相关知识
1,网络编程/网站编程:敲一个网站,别人可以访问访问:在地址栏里面敲入地址,就可以访问了. 服务器如果放在公网,那么别人就可以通过IP地址进行访问所以我们可以先在本地把我们的网站搭好,别人就可以来 ...
jq获取页面距离
$(window).height() //获取的是当前可视窗口的高度,也就是用户能看到的窗口的高度,是不变的(在窗口大小不变的前提下) $(document).height() //获取的是窗口内文档 ...
Android串口操作，简化android-serialport-api的demo(转载)
原帖地址:点击打开最近在做android串口的开发,找到一个开源的串口类android-serialport-api.其主页在这里http://code.google.com/p/android-s ...
洛谷P4925 [1007]Scarlet的字符串不可能这么可爱(计数)
题意题目链接 Sol 只要知道"回文连续子串"就能做了吧.. 想要满足这个条件,肯定是不能出现$aa$或$aba$这种情况如果没有$S$的限制,答案为\(K * ( ...
mongodb客户端操作常用命令
一启动mongodb数据库mongod --dbpath E:\mongo\data\db(这里些自己的mongodb数据库存放目录)二客户端操作1.显示数据库集合show dbs2.新建数据库use ...
GDB多线程调试分析
0x00: 在Linux系统上Gdb提供了一组多线程调试命令,如表所示: 多线程调试的主要任务是准确及时地捕捉被调试程序线程状态的变化的事件,并且GDB针对根据捕捉到的事件做出相应的操作,其实最终的结 ...
jquery-ui sortable 排序
https://blog.csdn.net/u013066244/article/details/51954198 <link ref="stylesheet" href ...
springboot/springmvc转换器
常用的转换器 String转Date转换器(用于接受日期参数自动转换成Date类型便于后台数据处理) /** * 全局handler前日期统一处理 * @author zhanghang * @dat ...
java,eclipse中如何添加httpclient.jar
1.Download 'Binary' package of the latest official release from the project download page. There sho ...

scrapy--ipproxy

scrapy--ipproxy的更多相关文章

随机推荐

热门专题