构建一个给爬虫使用的代理IP池

做网络爬虫时，一般对代理IP的需求量比较大。因为在爬取网站信息的过程中，很多网站做了反爬虫策略，可能会对每个IP做频次控制。这样我们在爬取网站时就需要很多代理IP。

代理IP的获取，可以从以下几个途径得到：

从免费的网站上获取，质量很低，能用的IP极少
购买收费的代理服务，质量高很多
自己搭建代理服务器，稳定，但需要大量的服务器资源。

本文的代理IP池是通过爬虫事先从多个免费网站上获取代理IP之后，再做检查判断IP是否可用，可用的话就存放到MongoDB中，最后展示到前端的页面上。

获取可用Proxy

获取代理的核心代码是ProxyManager，它采用RxJava2来实现，主要做了以下几件事：

创建ParallelFlowable，针对每一个提供免费代理IP的页面并行地抓取。对于不了解ParallelFlowable的同学，可以看我之前的文章RxJava 之 ParallelFlowable

Flowable.fromIterable(ProxyPool.proxyMap.keySet())

                .parallel()

针对每一个页面进行抓取，返回List<Proxy>

map(new Function<String, List<Proxy>>() {

                @Override

                public List<Proxy> apply(String s) throws Exception {

                    try {

                        return new ProxyPageCallable(s).call();

                    } catch (Exception e) {

                        e.printStackTrace();

                    }

                    return null;

                }

            })

对每一个页面获取的代理IP列表进行校验，判断是否可用

flatMap(new Function<List<Proxy>, Publisher<Proxy>>() {

                @Override

                public Publisher<Proxy> apply(List<Proxy> proxies) throws Exception {

                    if (proxies == null) return null;

                    List<Proxy> result = proxies

                            .stream()

                            .parallel()

                            .filter(new Predicate<Proxy>() {

                        @Override

                        public boolean test(Proxy proxy) {

                            HttpHost httpHost = new HttpHost(proxy.getIp(), proxy.getPort(), proxy.getType());

                            return HttpManager.get().checkProxy(httpHost);

                        }

                    }).collect(Collectors.toList());

                    return Flowable.fromIterable(result);

                }

            })

依次保存到proxyList

subscribe(new Consumer<Proxy>() {

                @Override

                public void accept(Proxy proxy) throws Exception {

                    log.debug("Result Proxy = "+proxy.getType()+"://"+proxy.getIp()+":"+proxy.getPort());

                    proxy.setLastSuccessfulTime(new Date().getTime());

                    ProxyPool.proxyList.add(proxy);

                }

            });

附上完整的流程图

再附上完整的ProxyManager代码：

import com.cv4j.proxy.domain.Proxy;

import com.cv4j.proxy.http.HttpManager;

import com.cv4j.proxy.task.ProxyPageCallable;

import io.reactivex.Flowable;

import io.reactivex.functions.Consumer;

import io.reactivex.functions.Function;

import lombok.extern.slf4j.Slf4j;

import org.apache.http.HttpHost;

import org.reactivestreams.Publisher;

import org.springframework.stereotype.Component;

import java.util.Date;

import java.util.List;

import java.util.function.Predicate;

import java.util.stream.Collectors;

/**

 * Created by tony on 2017/10/25.

 */

@Slf4j

@Component

public class ProxyManager {

    /**

     * 抓取代理，成功的代理存放到ProxyPool中

     */

    public void start() {

        Flowable.fromIterable(ProxyPool.proxyMap.keySet())

                .parallel()

                .map(new Function<String, List<Proxy>>() {

                    @Override

                    public List<Proxy> apply(String s) throws Exception {

                        try {

                            return new ProxyPageCallable(s).call();

                        } catch (Exception e) {

                            e.printStackTrace();

                        }

                        return null;

                    }

                })

                .flatMap(new Function<List<Proxy>, Publisher<Proxy>>() {

                    @Override

                    public Publisher<Proxy> apply(List<Proxy> proxies) throws Exception {

                        if (proxies == null) return null;

                        List<Proxy> result = proxies

                                .stream()

                                .parallel()

                                .filter(new Predicate<Proxy>() {

                            @Override

                            public boolean test(Proxy proxy) {

                                HttpHost httpHost = new HttpHost(proxy.getIp(), proxy.getPort(), proxy.getType());

                                return HttpManager.get().checkProxy(httpHost);

                            }

                        }).collect(Collectors.toList());

                        return Flowable.fromIterable(result);

                    }

                })

                .sequential()

                .subscribe(new Consumer<Proxy>() {

                    @Override

                    public void accept(Proxy proxy) throws Exception {

                        log.debug("Result Proxy = "+proxy.getType()+"://"+proxy.getIp()+":"+proxy.getPort());

                        proxy.setLastSuccessfulTime(new Date().getTime());

                        ProxyPool.proxyList.add(proxy);

                    }

                });

    }

}

定时任务

每隔几个小时跑一次定时任务，在抓取完任务之后先删除旧的数据，然后再把新的数据插入到MongoDB中。

import com.cv4j.proxy.ProxyManager;

import com.cv4j.proxy.ProxyPool;

import com.cv4j.proxy.dao.ProxyDao;

import com.cv4j.proxy.domain.Proxy;

import com.safframework.tony.common.utils.Preconditions;

import org.springframework.beans.factory.annotation.Autowired;

import org.springframework.scheduling.annotation.Scheduled;

import org.springframework.stereotype.Component;

import java.util.concurrent.CopyOnWriteArrayList;

/**

 * Created by tony on 2017/11/22.

 */

@Component

public class ScheduleJobs {

    @Autowired

    ProxyDao proxyDao;

    @Autowired

    ProxyManager proxyManager;

    /**

     * 每六个小时跑一次任务

     */

    @Scheduled(cron = "0 0 */6 * * ?")

    public void cronJob() {

        System.out.println("Job Start...");

        proxyManager.start();

        CopyOnWriteArrayList<Proxy> list = ProxyPool.proxyList;

        // 先删除旧的数据

        proxyDao.deleteAll();

        // 然后再进行插入新的proxy

        if (Preconditions.isNotBlank(list)) {

            for (Proxy p:list) {

                proxyDao.saveProxy(p);

            }

        }

        System.out.println("Job End...");

    }

}

展示到前端

整个项目使用Spring Boot搭建，运行起来之后本地访问地址：
http://localhost:8080/load?pagename=proxy_list

预览效果如下：

在使用前，还可以再做一次检测，只要双击某个代理IP即可。

在第二次检测时，对于已经失效的IP会被ProxyPool删除。

总结

在做爬虫时，自己维护一个可用的代理IP池是很有必要的事情，当然想要追求更高稳定性的代理IP还是考虑购买比较好。

最后，附上github地址：
https://github.com/fengzhizi715/ProxyPool

构建一个给爬虫使用的代理IP池的更多相关文章

基于后端和爬虫创建的代理ip池
搭建免费的代理ip池需要解决的问题: 使用什么方式存储ip 文件存储缺点: 打开文件修改文件操作较麻烦 mysql 缺点: 查询速度较慢 mongodb 缺点: 查询速度较慢. 没有查重功能 re ...
爬虫爬取代理IP池及代理IP的验证
最近项目内容需要引入代理IP去爬取内容. 为了项目持续运行,需要不断构造.维护.验证代理IP. 为了绕过服务端对IP 和频率的限制,为了阻止服务端获取真正的主机IP. 一.服务器如何获取客户端IP ...
python爬虫构建代理ip池抓取数据库的示例代码
爬虫的小伙伴,肯定经常遇到ip被封的情况,而现在网络上的代理ip免费的已经很难找了,那么现在就用python的requests库从爬取代理ip,创建一个ip代理池,以备使用. 本代码包括ip的爬取,检 ...
爬虫入门到放弃系列05：从程序模块设计到代理IP池
前言上篇文章吧啦吧啦讲了一些有的没的,现在还是回到主题写点技术相关的.本篇文章作为基础爬虫知识的最后一篇,将以爬虫程序的模块设计来完结. 在我漫(liang)长(nian)的爬虫开发生涯中,我通常将 ...
【python3】如何建立爬虫代理ip池
一.为什么需要建立爬虫代理ip池在众多的网站防爬措施中,有一种是根据ip的访问频率进行限制的,在某段时间内,当某个ip的访问量达到一定的阀值时,该ip会被拉黑.在一段时间内被禁止访问. 这种时候,可 ...
Python爬虫代理IP池
目录[-] 1.问题 2.代理池设计 3.代码模块 4.安装 5.使用 6.最后在公司做分布式深网爬虫,搭建了一套稳定的代理池服务,为上千个爬虫提供有效的代理,保证各个爬虫拿到的都是对应网站有效的代 ...
建立爬虫代理IP池
单线程构建爬虫代理IP池 #!/usr/bin/python3.5 # -*- coding:utf-8 -*- import time import tempfile from lxml impor ...
C#——做一个简单代理IP池
一.缘由. 抓取数据时,有一些网站设置了一些反爬虫设置,进而将自己本地 IP 地址拉入系统黑名单.从而达到禁止本地 IP 访问数据的请求. 二.思路. 根据其他代理 IP 网站,进行一个免费的代理 ...
Python爬虫教程-11-proxy代理IP，隐藏地址（猫眼电影）
Python爬虫教程-11-proxy代理IP,隐藏地址(猫眼电影) ProxyHandler处理(代理服务器),使用代理IP,是爬虫的常用手段,通常使用UserAgent 伪装浏览器爬取仍然可能被网 ...

随机推荐

Java学习：File类中的过滤器接口
javaIO类的File类应用:过滤器接口 FilenameFilter和FileFilter都是用来过滤文件的例如: 过滤以.jpg或者.java结尾的文件. 通过看他们的源码: 通过使用File ...
【C#进阶学习】泛型
一.泛型引入需求:传入一个类型(整型/日期/字符串或其他),打印出它的类型和内容. 1.初级版 public class CommonMethod { /// <summary> /// ...
PIE SDK打开自定义矢量数据
1. 数据介绍信息提取和解译的过程中,经常会生成一部分中间临时矢量数据,这些数据在执行完对应操作后就失去了存在的价值,针对这种情况,PIE增加了内存矢量数据集,来协助用户完成对自定义矢量数据的读取和 ...
HTTP STATUS 400 – BAD REQUEST ，SPRINGMVC错误
400大多为前台传的数据于后台接受数据不符合,注意Date数据类型最容易错. 然后需要调用实体类的空参构造方法,,注意创建了有参构造方法后,创建一个空参构造方法.
使用Vue CLI构建Vue项目
第一步:首先在控制台输入vue --version,如果出现版本号则进入第三步:否则进入第二步: 第二步:输入npm install cnpm -g --registry=https://regist ...
【转载】C#中Datatable修改列名
在C#的数据表格DataTable操作过程中,有时候会遇到修改DataTable数据表格的列名的需求,其实C#中的DataTable的列名支持手动修改调整,可以通过DataTable类的Columns ...
How to use VideoToolbox to decompress H.264 video stream
来源:http://stackoverflow.com/questions/29525000/how-to-use-videotoolbox-to-decompress-h-264-video-str ...
Alpha4
一.站立式会议照片二.工作进展 (1) 昨天已完成的工作 a. 实现用户登录时获取用户信息功能 b. 实现个人目标列表,允许用户在个人目标界面浏览已设置的目标 c. 继续实现目标广场列表 (2)今天 ...
外汇盈利EA
>>>>>>>>>>>>>>>>>>>>>>>>> ...
Mac Brew 安装及配置
mac 终端下,执行以下命令,即可安装brew: /usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homeb ...

构建一个给爬虫使用的代理IP池

构建一个给爬虫使用的代理IP池的更多相关文章

随机推荐

热门专题