构建一个给爬虫使用的代理IP池

做网络爬虫时，一般对代理IP的需求量比较大。因为在爬取网站信息的过程中，很多网站做了反爬虫策略，可能会对每个IP做频次控制。这样我们在爬取网站时就需要很多代理IP。

代理IP的获取，可以从以下几个途径得到：

从免费的网站上获取，质量很低，能用的IP极少
购买收费的代理服务，质量高很多
自己搭建代理服务器，稳定，但需要大量的服务器资源。

本文的代理IP池是通过爬虫事先从多个免费网站上获取代理IP之后，再做检查判断IP是否可用，可用的话就存放到MongoDB中，最后展示到前端的页面上。

获取可用Proxy

获取代理的核心代码是ProxyManager，它采用RxJava2来实现，主要做了以下几件事：

创建ParallelFlowable，针对每一个提供免费代理IP的页面并行地抓取。对于不了解ParallelFlowable的同学，可以看我之前的文章RxJava 之 ParallelFlowable

Flowable.fromIterable(ProxyPool.proxyMap.keySet())

                .parallel()

针对每一个页面进行抓取，返回List<Proxy>

map(new Function<String, List<Proxy>>() {

                @Override

                public List<Proxy> apply(String s) throws Exception {

                    try {

                        return new ProxyPageCallable(s).call();

                    } catch (Exception e) {

                        e.printStackTrace();

                    }

                    return null;

                }

            })

对每一个页面获取的代理IP列表进行校验，判断是否可用

flatMap(new Function<List<Proxy>, Publisher<Proxy>>() {

                @Override

                public Publisher<Proxy> apply(List<Proxy> proxies) throws Exception {

                    if (proxies == null) return null;

                    List<Proxy> result = proxies

                            .stream()

                            .parallel()

                            .filter(new Predicate<Proxy>() {

                        @Override

                        public boolean test(Proxy proxy) {

                            HttpHost httpHost = new HttpHost(proxy.getIp(), proxy.getPort(), proxy.getType());

                            return HttpManager.get().checkProxy(httpHost);

                        }

                    }).collect(Collectors.toList());

                    return Flowable.fromIterable(result);

                }

            })

依次保存到proxyList

subscribe(new Consumer<Proxy>() {

                @Override

                public void accept(Proxy proxy) throws Exception {

                    log.debug("Result Proxy = "+proxy.getType()+"://"+proxy.getIp()+":"+proxy.getPort());

                    proxy.setLastSuccessfulTime(new Date().getTime());

                    ProxyPool.proxyList.add(proxy);

                }

            });

附上完整的流程图

再附上完整的ProxyManager代码：

import com.cv4j.proxy.domain.Proxy;

import com.cv4j.proxy.http.HttpManager;

import com.cv4j.proxy.task.ProxyPageCallable;

import io.reactivex.Flowable;

import io.reactivex.functions.Consumer;

import io.reactivex.functions.Function;

import lombok.extern.slf4j.Slf4j;

import org.apache.http.HttpHost;

import org.reactivestreams.Publisher;

import org.springframework.stereotype.Component;

import java.util.Date;

import java.util.List;

import java.util.function.Predicate;

import java.util.stream.Collectors;

/**

 * Created by tony on 2017/10/25.

 */

@Slf4j

@Component

public class ProxyManager {

    /**

     * 抓取代理，成功的代理存放到ProxyPool中

     */

    public void start() {

        Flowable.fromIterable(ProxyPool.proxyMap.keySet())

                .parallel()

                .map(new Function<String, List<Proxy>>() {

                    @Override

                    public List<Proxy> apply(String s) throws Exception {

                        try {

                            return new ProxyPageCallable(s).call();

                        } catch (Exception e) {

                            e.printStackTrace();

                        }

                        return null;

                    }

                })

                .flatMap(new Function<List<Proxy>, Publisher<Proxy>>() {

                    @Override

                    public Publisher<Proxy> apply(List<Proxy> proxies) throws Exception {

                        if (proxies == null) return null;

                        List<Proxy> result = proxies

                                .stream()

                                .parallel()

                                .filter(new Predicate<Proxy>() {

                            @Override

                            public boolean test(Proxy proxy) {

                                HttpHost httpHost = new HttpHost(proxy.getIp(), proxy.getPort(), proxy.getType());

                                return HttpManager.get().checkProxy(httpHost);

                            }

                        }).collect(Collectors.toList());

                        return Flowable.fromIterable(result);

                    }

                })

                .sequential()

                .subscribe(new Consumer<Proxy>() {

                    @Override

                    public void accept(Proxy proxy) throws Exception {

                        log.debug("Result Proxy = "+proxy.getType()+"://"+proxy.getIp()+":"+proxy.getPort());

                        proxy.setLastSuccessfulTime(new Date().getTime());

                        ProxyPool.proxyList.add(proxy);

                    }

                });

    }

}

定时任务

每隔几个小时跑一次定时任务，在抓取完任务之后先删除旧的数据，然后再把新的数据插入到MongoDB中。

import com.cv4j.proxy.ProxyManager;

import com.cv4j.proxy.ProxyPool;

import com.cv4j.proxy.dao.ProxyDao;

import com.cv4j.proxy.domain.Proxy;

import com.safframework.tony.common.utils.Preconditions;

import org.springframework.beans.factory.annotation.Autowired;

import org.springframework.scheduling.annotation.Scheduled;

import org.springframework.stereotype.Component;

import java.util.concurrent.CopyOnWriteArrayList;

/**

 * Created by tony on 2017/11/22.

 */

@Component

public class ScheduleJobs {

    @Autowired

    ProxyDao proxyDao;

    @Autowired

    ProxyManager proxyManager;

    /**

     * 每六个小时跑一次任务

     */

    @Scheduled(cron = "0 0 */6 * * ?")

    public void cronJob() {

        System.out.println("Job Start...");

        proxyManager.start();

        CopyOnWriteArrayList<Proxy> list = ProxyPool.proxyList;

        // 先删除旧的数据

        proxyDao.deleteAll();

        // 然后再进行插入新的proxy

        if (Preconditions.isNotBlank(list)) {

            for (Proxy p:list) {

                proxyDao.saveProxy(p);

            }

        }

        System.out.println("Job End...");

    }

}

展示到前端

整个项目使用Spring Boot搭建，运行起来之后本地访问地址：
http://localhost:8080/load?pagename=proxy_list

预览效果如下：

在使用前，还可以再做一次检测，只要双击某个代理IP即可。

在第二次检测时，对于已经失效的IP会被ProxyPool删除。

总结

在做爬虫时，自己维护一个可用的代理IP池是很有必要的事情，当然想要追求更高稳定性的代理IP还是考虑购买比较好。

最后，附上github地址：
https://github.com/fengzhizi715/ProxyPool

构建一个给爬虫使用的代理IP池的更多相关文章

基于后端和爬虫创建的代理ip池
搭建免费的代理ip池需要解决的问题: 使用什么方式存储ip 文件存储缺点: 打开文件修改文件操作较麻烦 mysql 缺点: 查询速度较慢 mongodb 缺点: 查询速度较慢. 没有查重功能 re ...
爬虫爬取代理IP池及代理IP的验证
最近项目内容需要引入代理IP去爬取内容. 为了项目持续运行,需要不断构造.维护.验证代理IP. 为了绕过服务端对IP 和频率的限制,为了阻止服务端获取真正的主机IP. 一.服务器如何获取客户端IP ...
python爬虫构建代理ip池抓取数据库的示例代码
爬虫的小伙伴,肯定经常遇到ip被封的情况,而现在网络上的代理ip免费的已经很难找了,那么现在就用python的requests库从爬取代理ip,创建一个ip代理池,以备使用. 本代码包括ip的爬取,检 ...
爬虫入门到放弃系列05：从程序模块设计到代理IP池
前言上篇文章吧啦吧啦讲了一些有的没的,现在还是回到主题写点技术相关的.本篇文章作为基础爬虫知识的最后一篇,将以爬虫程序的模块设计来完结. 在我漫(liang)长(nian)的爬虫开发生涯中,我通常将 ...
【python3】如何建立爬虫代理ip池
一.为什么需要建立爬虫代理ip池在众多的网站防爬措施中,有一种是根据ip的访问频率进行限制的,在某段时间内,当某个ip的访问量达到一定的阀值时,该ip会被拉黑.在一段时间内被禁止访问. 这种时候,可 ...
Python爬虫代理IP池
目录[-] 1.问题 2.代理池设计 3.代码模块 4.安装 5.使用 6.最后在公司做分布式深网爬虫,搭建了一套稳定的代理池服务,为上千个爬虫提供有效的代理,保证各个爬虫拿到的都是对应网站有效的代 ...
建立爬虫代理IP池
单线程构建爬虫代理IP池 #!/usr/bin/python3.5 # -*- coding:utf-8 -*- import time import tempfile from lxml impor ...
C#——做一个简单代理IP池
一.缘由. 抓取数据时,有一些网站设置了一些反爬虫设置,进而将自己本地 IP 地址拉入系统黑名单.从而达到禁止本地 IP 访问数据的请求. 二.思路. 根据其他代理 IP 网站,进行一个免费的代理 ...
Python爬虫教程-11-proxy代理IP，隐藏地址（猫眼电影）
Python爬虫教程-11-proxy代理IP,隐藏地址(猫眼电影) ProxyHandler处理(代理服务器),使用代理IP,是爬虫的常用手段,通常使用UserAgent 伪装浏览器爬取仍然可能被网 ...

随机推荐

Tomcat基础操作
1.在WebApps ROOT目录里,如果删除过ROOT从新创建,放置index.html,index.jsp即可访问. 2.修改默认8080端口,打开server.xml,将8080端口修改为80即 ...
宽字符与Unicode （c语言汉语字符串长度）
在C语言中,我们使用char来定义字符,占用一个字节,最多只能表示128个字符,也就是ASCII码中的字符.计算机起源于美国,char 可以表示所有的英文字符,在以英语为母语的国家完全没有问题. 但是 ...
在Jenkins远程链接Linux系统，然后执行shell命令-亲测可用【转】
版权声明:本文为博主原创文章,未经博主允许不得转载.部分为转载其他人的,如要使用,也请提前通知一声 https://blog.csdn.net/a136332462/article/details/7 ...
Web应急：管理员账号被篡改
你是某一个网站的管理员,有一天,你的管理员账号admin却登录不了,进入数据库查看,原来管理员账号用户名不存在了,却多了另外一个管理员用户名.不对,不是新增了管理员,而是你的管理员用户名被篡改了. 现 ...
JavaIO学习：缓冲流
缓冲流 1.缓冲流涉及到的类 BufferedInputStream BufferedOutputStream BufferedReader BufferedWriter 2.作用提升流的读取.写入 ...
CSS加载会阻塞页面显示？
可能大家都知道,js执行会阻塞DOM树的解析和渲染,那么css加载会阻塞DOM树的解析和渲染吗?接下来,我们就一起来分析一下. 原理解析那么为什么会出现上面的现象呢?我们从浏览器的渲染过程来解析下. ...
WPF 精修篇多属性触发器
原文:WPF 精修篇多属性触发器多属性触发器就是多个属性都满足在触发在属性触发器上加了一些逻辑判断举栗子这个栗子里 textBox 要满足俩个条件才能触发背景变色 1)textbox的 ...
idea更改之前保存的git账号和密码
1.打开控制面板 2.用户账户 3.管理windows凭据 4.点击里面的git就可以修改了
ElasticSearch之安装及基本操作API
ElasticSearch 是目前非常流行的搜索引擎,对海量数据搜索是非常友好,并且在高并发场景下,也能发挥出稳定,快速特点.也是大数据和索搜服务的开发人员所极力追捧的中间件.虽然 ElasticSe ...
springmvc注解@Controller和@RequestMapping
Spring从2.5版本引入注解,从而让开发者的工作变得非常的轻松 springmvc注解Controller org.springframework.stereotype.Controller注解类 ...

构建一个给爬虫使用的代理IP池

构建一个给爬虫使用的代理IP池的更多相关文章

随机推荐

热门专题