java实现多线程使用多个代理ip的方式爬取网页页面内容

项目的目录结构

核心源码：

package cn.edu.zyt.spider;

import java.io.BufferedInputStream;

import java.io.FileInputStream;

import java.io.FileNotFoundException;

import java.io.IOException;

import java.io.InputStream;

import java.util.Properties;

import cn.edu.zyt.spider.model.SpiderParams;

import cn.edu.zyt.spider.queue.UrlQueue;

import cn.edu.zyt.spider.worker.SpiderWorker;

public class SpiderStarter {

    public static void main(String[] args){

        System.setProperty("java.net.useSystemProxies", "true");

        System.setProperty("http.proxyHost", "113.128.9.37");

        System.setProperty("http.proxyPort", "9999");

        System.setProperty("https.proxyHost", "113.128.9.37");

        System.setProperty("https.proxyPort", "9999");

        // 初始化配置参数

        initializeParams();

        // 初始化爬取队列

        initializeQueue();

        // 创建worker线程并启动

        for(int i = 1; i <= SpiderParams.WORKER_NUM; i++){

            new Thread(new SpiderWorker(i)).start();

        }

    }

    /**

     * 初始化配置文件参数

     */

    private static void initializeParams(){

        InputStream in;

        try {

            in = new BufferedInputStream(new FileInputStream("conf/spider.properties"));

            Properties properties = new Properties();

            properties.load(in);

            // 从配置文件中读取参数

            SpiderParams.WORKER_NUM = Integer.parseInt(properties.getProperty("spider.threadNum"));

            SpiderParams.DEYLAY_TIME = Integer.parseInt(properties.getProperty("spider.fetchDelay"));

            in.close();

        }

        catch (FileNotFoundException e) {

            e.printStackTrace();

        }

        catch (IOException e) {

            e.printStackTrace();

        }

    }

    /**

     * 准备初始的爬取链接

     */

    private static void initializeQueue(){

        // 例如，需要抓取天下粮仓信息，根据链接规则生成URLs放入带抓取队列http://www.cofeed.com/national_1.html

        for(int i = 0; i < 3; i += 1){

            UrlQueue.addElement("http://www.cofeed.com/national_" + i+".html");

        }

    }

}

实现效果图：

由于页面代码较多就不一一粘贴了，获取完整源码可在博客下方留言哈

java实现多线程使用多个代理ip的方式爬取网页页面内容的更多相关文章

Java中使用多线程、curl及代理IP模拟post提交和get访问
Java中使用多线程.curl及代理IP模拟post提交和get访问菜鸟,多线程好玩就写着玩,大神可以路过指教,小弟在这受教,谢谢! 更多分享请关注微信公众号:lvxing1788 ~~~~~~ 分 ...
Java中使用多线程、curl及代理IP模拟post提交和get訪问
Java中使用多线程.curl及代理IP模拟post提交和get訪问菜鸟,多线程好玩就写着玩.大神能够路过不吝赐教.小弟在这受教.谢谢! 很多其它分享请关注微信公众号:lvxing1788 ~~~~ ...
使用Selenium&PhantomJS的方式爬取代理
前面已经爬取了代理,今天我们使用Selenium&PhantomJS的方式爬取快代理 :快代理 - 高速http代理ip每天更新. 首先分析一下快代理,如下使用谷歌浏览器,检查,发现每个代理 ...
Java两种方式简单实现：爬取网页并且保存
注:如果代码中有冗余,错误或者不规范,欢迎指正. Java简单实现:爬取网页并且保存对于网络,我一直处于好奇的态度.以前一直想着写个爬虫,但是一拖再拖,懒得实现,感觉这是一个很麻烦的事情,出现个小错 ...
java爬虫-简单爬取网页图片
刚刚接触到“爬虫”这个词的时候是在大一,那时候什么都不明白,但知道了百度.谷歌他们的搜索引擎就是个爬虫. 现在大二.再次燃起对爬虫的热爱,查阅资料,知道常用java.python语言编程,这次我选择了 ...
php 使用代理IP进行数据抓取
什么是代理?什么情况下会用到代理IP?代理服务器(Proxy Server),其功能就是代用户去取得网络信息,然后返回给用户.形象的说:它是网络信息的中转站.通过代理IP访问目标站,可以隐藏用户的真实 ...
如何使用代理IP进行数据抓取，PHP爬虫抓取亚马逊商品数据
什么是代理?什么情况下会用到代理IP? 代理服务器(Proxy Server),其功能就是代用户去取得网络信息,然后返回给用户.形象的说:它是网络信息的中转站.通过代理IP访问目标站,可以隐藏用户的真 ...
一个简单java爬虫爬取网页中邮箱并保存
此代码为一十分简单网络爬虫,仅供娱乐之用. java代码如下: package tool; import java.io.BufferedReader; import java.io.File; im ...
python多线程与多进程--存活主机ping扫描以及爬取股票价格
python多线程与多进程多线程: 案例:扫描给定网络中存活的主机(通过ping来测试,有响应则说明主机存活) 普通版本: #扫描给定网络中存活的主机(通过ping来测试,有响应则说明主机存活)im ...

随机推荐

vue打包遇到的坑
1.-webkie-box-orient:vertical没大打包上,解决方案 /* ! autoprefixer: off */ -webkit-box-orient: vertical; /* a ...
Oracle中的substr()函数详解及应用
注:本文来源于<Oracle中的substr()函数详解及应用> 1)substr函数格式 (俗称:字符截取函数) 格式1: substr(string string, int a, ...
电脑移动后WIFI连接失败解决方法
1.现象原因经常会发现将自己的电脑带到不同的地方后连接附近WIFI失败的现象,这是什么原因造成的了,觉得明明之前还有连过这个无线,密码都是正确的,无线连接的图标显示一个大大大的感叹号! 像下面一样 ...
U盘安装Mac OS X要点
1.启动U盘必须比系统磁盘小,因为制作启动U盘,U盘很可能被当成系统盘.系统安装时,发现系统盘比U盘小,很可能提示安装失败. 2.制作启动U盘.详情查看官网:https://support.apple ...
Java练习2
1 编写一个应用程序,模拟机动车的加速和减速功能.机动车类Vehicle的UML图如下,其中speedUp()方法实现加速功能,速度上限为240 km/h:speedDown()实现降速功能,下限为0 ...
[转] vue异步处理错误
Vue.prototype.$await = async function(action) { try { await action(); } catch (err) { // 这里是你处理错误的逻辑 ...
利用js实现禁用浏览器后退
现在很多的内部系统,一些界面,都是用户手动点击退出按钮的.但是为了避免,用户误操作点击浏览器后退,或者用鼠标手势后退什么的.容易出现误操作. 所以在有些页面上,适当的禁用浏览器的后退, ...
工具系列-idea破解
>>>>>>>>>>>>>>>>>>>>>>>>> ...
不可不知的表达式树（1）Expression初探
说起Lambda表达式,大家基本都很熟悉了,而表达式树(Expression Trees),则属于80%的工作中往往都用不到的那种技术,所以即便不是什么新技术,很多人对其理解都并不透彻.此文意图从表达 ...
JS的变量的值怎么传递给PHP的变量？
get: <script> name="xxx"; window.location='xxx.php? name='+name; post: <script> ...

java实现多线程使用多个代理ip的方式爬取网页页面内容

java实现多线程使用多个代理ip的方式爬取网页页面内容的更多相关文章

随机推荐

热门专题