网络爬虫 kamike.collect

Another Simple Crawler 又一个网络爬虫，可以支持代理服务器的FQ爬取。

1.数据存在mysql当中。

2.使用时，先修改web-inf/config.ini的数据链接相关信息，主要是数据库名和用户名和密码

3.然后访问http://127.0.0.1/fetch/install 链接，自动创建数据库表

4.修改src\java\cn\exinhua\fetch中的RestServlet.java文件：

FetchInst.getInstance().running=true;

Fetch fetch = new Fetch();

fetch.setUrl("http://www.washingtonpost.com/");

fetch.setDepth(3);

RegexRule regexRule = new RegexRule();

regexRule.addNegative(".*#.*");

regexRule.addNegative(".*png.*");

regexRule.addNegative(".*jpg.*");

regexRule.addNegative(".*gif.*");

regexRule.addNegative(".*js.*");

regexRule.addNegative(".*css.*");

regexRule.addPositive(".*php.*");

regexRule.addPositive(".*html.*");

regexRule.addPositive(".*htm.*");

Fetcher fetcher = new Fetcher(fetch);

fetcher.setProxyAuth(true);

fetcher.setRegexRule(regexRule);

List<Fetcher> fetchers = new ArrayList<>();

fetchers.add(fetcher);

FetchUtils.start(fetchers);

将其配置为需要的参数，然后访问http://127.0.0.1/fetch/fetch启动爬取

代理的配置在Fetch.java文件中：

protected int status;

protected boolean resumable = false;

protected RegexRule regexRule = new RegexRule();

protected ArrayList<String> seeds = new ArrayList<String>();

protected Fetch fetch;

protected String proxyUrl="127.0.0.1";

protected int proxyPort=4444;

protected String proxyUsername="hkg";

protected String proxyPassword="dennis";

protected boolean proxyAuth=false;

5.访问http://127.0.0.1/fetch/suspend可以停止爬取

hubinix / kamike.collect

Watch2 Fork3

Another Simple Crawler — More...

master分支代码最近更新：2015-03-30

下载zip

网络爬虫 kamike.collect的更多相关文章

【转】44款Java 网络爬虫开源软件
原帖地址 http://www.oschina.net/project/lang/19?tag=64&sort=time 极简网络爬虫组件 WebFetch WebFetch 是无依赖极简网页 ...
Python初学者之网络爬虫(二)
声明:本文内容和涉及到的代码仅限于个人学习,任何人不得作为商业用途.转载请附上此文章地址本篇文章Python初学者之网络爬虫的继续,最新代码已提交到https://github.com/octans ...
网络爬虫：使用Scrapy框架编写一个抓取书籍信息的爬虫服务
上周学习了BeautifulSoup的基础知识并用它完成了一个网络爬虫( 使用Beautiful Soup编写一个爬虫系列随笔汇总 ), BeautifulSoup是一个非常流行的Python网 ...
网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(3): 抓取amazon.com价格
通过上一篇随笔的处理,我们已经拿到了书的书名和ISBN码.(网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(2): 抓取allitebooks.com书籍信息 ...
网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(2): 抓取allitebooks.com书籍信息及ISBN码
这一篇首先从allitebooks.com里抓取书籍列表的书籍信息和每本书对应的ISBN码. 一.分析需求和网站结构 allitebooks.com这个网站的结构很简单,分页+书籍列表+书籍详情页. ...
网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(1): 基础知识Beautiful Soup
开始学习网络数据挖掘方面的知识,首先从Beautiful Soup入手(Beautiful Soup是一个Python库,功能是从HTML和XML中解析数据),打算以三篇博文纪录学习Beautiful ...
Atitit.数据检索与网络爬虫与数据采集的原理概论
Atitit.数据检索与网络爬虫与数据采集的原理概论 1. 信息检索1 1.1. <信息检索导论>((美)曼宁...)[简介_书评_在线阅读] - dangdang.html1 1.2. ...
Java 网络爬虫获取页面源代码
原博文:http://www.cnblogs.com/xudong-bupt/archive/2013/03/20/2971893.html 1.网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网 ...
[Search Engine] 搜索引擎技术之网络爬虫
随着互联网的大力发展,互联网称为信息的主要载体,而如何在互联网中搜集信息是互联网领域面临的一大挑战.网络爬虫技术是什么?其实网络爬虫技术就是指的网络数据的抓取,因为在网络中抓取数据是具有关联性的抓取, ...

随机推荐

基于Visual C++2013拆解世界五百强面试题--题10-找出N个数种最大的K个数
有一亿个整数,请找出最大的 1000 个,要求时间越短越好, 空间占用越好越好. 如果不考虑时间效率,很容易想到解决方法,我们只需存储前一千个数, 然后依次读入后面的数和这一千个数组比较,替换其中比较 ...
HDU 3015 Disharmony Trees
题解:在路边有一行树,给出它们的坐标和高度,先按X坐标排序.记录排名,记为rankx,再按它们的高度排序,记录排名,记为rankh.两颗树i,j的差异度为 fabs(rankx[i]-rankx[j] ...
python字符串操作总结
python中有各种字符串操作,一开始python有个专门的string模块,要使用需先import string.后来从python2.0开始,string方法改用str.method()形式调用, ...
HDU 2087 剪花布条 KMP入门
Problem Description 一块花布条,里面有些图案,另有一块直接可用的小饰条,里面也有一些图案.对于给定的花布条和小饰条.计算一下能从花布条中尽可能剪出几块小饰条来呢? Input ...
拿出来分享了！VIP珍藏！！！全网最齐全的 DEDECMS模板全盘下载地址列表！没有你找不到的！
拿出来分享了!VIP珍藏!!!全网最齐全的 DEDECMS模板网盘地址!没有你找不到的! 模板类型最齐全: ----------------------优美的走起!------------ 一:DE ...
TexturePacker 介绍
TexturePacker这个词从字面来说就是Texture(纹理) + Packer(打包). 它是一款把若干资源图片拼接为一张大图的工具.它由一位叫做Andreas Loew的老外开发的 :). ...
python之高阶函数编程
在这篇文章中我指出两点: 第一:系统函数可以被覆盖比如: a=abs(-10) print a 10 但是,如果把函数本身赋值给变量呢? f = abs f <built-in functio ...
「OC」类和对象
一.面向对象 OC语言是面向对象的,c语言是面向过程的,面向对象和面向过程只是解决问题的两种思考方式,面向过程关注的是解决问题涉及的步骤,面向对象关注的是设计能够实现解决问题所需功能的类. 术语:OO ...
JavaSE学习总结第10天_面向对象5
10.01 运动员和教练案例分析教练和运动员案例:运动员分乒乓球运动员和篮球运动员,教练分乒乓球教练和篮球教练.为了出国交流,跟乒乓球相关的人员都需要学习英语. 分析: 10.02 运动员和教练 ...
【Visual C++】游戏开发五十六浅墨DirectX教程二十三打造游戏GUI界面（一）
本系列文章由zhmxy555(毛星云)编写,转载请注明出处. 文章链接:http://blog.csdn.net/poem_qianmo/article/details/16384009 作者:毛星云 ...

网络爬虫 kamike.collect

hubinix / kamike.collect

网络爬虫 kamike.collect的更多相关文章

随机推荐

热门专题