网络爬虫 kamike.collect

Another Simple Crawler 又一个网络爬虫，可以支持代理服务器的FQ爬取。

1.数据存在mysql当中。

2.使用时，先修改web-inf/config.ini的数据链接相关信息，主要是数据库名和用户名和密码

3.然后访问http://127.0.0.1/fetch/install 链接，自动创建数据库表

4.修改src\java\cn\exinhua\fetch中的RestServlet.java文件：

FetchInst.getInstance().running=true;

Fetch fetch = new Fetch();

fetch.setUrl("http://www.washingtonpost.com/");

fetch.setDepth(3);

RegexRule regexRule = new RegexRule();

regexRule.addNegative(".*#.*");

regexRule.addNegative(".*png.*");

regexRule.addNegative(".*jpg.*");

regexRule.addNegative(".*gif.*");

regexRule.addNegative(".*js.*");

regexRule.addNegative(".*css.*");

regexRule.addPositive(".*php.*");

regexRule.addPositive(".*html.*");

regexRule.addPositive(".*htm.*");

Fetcher fetcher = new Fetcher(fetch);

fetcher.setProxyAuth(true);

fetcher.setRegexRule(regexRule);

List<Fetcher> fetchers = new ArrayList<>();

fetchers.add(fetcher);

FetchUtils.start(fetchers);

将其配置为需要的参数，然后访问http://127.0.0.1/fetch/fetch启动爬取

代理的配置在Fetch.java文件中：

protected int status;

protected boolean resumable = false;

protected RegexRule regexRule = new RegexRule();

protected ArrayList<String> seeds = new ArrayList<String>();

protected Fetch fetch;

protected String proxyUrl="127.0.0.1";

protected int proxyPort=4444;

protected String proxyUsername="hkg";

protected String proxyPassword="dennis";

protected boolean proxyAuth=false;

5.访问http://127.0.0.1/fetch/suspend可以停止爬取

hubinix / kamike.collect

Watch2 Fork3

Another Simple Crawler — More...

master分支代码最近更新：2015-03-30

下载zip

网络爬虫 kamike.collect的更多相关文章

【转】44款Java 网络爬虫开源软件
原帖地址 http://www.oschina.net/project/lang/19?tag=64&sort=time 极简网络爬虫组件 WebFetch WebFetch 是无依赖极简网页 ...
Python初学者之网络爬虫(二)
声明:本文内容和涉及到的代码仅限于个人学习,任何人不得作为商业用途.转载请附上此文章地址本篇文章Python初学者之网络爬虫的继续,最新代码已提交到https://github.com/octans ...
网络爬虫：使用Scrapy框架编写一个抓取书籍信息的爬虫服务
上周学习了BeautifulSoup的基础知识并用它完成了一个网络爬虫( 使用Beautiful Soup编写一个爬虫系列随笔汇总 ), BeautifulSoup是一个非常流行的Python网 ...
网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(3): 抓取amazon.com价格
通过上一篇随笔的处理,我们已经拿到了书的书名和ISBN码.(网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(2): 抓取allitebooks.com书籍信息 ...
网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(2): 抓取allitebooks.com书籍信息及ISBN码
这一篇首先从allitebooks.com里抓取书籍列表的书籍信息和每本书对应的ISBN码. 一.分析需求和网站结构 allitebooks.com这个网站的结构很简单,分页+书籍列表+书籍详情页. ...
网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(1): 基础知识Beautiful Soup
开始学习网络数据挖掘方面的知识,首先从Beautiful Soup入手(Beautiful Soup是一个Python库,功能是从HTML和XML中解析数据),打算以三篇博文纪录学习Beautiful ...
Atitit.数据检索与网络爬虫与数据采集的原理概论
Atitit.数据检索与网络爬虫与数据采集的原理概论 1. 信息检索1 1.1. <信息检索导论>((美)曼宁...)[简介_书评_在线阅读] - dangdang.html1 1.2. ...
Java 网络爬虫获取页面源代码
原博文:http://www.cnblogs.com/xudong-bupt/archive/2013/03/20/2971893.html 1.网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网 ...
[Search Engine] 搜索引擎技术之网络爬虫
随着互联网的大力发展,互联网称为信息的主要载体,而如何在互联网中搜集信息是互联网领域面临的一大挑战.网络爬虫技术是什么?其实网络爬虫技术就是指的网络数据的抓取,因为在网络中抓取数据是具有关联性的抓取, ...

随机推荐

Sumsets（完全背包）
Sumsets Time Limit: 2000MS Memory Limit: 200000K Total Submissions: 15045 Accepted: 5997 Descrip ...
[置顶] c++播放Flash文件
最近由于需要在程序中使用Flash播放,所以学习了下如何播放Flash,这里使用atl库中的CAxWindow来处理我们要播放的Flash!由于Flash的很多接口我们都不知道,所以可以参考前一篇文章 ...
Android 带password输入界面的Dialog实现机制
1.布局实现: <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:andr ...
详解iOS开发之自定义View
iOS开发之自定义View是本文要将介绍的内容,iOS SDK中的View是UIView,我们可以很方便的自定义一个View.创建一个 Window-based Application程序,在其中添加 ...
iOS中怎样加入自己定义的字体
苹果对于开发,确实在细节方面下了非常大的功夫,只是不管一个平台下多大的功夫,仍然会有些需求是无法涵盖的.比方字体吧. 我们的应用为了能更加个性化.会须要不同的字体.有时候有些字体是非常特殊的.甚至是购 ...
UC/0S2之中断
中断是计算机系统处理异步事件的重要机制.当异步事件发生时,事件通常是通过硬件向cpu发出中断请求的.在一般情况下,cpu响应这个请求后会立即运行中断服务程序来处理该事件: 为了处理任务延时.任务调度等 ...
【已解决】谁动了我的CurrentPrincipal？求助我在给Artech的wcf petshop增加授权机制的时候遇到的问题。
这个问题已解决,是绑定设置的问题,主要还是因为我自己没有深入理解WCF绑定的安全机制.在这篇博客里面我来说说怎么解决的. 下载了Artech的wcf petshop源码(博文链接)并调试运行成功后,打 ...
Ext JS学习第十四天 Ext基础之 Ext.DomHelper
此文用来记录学习笔记 •我们已经学过了Element这个类,无疑是非常强大的,里面提供了丰富的方法供我们使用,但是Ext为了更加的方便我们去操作DOM元素,特提供了DomHelper这个辅助的工具 ...
5种方法去掉HTML中Inline-Block元素之间的空白
5种方法去掉HTML中Inline-Block元素之间的空白记得年轻时我在IE6上开发,绝望的希望IE6能支持display: inline-block功能.当需要在”inline”元素上控制mar ...
高级UNIX环境编程10 信号
信号是软件中断,提供一种处理异步事件的方法 <signal.h> sigaction()

网络爬虫 kamike.collect

hubinix / kamike.collect

网络爬虫 kamike.collect的更多相关文章

随机推荐

热门专题