项目是基于maven 结构的。

首先我们在pom.xml中加入log4j以及log4j驱动类支持;

<!-- 加入log4j支持 -->
<dependency>
<groupId>log4j</groupId>
<artifactId>log4j</artifactId>
<version>1.2.17</version>
</dependency> <!-- 加入slf4j log4j驱动类 -->
<dependency>
<groupId>org.slf4j</groupId>
<artifactId>slf4j-log4j12</artifactId>
<version>1.7.21</version>
</dependency> <dependency>
      <groupId>edu.uci.ics</groupId>

      <artifactId>crawler4j</artifactId>

      <version>4.2</version>

 </dependency>
 

log4j.properties配置如下:

log4j.rootLogger = debug,D,E

### debug ###
log4j.appender.D = org.apache.log4j.DailyRollingFileAppender
log4j.appender.D.File = c://logs/log.log
log4j.appender.D.Append = true
log4j.appender.D.Threshold = DEBUG
log4j.appender.D.layout = org.apache.log4j.PatternLayout
log4j.appender.D.layout.ConversionPattern = %-d{yyyy-MM-dd HH:mm:ss} [ %t:%r ] - [ %p ] %m%n ### error ###
log4j.appender.E = org.apache.log4j.DailyRollingFileAppender
log4j.appender.E.File =c://logs/error.log
log4j.appender.E.Append = true
log4j.appender.E.Threshold = ERROR
log4j.appender.E.layout = org.apache.log4j.PatternLayout
log4j.appender.E.layout.ConversionPattern = %-d{yyyy-MM-dd HH:mm:ss} [ %t:%r ] - [ %p ]

然后我们先来定义一个MyCrawler

package com.demo.crawler;

import java.util.Set;
import java.util.regex.Pattern; import edu.uci.ics.crawler4j.crawler.Page;
import edu.uci.ics.crawler4j.crawler.WebCrawler;
import edu.uci.ics.crawler4j.parser.HtmlParseData;
import edu.uci.ics.crawler4j.url.WebURL; /**
* 自定义爬虫类需要继承WebCrawler类,决定哪些url可以被爬以及处理爬取的页面信息
* @author
*
*/
public class MyCrawler extends WebCrawler { /**
* 正则匹配指定的后缀文件
*/
private final static Pattern FILTERS = Pattern.compile(".*(\\.(css|js|gif|jpg"
+ "|png|mp3|mp3|zip|gz))$"); /**
* 这个方法主要是决定哪些url我们需要抓取,返回true表示是我们需要的,返回false表示不是我们需要的Url
* 第一个参数referringPage封装了当前爬取的页面信息
* 第二个参数url封装了当前爬取的页面url信息
*/
@Override
public boolean shouldVisit(Page referringPage, WebURL url) {
String href = url.getURL().toLowerCase(); // 得到小写的url
return !FILTERS.matcher(href).matches() // 正则匹配,过滤掉我们不需要的后缀文件
&& href.startsWith("http://www.baidu.com/"); // url必须是http://wwwbaidu.com/开头,规定站点
} /**
* 当我们爬到我们需要的页面,这个方法会被调用,我们可以尽情的处理这个页面
* page参数封装了所有页面信息
*/
@Override
public void visit(Page page) {
int docid = page.getWebURL().getDocid(); // 获取docid url的唯一识别 类似主键
String url = page.getWebURL().getURL(); // 获取url
String domain = page.getWebURL().getDomain(); // 获取域名
String path = page.getWebURL().getPath(); // 获取路径
String subDomain = page.getWebURL().getSubDomain(); // 获取子域名
String parentUrl = page.getWebURL().getParentUrl(); // 获取上级Url
String anchor = page.getWebURL().getAnchor(); // 获取锚点 System.out.println("docid:"+docid);
System.out.println("url:"+url);
System.out.println("domain:"+domain);
System.out.println("path:"+path);
System.out.println("subDomain:"+subDomain);
System.out.println("parentUrl:"+parentUrl);
System.out.println("anchor:"+anchor);
    
if (page.getParseData() instanceof HtmlParseData) { // 判断是否是html数据
HtmlParseData htmlParseData = (HtmlParseData) page.getParseData(); // 强制类型转换,获取html数据对象
String text = htmlParseData.getText(); // 获取页面纯文本(无html标签)
String html = htmlParseData.getHtml(); // 获取页面Html
Set<WebURL> links = htmlParseData.getOutgoingUrls(); // 获取页面输出链接 System.out.println("纯文本长度: " + text.length());
System.out.println("html长度: " + html.length());
System.out.println("输出链接个数: " + links.size());
} Header[] responseHeaders = page.getFetchResponseHeaders(); // 获取响应头消息
if (responseHeaders != null) {
System.out.println("响应的头消息");
for (Header header : responseHeaders) {
System.out.println(header.getName()+"+"+header.getValue());
}
}
}
}

再写一个控制器Controller:

package com.demo.crawler;

import edu.uci.ics.crawler4j.crawler.CrawlConfig;
import edu.uci.ics.crawler4j.crawler.CrawlController;
import edu.uci.ics.crawler4j.fetcher.PageFetcher;
import edu.uci.ics.crawler4j.robotstxt.RobotstxtConfig;
import edu.uci.ics.crawler4j.robotstxt.RobotstxtServer; /**
* 爬虫控制器
* @author
*
*/
public class Controller {
public static void main(String[] args) throws Exception {
String crawlStorageFolder = "c:/crawl"; // 定义爬虫数据存储位置
int numberOfCrawlers = 7; // 定义7个爬虫,也就是7个线程 CrawlConfig config = new CrawlConfig(); // 定义爬虫配置
config.setCrawlStorageFolder(crawlStorageFolder); // 设置爬虫文件存储位置

     /*
* 设置请求的频率
* 每1000毫秒,也就是两次请求的间隔至少是1秒
*/
config.setPolitenessDelay(1000); /*
* 设置请求的网页的深度(后面专门会讲) 设置2 为两层
* 默认值-1 无限深度
*/
config.setMaxDepthOfCrawling(2); /*
* 设置爬取的最大网页数 这里设置1000 最多爬取1000次
* 默认值是-1,表示无限制
*/
config.setMaxPagesToFetch(1000); /**
* 是否爬取二进制文件,比如图片,PDF文档,视频之类的东西 这里设置false 不爬取
* 默认值true,爬取
*/
config.setIncludeBinaryContentInCrawling(false); /*
* 这里可以设置代理
* config.setProxyHost("proxyserver.example.com"); // 代理地址
* config.setProxyPort(8080); // 代理端口
*
* 如果使用代理,也可以设置身份认证 用户名和密码
* config.setProxyUsername(username); config.getProxyPassword(password);
*/ /*
* 这个配置假如设置成true,当一个爬虫突然终止或者奔溃,我们可以恢复;
* 默认配置是false;推荐用默认配置,假如设置成true,性能会大打折扣;
*/
config.setResumableCrawling(false);
/*
* 实例化爬虫控制器
*/
PageFetcher pageFetcher = new PageFetcher(config); // 实例化页面获取器
RobotstxtConfig robotstxtConfig = new RobotstxtConfig(); // 实例化爬虫机器人配置 比如可以设置 user-agent // 实例化爬虫机器人对目标服务器的配置,每个网站都有一个robots.txt文件 规定了该网站哪些页面可以爬,哪些页面禁止爬,该类是对robots.txt规范的实现
RobotstxtServer robotstxtServer = new RobotstxtServer(robotstxtConfig, pageFetcher);
// 实例化爬虫控制器
CrawlController controller = new CrawlController(config, pageFetcher, robotstxtServer); /**
* 配置爬虫种子页面,就是规定的从哪里开始爬,可以配置多个种子页面
*/
controller.addSeed("http://www.baidu.com/");
controller.addSeed("http://www.baidu.com/a/kaiyuan/");
controller.addSeed("http://www.baidu.com/a/bysj/"); /**
* 启动爬虫,爬虫从此刻开始执行爬虫任务,根据以上配置
*/
controller.start(MyCrawler.class, numberOfCrawlers);     

// 休息5秒
Thread.sleep(10 * 1000);

System.out.println("休息10秒");

// 停止爬取
controller.shutdown();
System.out.println("停止爬取");

// 等待结束任务
controller.waitUntilFinish();


  
}
}

运行Controller.

int docid = page.getWebURL().getDocid(); // 获取docid url的唯一识别 类似主键
        String url = page.getWebURL().getURL();  // 获取url
        String domain = page.getWebURL().getDomain(); // 获取域名
        String path = page.getWebURL().getPath();  // 获取路径 
        String subDomain = page.getWebURL().getSubDomain(); // 获取子域名
        String parentUrl = page.getWebURL().getParentUrl(); // 获取上级Url
        String anchor = page.getWebURL().getAnchor(); // 获取锚点
 
        System.out.println("docid:"+docid);
        System.out.println("url:"+url);
        System.out.println("domain:"+domain);
        System.out.println("path:"+path);
        System.out.println("subDomain:"+subDomain);
        System.out.println("parentUrl:"+parentUrl);
        System.out.println("anchor:"+anchor);

Crawler4j快速入门实例的更多相关文章

  1. 实体框架(Entity Framework)快速入门--实例篇

    在上一篇 <实体框架(Entity Framework)快速入门> 中我们简单了解的EF的定义和大体的情况,我们通过一步一步的做一个简单的实际例子来让大家对EF使用有个简单印象,看操作步骤 ...

  2. Rsync快速入门实例(转)

    三种主要数据传输方式 单主机本地目录间数据传输(类似cp) Local: rsync [OPTION...] SRC... [DEST] 借助rcp,ssh等通道来传输数据(类似scp) Access ...

  3. 简单粗暴,详细得不要不要的 JavaWeb快速入门实例(1)

    额,有些标题党的嫌疑,小细节不用在意哈... 前端时间我在写一个系列,是关于JavaWeb的一个入门级项目实战,我的初衷就是打算写给初学者的,希望能对他们有所帮助. 这段时间博主也接触了一些事情,感觉 ...

  4. Hibernate快速入门实例

    Hibernate工程项目创建基本步骤:导包(Hibernate依赖包.SQL驱动包).编写实体类.编写ORM映射配置文件.编写核心配置文件.编写测试驱动. 整个工程项目结构如下图: 一.导包 笔者使 ...

  5. Entity Framework快速入门--ModelFirst

    Entity Framework带给我们的不仅仅是操作上的方便,而且使用上也很是考虑了用户的友好交互,EF4.0与vs2010的完美融合也是我们选择它的一个理由吧.相比Nhibernate微软这方面做 ...

  6. Flask快速入门

    flask快速入门 1.1.三种框架比较 Django: 重武器,内部包含了非常多组件:ORM.Form.ModelForm.缓存.Session.中间件.信号等 Flask:短小精悍,内部没有太多组 ...

  7. Expression Blend实例中文教程(11) - 视觉管理器快速入门Visual State Manager(VSM)

    Visual State Manager,中文又称视觉状态管理器(简称为VSM),是Silverlight 2中引进的一个概念.通过使用VSM,开发人员和设计人员可以轻松的改变项目控件的视觉效果,在项 ...

  8. Expression Blend实例中文教程(9) - 行为快速入门Behaviors

    在Blend强大的设计功能支持下,设计人员和开发人员可以无代码实现Silverlight/WPF动画效果,例如上文介绍的StoryBoard,就是一个典型例子,设计人员和开发人员仅需提供必要元素,即可 ...

  9. Expression Blend实例中文教程(8) - 动画设计快速入门StoryBoard

    上一篇,介绍了Silverlight动画设计基础知识,Silverlight动画是基于时间线的,对于动画的实现,其实也就是对对象属性的修改过程. 而Silverlight动画分类两种类型,From/T ...

随机推荐

  1. 状态模式(state)C++实现

    状态模式 当一个对象的内在状态改变时允许改变其行为,这个对象看起来像是改变了其类. 状态模式主要解决的是当控制一个对象状态转换的条件表达式过于复杂时的情况.把状态的判断逻辑转移到表示不同状态的一系列类 ...

  2. 第5章分布式系统模式 Broker(代理程序)

    许多复杂的软件系统运行在多个处理器或分布式计算机上.将软件分布在多台计算机上的原因有多种,例如: 分布式系统可以利用多个 CPU 或一群低成本计算机的计算能力. 某个软件可能仅在特定计算机上可用. 出 ...

  3. SQL Server-聚焦强制索引查询条件和Columnstore Index

    前言 本节我们再来穿插讲讲索引知识,后续再讲数据类型中的日期类型,简短的内容,深入的理解,Always to review the basics. 强制索引查询条件 前面我们也讲了一点强制索引查询的知 ...

  4. FAQ: SBS 2011. The Windows SBS Manager service terminated unexpectedly

    Symptoms The Windows SBS Manager service is stopped with EventID 7034 every half an hour on SBS 2011 ...

  5. Dynamics 365 CRM 部署 Connected Field Service

    微软 Connected Field Service 是一个提供Azure IoT 和 Dynamics 365 连接的这样一个框架 有两种方式部署CFS, 一种是用IoT Hub PaaS, 一种是 ...

  6. Linux date命令的用法(转)

    1.命令:date 2.命令功能:date 可以用来显示或设定系统的日期与时间. 3.命令参数 -d<字符串>:显示字符串所指的日期与时间.字符串前后必须加上双引号: -s<字符串& ...

  7. JDK源码中的英文注释翻译(Enum<E extends Enum<E>>)

    public abstract class Enum<E extends Enum<E>> implements Comparable<E>, Serializab ...

  8. Here comes Treble: A modular base for Android

    On the Android team, we view each dessert release as an opportunity to make Android better for our u ...

  9. 使用***客户端和Privoxy让所有CentOS 7命令行工具通过代理访问互联网(转载)

    安装*** 首先安装pip: curl -LO "https://bootstrap.pypa.io/get-pip.py" python get-pip.py 通过pip安装** ...

  10. Codeforces Round #468 (Div. 2, based on Technocup 2018 Final Round)B. World Cup

    The last stage of Football World Cup is played using the play-off system. There are n teams left in ...